第82章 领先一代半的算法
领先一年时间几乎等同于技术方面领先一代了。
而生成/抽取复合式新闻摘要算法更是领先14年这个时空主流新闻摘要算法一代半。
这可不是林灰夸张。
事实上,现在的新闻摘要自动生成的方式还是抽取式新闻摘要。
抽取式顾名思义就是按照一定的权重从新闻原文中寻找跟中心思想最接近的一条或几条句子。
抽取式摘要还在用着“古老”的TextRank排序算法。
这种算法大体思想是先去除文章中的一些停用词,之后对句子的相似度进行度量,计算每一句相对另一句的相似度得分,迭代传播,直到误差小于0.0001。
之后再对上述得到的关键语句进行排序,以期能得到想要的摘要。
客观来说,这种算法虽然也挺高效。
但问题在于抽取式摘要主要考虑单词词频,并没有考虑过多的语义信息。
也正因为如此,这种抽取式摘要很难获取复杂新闻的核心内容。
而且这种摘要方式的一个极其明显的弊端在于。
抽取式摘要对英文新闻还算能凑合着用。
但对于中文新闻完全是无所适从的状态。
总而言之,抽取式的摘要目前虽然已经比较成熟。
但是抽取质量及内容流畅度均差强人意。
正因为抽取式摘要的种种不足。
之后又出现了生成式摘要算法。
生成式摘要算法得益于神经网络学习研究的深入。
这种摘要以一种更接近于人的方式生成摘要。
这