失效链接处理 |
基于语义理解的论文相似度研究现状及进展 PDF 下载
本站整理下载:
相关截图:
![]()
主要内容:
1.文本相似度研究
文本相似度是表示两个或者多个文本之间匹配程度的一个度量参数,其相似
度主要表现在字面重复度上,是一项基础而系统的工程。就目前的文本相似度研
究现状来看,文本相似度计算方法大概分为两种[1]:一是基于统计的方法;二
是基于距离的方法。基于统计的方法主要在句子以上的文本相似度计算(段落以
上)中应用比较广泛并取得较好的效果;而基于距离的方法主要在词、组块、句
子的相似度计算中得到广泛应用,占据主要地位。
(1) 词语相似度研究现状。目前,文本相似度研究多数是以词语相似度研
究为基础,国内外学者对词语相似度进行了大量的研究,提出了很多成熟的计算
方法,比如国内学者提出的基于汉明距离计算方法[2]、基于属性论的计算方法
[3]、基于部件的计算方法[4]、基于本体的计算方法[5]、基于词共线的计算方
法[6]与基于事件的计算方法[7];国外学者提出的基于向量空间模型的计算方法
[8]、基于搜索引擎的方法[9]、基于构成字符的相似度计算方法[10]、基于词典
注释的方法、基于Word-Net等词典的计算方法和基于大规模语料库统计的方法。
上述的方法可以看出在词语相似度计算层面上其算法已经比较成熟,其研究在自
然语言处理、机器翻译、数据挖掘、文本聚类、信息检索、信息过滤等领域已经
得到广泛的实际应有。
(2) 句子相似度研究现状。对句子的相似度研究主要偏向于国外学者,句
子基本上是英文字母构成,因此大部分句子相似度研究主要是针对字符串的相似
度计算,如基于编辑距离以及其扩展算法的相似串模糊匹配[11]算法;MCWPA字
4 符串快速比较算法[10]以及LCS算法[12];而在国内,由于汉语本身的特点,
词语、句子、段落之间的结构非常复杂,因此对汉语句子的相似度计算主要是以
词语为基础进行的,通过词语相似度的加权组合得到句子相似度,比如金博等人
在词汇相似度的基础上,通过对句子进行分词得到不同的词性集合,进而为不同
词性的词赋予与之对应的权重来综合计算其句子的相似度[13];李伟等人通过提
取关键句中的关键词用于计算其句子相似度方法[14];李素建提出的基于《知网》
与《同义词词林》,提出了引入语句相关性的定量计算模型[15];吕学强等在计
算相似度时加入词序相似度和词形相似度两个影响因子,提出了句子相似模型,
并根据其模型进一步提出了最相似句子的查找算法[16];郭庆琳、李艳梅等人在
传统的DF算法与TD-IDF算法进行了改进,一方面通过增加关键词的方法弥补对个
别有用信息的过滤不足(TD算法);另一方面利用特征项的权重对TD-IDF方法进
1
行加权处理,提高了相似度计算的精确度[17];郭武斌、周宽久等人针对传统向
量空间模型对文本相似度的计算未考虑词序导致偏差问题,提出了使用马尔科夫
模型的形态转换矩阵、两个文本的最长公共子序列以及他们的所有公共字串信息
来描述词序信息,并以此提出了一种将马尔科夫转移矩阵、最长公共子串、公共
子序列和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法[18]。
(3) 段落及段落以上形式相似度研究现状。从目前的研究现状来看,由于
段落及段落以上的文本结构复杂,涉及到段落的分句处理,段落的语法结构,文
本的特征提取,加之文本的数量规模大,因此对段落以及段落以上的文本相似度
计算研究相对比较少。但是在国内研究的学者还是存在,如游春晖[19]对文本相
似度的研究,通过对基于语料库、基于词典的文本相似度研究与基于《知网》的
语义相似度研究的分析处理,通过权衡选择了基于《知网》的语义相似度研究,
并把语义理解的情感倾向引入到文本相似度的计算当中,对句子、段落及段落以
上文本进行了相似度计算。
2.语义相似度研究
语义相似度是到目前为止还没有一个统一的定义,其主观性相当强,不能脱
离具体的应用环境来分析其语义相似度。因为词语之间的关系非常复杂,涉及到
词语的相关度、词语的语法等关系,很难用一个简单的数值来明确的衡量他们之
间的相似或差异之处,在具体的语境中,从这个角度看来非常相似的词语,但是
从其它角度来看同样的词语,很可能差异非常大。刘群等对语义相似度的定义是
两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的
程度[20]。对于语义相似度的计算,国内外学者进行了大量的研究,国外的研究
起步比较早,国内对语义相似度研究比较缓慢,国内外对语义相似度的研究策略
大致可以分为两类:
(1) 基于语义网络的语义相似度:主要是利用Word-Net[21]、How-Net[22]
等语义词典中的同义词或义原组成的树状层次体系结构来计算相似度,计算模型
包括基于语义距离[23]、基于信息量[24]和基于属性[25]等。基于语义距离,主
要是通过计算概念在树状层次体系结构中的语义距离来计算语义相似度。该模型
简单、直观、但是过度依赖层次网络,并且没有考虑影响语义距离的其它多种因
素;基于信息量,主要通过两个概念共同祖先的最大的信息量,来衡量它们的语
义相似度。在此模型中信息论和概率论的相关知识得到充分利用,但是该模型多
用于树状结构,并且不能细致区分语义差别。
(2) 利用大规模语料库的语义相似度:在此类方法中主要是利用两种方法
来计算语义相似度,第一种方法通过统计其两个不同的概念在上下文中出现的频
率,以频率为基础来计算语义相似度[26];第二种方法通过计算概念相关性来计
算其相似度[27]。该模型比较直观,比较注重概念之间的关系,但是概念的相关
性判断比较依赖人的主观性。具体而言,徐德智,吴健等人提出通过计算两个不
同的概念在语义层次树中的语义距离,以距离来衡量与计算两个概念间的语义相
似度[28];WongAK Y,Pay P等人提出根据每个子概念的贡献赋予其对应的权重,
在每一个概念中,其所有子概念的权重和应该为 1,最后综合计算子概念间的相
2
似度与其权重的线性之和,即可得出其相应概念的语义相似度[29];Doan AH,
Madhavan J等人以联合分布概率统计的方法来计算其概念之间的语义相似度
[30];Higgins D利用搜索引擎作为语料库,通过其来计算概念间的语义相似度
[31];贾可亮、樊孝忠等人进行的运用《知网》中的语义相似度计算进行FAQ研
究,通过基于《知网》的语义相似度计算出用户问句与《知网》中的候选句之间
的相似度,从《知网》中找出最相似的问句,从而将相应的答案返回给用户,通
过汉语句子的相似度计算大大的提高了问句匹配的准确率[22]。为了提高相似度
的准确性,各位学者在算法与模型上做了很大的努力,提出了多种多样的算法与
模型,其关注点从简单的字面意义上的相似度,逐步上升到语义的角度,充分考
虑到语义、语法、词性、词法以及词间的结构关系。因此,未来的相似度研究必
须要上升到语义相似度的层次,本文通过权衡借鉴《知网》的研究,从《知网》
中词语相似度算法开始,进而扩展到句子相似度算法、段落相似度算法、论文相
似度算法,进而应用到论文检测。
|