爱情短信大全网>句子大全> 正文 2020-05-27 16:32

句子相似性(如何比较两个词语的相似度)

如何计算两个句子的相似度

如何计算句子的语义相似度,很容易想到的是向量空间模型(VSM)和编辑距离的方法,比如A:“我爸是李刚”,B:“我儿子是李刚”,利用VSM方法A(我,爸,是,李刚)B(我,儿子,是,李刚),计算两个向量的夹角余弦值,不赘述;编辑距离就更好说了将“爸”,“儿子”分别替换掉,D(A,B)= replace_cost;

这是两种相当呆的方法,属于baseline中的baseline,换两个例子看一下就知道A:“楼房如何建造?”,B:“高尔夫球怎么打?”,C:“房子怎么盖?”,如果用VSM算很明显由于B,C中有共同的词“怎么”,所以BC相似度高于AC;编辑距离同理;

解决这种问题方法也不难,只要通过同义词词典对所有句子进行扩展,“如何”、“怎么”,“楼房”、“房子”都是同义词或者近义词,扩展后再算vsm或者edit distance对这一问题即可正解。这种方法一定程度上解决了召回率低的问题,但是扩展后引入噪声在所难免,尤其若原句中含有多义词时。例如:“打酱油”、“打毛衣”。在汉字中有些单字词表达了相当多的意义,在董振东先生的知网(hownet)中对这种类型汉字有很好的语义关系解释,通过hownet中词语到义元的树状结构可以对对词语粒度的形似度进行度量。

问题到这里似乎得到了不错的解答,但实际中远远不够。VSM的方法把句子中的词语看做相互独立的特征,忽略了句子序列关系、位置关系对句子语义的影响;Edit Distance考虑了句子中词语顺序关系,但是这种关系是机械的置换、移动、删除、添加,实际中每个词语表达了不同的信息量,同样的词语在不同词语组合中包含的信息量或者说表达的语义信息大不相同。What about 句法分析,计算句法树的相似度?这个比前两种方法更靠谱些,因为句法树很好的描述了词语在句子中的地位。实际效果要待实验证实。

对了,还有一种方法translation model,IBM在机器翻译领域的一大创举,需要有大量的语料库进行训练才能得到理想的翻译结果。当然包括中间词语对齐结果,如果能够利用web资源建立一个高质量的语料库对两两相似句对通过EM迭代词语对齐,由词语对齐生成句子相似度,这个。。想想还是不错的方法!

求一个与这个句子相似的句子

古诗串烧?

1、少小离家老大回,安能辨我是雄雌。(苦命的人儿,这些年你都经历了什么?)

2、红酥手,黄藤酒,两个黄鹂鸣翠柳。长亭外,古道边,一行白鹭上青天。(如此意境,只有汉语做得到)

3、夜深忽梦少年事,惟梦闲人不梦君。(跟此人有仇啊?)

4、借问酒家何处有,姑苏城外寒山寺。(不许瞎说!)

5、洛阳亲友如相问,轻舟已过万重山,(欠人钱了?跑得够快的啊!)

6、爷娘闻女来,举身赴清池;阿姊闻妹来,自挂东南枝。小弟闻姊来,琵琶声停欲语迟。(这位姑娘,你人品真差)

7、在天愿作比翼鸟,大难临头各自飞。(你俩真配……)

8、美人卷珠帘,万径人踪灭。两岸猿声啼不住,惊起蛙声一片。(这还是美人吗?!)

9、劝君更尽一杯酒,从此萧郎是路人。(这么绝情?)

10、一朝被蛇咬,处处闻啼鸟。(这个很内涵)

11、遥想公谨当年,小乔初嫁了,使我不得开心颜!(爱人结婚了, 新郎不是你)

12、垂死病中惊坐起,笑问客从何处来(装病?回光返照?)

13、车辚辚,马萧萧,二月春风似剪刀。(贾府组织春游?)

14、满堂花醉三千客,更无一人是知音。(天才都是孤独的)

15、垂死病中惊坐起,夜深还过女嫱来。(死性不改)

16、踏破铁鞋无觅处,那人却在灯火阑珊处。(你该庆幸还是郁闷?)

17、问君能有几多愁,别是一番滋味在心头。(这究竟是不是原配啊?)

18、飞流直下三千尺,不及汪伦送我情。(汪伦跳崖了?)

19、醒时同交欢,儿女忽成行。(因果关系)

20、路漫漫其修远兮,壮士一去兮不复返!(工整啊)

21、江州司马青衫湿,宣城太守知不知。(有JQ)

22、后宫佳丽三千人,铁杵磨成绣花针。(写实派)

23、天苍苍,野茫茫,一树梨花压海棠。(春光乍泄……)

24、问世间情为何物,两岸猿声啼不住。(悲情的猿)

25、春宵一刻值千金,绝知此事要躬行。(干巴爹 Vs,压灭跌)

26、床前明月光,对影成三人。(只可意会不可以言传)

27、天子呼来不上船,芙蓉帐暖度春宵。(好大的胆子)

28、桃花潭水深千尺,温泉水滑洗凝脂。(姑娘小心溺水)

29、人生得意须尽欢,从此君王不早朝。(你个昏君!)

30、朕与先生解战袍,芙蓉帐暖度春宵。(腐!!)

句子相似性(如何比较两个词语的相似度)

paperpass上的句子相似度低于多少才不算重复

根据我自己的查重经验,由于标红句子的相似度都是40%及以上,所以我觉得应该句子相似度低于40%不算重复。

论文查重句子相似度在百分之多少以上需要修改

一般是超过了30%以上就需要修改,但是有的学校规定是20%,具体的你需要按照学校指定的检测平台与重复率要求来决定是否需要修改。

如何比较两个词语的相似度

最简单的方法是查字典,字典注释就是用意义相近的词来解释词语的 也可以看语素,一般来说,有相同语素的可能会很相似 或者自己造句,体会其中的差别,有些像近义词辨析^-^

评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)