沙尼亚和世界其他地区的
从这句话中可以提取的 Ngram 之一是“最终流入海湾的河流”。 如果开头常数部分和结尾常数部分的长度均为3个单词,则Ngram的锚点为“RiverwhichfinallyintheGulf”,“Riverwhichfinally”为起始常数,不考虑它成为一个不变的部分,而“进入海湾”最终成为一个不变的部分。 如果将末尾恒定部分后面的命名实体添加到该 Ngram 的锚点,则该 Ngram 的锚点将变为“最终流入墨西哥湾的河流”。如果修饰命名实体的其余状语关系从句也添加到 Ngram 的锚点上,则锚点变为“最终在路易斯安那州最南端流入墨西哥湾的河流”。这是因为修饰正确表达的副词的关系从句变成“在路易斯安那州的最南端”。 该专利还介绍了另一种使用 Ngram 识别释义的方法,该方法也值得仔细研究。 Google 的替代 欧洲手机号码列表 释义方法 尽管第二个条目中讨论的关于释义的专利申请是在 2005 年提交的,但 Google 仍继续关注如何识别释义。
https://zh-cn.bfbdirectory.com/wp-content/uploads/2024/04/%E6%AC%A7%E6%B4%B2%E6%89%8B%E6%9C%BA%E5%8F%B7%E7%A0%81%E5%88%97%E8%A1%A8-j.jpg
Google 2008 年的白皮书《大规模捕获释义以学习表面模式》 (pdf) 重点介绍了如何使用种子模式来识别释义。例如: 对于“出生地”关系,Google 最初使用两种种子模式: “(人)出生于(地点)” “(人)出生于地点)” 谷歌的专利“查询扩展的机器翻译”也表明统计语言模型(基于 Ngram 的使用)可用于识别释义。 2008 年,Google 公共政策博客上的一篇文章《提高加泰罗尼亚、爱搜索质量》解释了如何使用语言模型来识别同义词并扩展查询。
頁:
[1]