为网页选择正确的字符集可能意味着搜索引擎更容易理解网页所用的语言,尽管也有 其他方法 它可能能够确定这一点。
但是,当有人键入查询时该怎么办?
–搜索引擎如何知道查询的语言?
–它如何处理在可能无法在拉丁字母之外创建某些特殊字符的设备上以不同语言进行的查询?
另外,使用特定字符集的网页(网站管理员可以在其HTML中为页面选择的内容)是否更有可能让搜索引擎更轻松地识别所使用的语言?
有关查询语言的Google专利申请
Google最近发布了四项专利申请,它们针对查询语言的主题进行了研究。“在处理搜索查询和Web搜索时处理语言不确定性,其中查询和文档可以用多种不同语言中的任何一种表示。”
调用搜索引擎来索引和搜索以多种语言编写的文档以及以多种语言表达的多个文档。
没有非拉丁字符的键盘
另一个挑战是,某些用于创建内容和显示网页的设备可能难以产生以不同语言使用的某些字符。
人们在掌上电脑或键盘上进行搜索时,可能会使用一些字符来替代他们想使用的字符,例如不带重音的字符。
搜索引擎可以处理已编入索引的内容,以删除重音符号并将特殊字符转换为标准字符集,但这将导致搜索索引丢失信息,并且当搜索者使用其自然语言时无法检索内容当他们的搜索确实使用非拉丁字符时的查询语言。
查询专利申请的语言
该专利申请于2007年12月13日发布,最初于2006年4月19日提交。
- 使用查询字词和界面语言确定查询语言 (20070288450)
由Ruchira S. Datta和Fabio Lopiano发明 - 使用同义词映射表中的同义词增强查询 (20070288448)
Ruchira S. Datta发明 - 使用语言统计数据选择具有同义词的增强查询 (20070288449)
由Ruchira S. Datta和Fabio Lopiano发明 - 通过音译简化查询字词 (20070288230)
Ruchira S. Datta发明
搜索引擎学习查询和文档的语言
在这些专利中的方法下,创建了一种训练模型,用于识别要搜索的文档中使用的语言。培训模型着重于培训时的特定文档主体,这些文档可以混合使用不同类型的文档,例如:
- 的HTML
- PDF格式
- 文字文件
- 文字处理文件
- Usenet文章,或;
- 具有文本内容(包括元数据内容)的任何其他类型的文档。
理想情况下,这些文档应该表示在Web上可以找到的内容,也可以是Web本身,或者是Web的快照或摘录。
该文档主体应包括Web上表示的所有语言,以及每种语言的足够文档,以便它们可能包含在Web上该语言的所有文档中找到的足够多的单词。
字符编码的作用
如果将每个训练文档和每个要搜索的文档都以已知且一致的字符编码(例如8位统一转换格式(UTF-8)。当然不是’t what you’在Web上可以找到许多页面,甚至没有包括定义的字符集或完全没有其他字符集的页面。这里’s使用UTF-8的页面的HTML代码是什么样的:
<meta HTTP-equiv=”Content-Type” content=”text / html;字符集= utf-8″>
如果页面没有’如果使用UTF-8,并且此语言确定过程使用了UTF-8,则使用其他某种编码的文档可能会转换为UTF-8。这种转换可能会导致一些看起来有趣的字符最终出现在结果中。
页面上的语言检测,使用概率
文档语言检测过程使用统计学习理论和分类模型。
文本页面最可能的一个或多个类可以基于页面中的文本,也可以基于页面的URL。
这可以通过将文本分解为单词,然后计算以不同语言一起出现在页面上的那些单词的概率来预测该文本最可能的语言来完成。
因此,在页面上“Hello”经常发生,在训练模型中,它出现得最频繁的是英文页面,然后是德语页面,’网页可能是英语,然后是德语的可能性。
查看某些字符也会有所帮助。如果某些字符不’如果它们在某些语言中非常频繁地出现(如果有的话),那么在其中带有这些字符的单词的页面可能不太会出现在这些语言中。
字符映射的使用
此过程的关键之一是创建字符映射,对于一种语言而言,它可能比其他语言更独特。例如,特定语言中单词的常见形式可能包含带重音符号。
查询专利申请的语言详细介绍了如何以几种不同方式使用这些字符映射。
一种是帮助识别某些查询的语言。
另一个是当搜索者可以确定某些查询何时可能是单词的简化版本时’不要使用某些字符,因为他们使用的设备(例如智能手机)无法使用这些字符。在专利申请中给出了许多如何工作的例子。
结论
如果您使用非拉丁字符编写的网站,则可能会发现值得深入研究的这些专利申请。
这些专利申请中提到但目前尚未发布的另一项专利申请, 查询语言识别 看起来它可能会在该主题上更深入。
专利申请中讨论的某些语言和为这些语言创建的转换图包括:
加泰罗尼亚语,克罗地亚语,捷克语,丹麦语,荷兰语,英语,世界语,爱沙尼亚语,法语,德语,希腊语,匈牙利语,冰岛语,意大利语,拉脱维亚语,立陶宛语,马其顿语,波兰语,葡萄牙语,罗马尼亚语,俄语,塞尔维亚语,斯洛伐克语,斯洛文尼亚语,西班牙语,瑞典语或芬兰语,土耳其语和乌克兰语。
其他资源
我寻找了许多探索查询语言的文档,并提出了以下内容:
- 搜索引擎领域: Google启动‘跨语言信息检索(CLIR)’
- Google官方博客: 无限搜索
- 搜索引擎如何处理非英语查询?– A case study (2003)
- 迷失在网络空间中:搜索引擎如何处理阿拉伯语查询
- 搜索引擎如何处理中文查询? (2005年)
- 通过学习生成网络搜索查询来构建少数民族语言语料库 (pdf)
字符映射的问题在于,它假定非双语用户以其本机[阅读非英语拉丁字符]语言进行操作。一世 ’双语,说英语和法语。
前几天我输入了“sante” into Google’的KW研究工具,看看我得到了什么。所有与圣达菲,圣塔本和圣塔那有关的建议。 Sante用法语表示健康,最后一个e带有重音符号。我的键盘没有’t通常输出口音,而I’我太懒/根本没用输入法语来弄清楚它。
所以?因此,搜索引擎所采用的方法’为很多用户服务,如果他们’重新依赖字符映射。我说的是SE,而不仅仅是Google,因为Yahoo和Ask也有问题,而我忘记了MSN的结果’s Live.
好点,加布。
那里 are some issues with character mapping, and 通过 itself, it may have some problems. It’搜索引擎可以让人们选择他们的语言偏好,还可以尝试查看浏览器上设置的任何语言偏好。
对于通常只包含几个单词的查询,要理解所使用的语言要比理解页面的语言要困难得多。
比较Google中显示的内容可能会很有趣’的KW建议工具,以及这些字词在搜索结果中实际显示的内容。绝对显示了关键字建议工具的一些问题和局限性。
如果我搜寻“sante”在Google中,虽然我看到的是法语结果,但我看到的大多数结果都是英语的。如果我将Google中的语言偏好设置更改为法语结果,则看到的大多数结果都是法语…
除此之外,该结果集中还有一些中间页查询优化建议,其中列出了所有英语站点。有趣。
那里 is an alghorithm called ngama that recognize the language of a word 通过 the pairs of letters that are in.
Google可能正在使用它。
嗨,网站分析器,
I’我猜你指的是 N克。我相信Google在尝试建立语言模型时正在研究N语法中的模式。请参阅2006年的这篇Google Research博客文章: 我们所有的N-gram都属于您. 那里 they tell us that:
这天提供的翻译软件正在变得相当称职。我找到了一个程序,可以在一秒钟内对长的中文文本进行分段,音译和翻译。当然翻译是35%的乱码/怪诞的,但足以让您理解本文的要旨。 Google语言工具本身可以很好地进行多语言翻译。 (具有通常的乱码但容忍的结果)如果我’能够在2秒内识别纸上的大多数语言-我自己会说10种左右–Google分析程序可以更快地完成它。如果该文章是用非罗马文字撰写的,则标识是即时的。
嗨,JP,
谢谢。 Google解决了一些问题’超出翻译软件范围的专利申请,例如在没有’t捕获查询语言可能使用的特殊字符。那’这些专利有趣的部分原因。
这很有用。对于尼泊尔的Google搜索,Google添加了带有尼泊尔字母的键盘布局。但是搜索不是’t非常有效。也许他们不’不能给该语言的页面带来很多价值。
嗨Arvind,
那里’这是一个很好的机会,有关Google的语言的数据越多,最终结果就越好。因此,可能不是Google没有’不会用该语言来评估网页,而是使用该语言来评估网页,而Google会提供更好的结果。