语言在搜索结果中的匹配排名

分享是关怀!

了解查询中使用的语言可能有助于搜索引擎确定向搜索者显示哪些页面。搜索引擎希望将其用户引导至他们可以阅读的页面。微软最近的一项专利申请探讨了如何在搜索结果页面排名中使用语言类型。

语言类型可以看作是相关性的度量,因为它们可以帮助找到与搜索相关的页面。他们被认为是“query-dependent”衡量相关性的原因是,尽管可以在任何人执行可能包含该页面的搜索之前识别页面的语言类型,但是查询中使用的语言会影响显示的结果。

与查询无关的度量或属性是不同的。之前,我在标题为“帖子”的文章中写了有关此笔记所涉及的其他两个其他Microsoft专利申请的文章。 按文件类型和单击距离对搜索结果进行排名.

考虑这两项措施“query independent,”因为查询中使用的任何可能返回这些页面的词都与排名方法无关。

如果HTML文档比pdf文件更可取,则不会’无论搜索词是什么如果某个页面离首页一键之遥,而不是五次点击,则用于查找该页面的搜索词可以是任何东西,而不会’不会影响基于点击距离分配给页面的排名因子。

可以将与查询相关的属性和与查询无关的属性进行组合以确定搜索结果的顺序。诸如PageRank之类的东西与查询无关。在其中添加了对用于指向页面的锚文本的分析,这是一个与查询相关的属性,您可以看到两者如何协同工作。

Another example of a 查询相关 ranking function would be to count the number of times a search term appears in a document.

除了关于按语言类型对页面进行排名之外,该专利申请是研究不同的排名因素的数量之一,该排名因素既取决于查询又取决于查询。

语言匹配排名专利申请

使用语言类型对搜索结果进行排名
Dmitriy Meyerzon和Hugo Zaragoza发明
分配给Microsoft
美国专利申请20060294100
2006年12月28日发布
提交日期:2006年4月26日

抽象

根据文档属性,根据文档相关性的先验概率,根据附加的排名功能对网络上搜索查询的搜索结果进行排名。可以基于将文档写入的语言与与搜索查询关联的语言的比较来调整排名功能。与查询无关的值和与查询相关的值都可以用于对文档进行排名。

语言排名匹配过程概述

这是一种根据语言对搜索结果进行排名的方法。它旨在对不符合条件的文件进行处罚’•以与其他排名功能无关的方式匹配查询的语言。

1.文件’通过页面的统计分析来识别语言’的字符分布,并与经过训练的语言字符分布进行比较。

2.检测语言而不是从元数据(例如HTML中的语言标签)中获取语言的原因是:“语言检测是一个相对简单,高精度的过程”, and because “元数据通常是模棱两可的,错误的或丢失的。”

3.语言检测通常在索引编制过程中执行(而不是搜寻或提供搜索结果)。

4.查询’的语言是从浏览器请求标头或客户端应用程序中获取的(例如,在浏览器中设置的语言首选项)。

5.将查询中的语言与文档中检测到的语言进行比较。

6.当文档和查询共享一种主要语言时(请注意,通常将德语-瑞士查询视为与德语-德语文档匹配),就会发生语言匹配。’主要语言是英语。

7.因此,以用户可以使用的语言编写的页面’除英语文档外,其他阅读方法均会受到处罚(因为假设大多数使用Internet的人都可以阅读英语或理解不同的英语口味)。

8.此语言类型功能修改了总排名功能,该功能根据文件和查询之间的语言匹配来调整文档的排名,这将提高搜索引擎的整体精度。

9.来自先前查询的用户反馈可以用作相关性判断,以得出与每种语言类型比较相关的相关性权重。

10.可以将权重视为排名函数参数,并且可以观察到性能度量在权重的不同值上的行为。

11.在页面上执行语言类型比较后,文件类型将合并到页面的分数中。

12.页面’的得分(结合语言类型比较)确定了页面’在搜索结果中的其他页面之间排名。

13.其他文档属性可能会影响与查询无关的文档的相关性(例如文件类型和文件大小)。

14.可以使用语言类别来代替单独的语言类型,以使文档’当文档具有与查询语言相同的语言时,t会受到惩罚。因此,如果确定页面上的语言是荷兰语,则存储在页面索引中的语言类型可以是荷兰语,也可以是德语,因为可以假定德语读者可以阅读荷兰语。

语言匹配排名结论

I’我开始怀疑我们将来是否会在他们决定用来对网页进行排名的每个排名因素上看到单独的专利申请。我不’t think that’这是一个坏主意,但它确实可以为他们如何对网页进行排名提供很多见识。

我不’我们不知道这种假设是多么安全的,因为大多数使用互联网的人都能理解英语的不同风格之一。

有趣的是,该过程依赖于其对页面语言类型的分析,而不是依赖于语言属性或元标记。

分享是关怀!

关于2个想法“语言在搜索结果中的匹配排名”

  1. 读完我的文章,我可能应该先举几个例子,尤里。

    请记住,微软可能不会这样做,也可能永远不会这样做,但是他们认为申请专利非常重要。

    一些例子:

    搜索英语短语(现在忽略,您可以为搜索引擎或浏览器设置语言首选项)。

    1.在搜索框中输入英语短语,然后按Enter。
    2.结果中没有的任何页面’确定为英语的t会在搜索结果中受到惩罚或降低。

    搜索德语短语(现在忽略,您可以为搜索引擎或浏览器设置语言首选项)。

    1.在搜索框中输入德语短语,然后按Enter。
    2.结果中没有的任何页面’确定使用德语或英语的t将受到惩罚,或在搜索结果中降低。

    注意他们不是’惩罚或推低英语成绩。

    现在,可能有一些结果使用与查询所用语言不同的语言,但是它们可能与词组仍然非常相关,因此它们可能仍显示较高的结果。但是他们不会’如果使用了本专利申请中的方法,则t看起来可能会很高。

    让’暂时忽略英语结果不是’不会像其他语言一样被推后。

    如果您将浏览器的语言偏好设置为“Français (France)”然后搜索英语短语,则某些法语结果可能会被下推。例如,搜索“Eiffel Tower”显示许多英语结果(更多法语结果)。它’即使您的浏览器设置表明您想要法语结果,也可能会得到一些英语结果,因为查询短语是英语。

    如果有一些德语页面与“Eiffel Tower”(应该显示在前十名中),因为查询是英文的,因此也可能会将其下推。

  2. 我不确定。这是否意味着赢得了英语查询’提出其他语言查询?如果我特别想查找使用我的语言但又包含英语定义和术语的页面怎么办? MSN,err,Live可以’现在做吗?我想我在这里太挑剔了。一世’我去用G做这个ðŸ〜‰

评论被关闭。