如何使用主题熟悉程度对搜索结果进行排名

分享是关怀!

不熟悉主题,并且想要找到关于主题的简单页面– one that didn’是否需要背景知识或知识才能理解页面?

更熟悉该主题,您想在网络上找到高级页面吗?

搜索引擎是否可以帮助您找到页面并根据您可能对与查询相关的主题的熟悉程度来对其进行排名?它’s possible.

搜索引擎在为页面编制索引时可能会注意以下几点:

  • 页面的阅读水平,
  • 页面上句子的单词长度和文本的其他功能,
  • 页面上使用的停用词*有多简单或复杂。

*关键词是搜索引擎中出现频率最高的词’的索引,而它们通常不是’t索引是因为它们经常出现。一些停用词比其他停用词更复杂。表示页面简单且非正式的美国英语停用词可能包括:“因此,每个人都需要足够的帮助。”使用美国英语的停用词可能会显示页面更加复杂和正式,可能包括:“如果,导致,虽然,方式,虽然,哪个,我们。”

雅虎和主题熟悉

您可能已经看过 雅虎!心态 页面(不再可用),根据这些页面是更具商业性还是更具信息性来对搜索结果页面进行排名。输入搜索后,您将在Yahoo!中看到结果页面。心态,您还会在结果顶部看到带有单词的滑动条“shopping” on one side and “researching”另一方面,在中间的线上有一个球,您可以向任一端滑动。如果您以任何一种方式滑动该球,则搜索结果将随其变化。滑向“shopping”带回更多的商业网站。滑向“researching”返回更多信息站点。

想象一下,而不是“shopping” and “research,” one side said “introductory”另一边说“advanced.” That’类似于基于Yahoo!进行的研究的新专利申请背后的想法。

2005年的一篇论文, 偏向主题名称的Web搜索结果,探讨这个主题。它由马萨诸塞州大学的Giridhar Kumaran和Yahoo的Rosie Jones和Omid Madani撰写。该论文在去年德国不来梅举行的第14届ACM国际信息和知识管理会议上的信息和知识管理会议上进行了介绍。

上周发布的专利申请似乎涵盖了相同的领域,并拥有相同的作者:

基于主题熟悉度的偏向搜索结果的系统和方法
由Rosie Jones,Giridhar Kumaran和Omid Madani发明
美国专利申请20060212423
2006年9月21日发布
提交日期:2006年3月16日

抽象

熟悉程度分类器包括停用词引擎,用于在文档(例如,网站)中对停用词(例如,入门级停用词和高级级别停用词)进行停用词分析;熟悉度分类器模块,用于根据停用词分析生成文档的熟悉度。分类器可以在索引模块,搜索引擎,用户计算机或计算机网络中的其他位置。分类器还可包括用于进行文档的阅读水平分析的阅读水平引擎,并且其中,熟悉程度分类器模块被配置为也基于阅读水平分析来生成熟悉水平。分类器还可以包括用于进行文档的特征分析的文档特征引擎,并且其中,熟悉程度分类器模块被配置为还基于特征分析来生成文档熟悉度。

熟悉程度的分类

在为页面编制索引时,熟悉程度分类器将查看三种类型的事物:

  1. 停用词在文本中的分布,
  2. 文档阅读水平;以及
  3. 文档功能,例如平均线长。

搜索的主题,使用的查询以及有关搜索者的信息是’t considered at all.

可能使用的一些阅读级别的度量:

根据上述因素,页面被分为介绍性页面或高级页面。像Yahoo!中的滑块搜索者可以使用心态或类似方式来确定他们希望页面如何重新排名–入门或高级。

结论

这是一个有趣的想法,但是Yahoo会在他们的搜索引擎中使用类似的东西,还是新颖或像玩具一样的Yahoo !!心态,隐藏在没有多少人访问的研究页面上的某个地方?

If you build informational web pages, would this patent application convince you of the wisdom of building both 介绍性的 pages and pages for advanced searchers who are more familiar with the topic that you are writing about?

分享是关怀!

关于6条想法“如何使用主题熟悉程度对搜索结果进行排名”

  1. 嗨斯蒂芬,

    好的问题,值得认真考虑的要点。

    他们确实在专利申请中明确指出,这种索引和重新排名是独立于特定主题,查询和用户行为进行的。

    他们专注于他们在网站页面上找到的内容,而不关注我们在涉及个性化搜索的其他论文和专利申请中看到的许多内容。

    那里’专利中没有任何内容表明希望查看搜索者’的过去搜索历史记录,或大型用户群在输入某些查询时单击并停留在哪些页面上,或查看用户’s profile –是由用户自己创建,还是由搜索引擎在幕后构建的。

    它可以成为某种类型的个性化的基础吗?也许可以,但是基于更好地理解人们访问的页面上存在什么样的内容的基础。

    使用这样的东西进行个性化设置的潜在危险是,虽然有些人可能不熟悉许多主题,但这些人可能对其他主题有深刻的理解和专业知识。

    的 same person seeking 介绍性的 level pages in cooking and accounting and car repair may be have an advanced familiarity in folksongs or linear algebra, for example. 🙂

    认为自己知道什么人而不管他们真正想要什么的搜索引擎是一个令人恐惧的概念。一世’我绝对同意。

  2. 法案,

    您是否认为这些可能与个性化搜索的开始有关。更具体地说,可以使用这些技术为用户提供引擎认为用户想要的内容吗?还是只是下一个级别?

    我全力以赴以使结果最符合用户意图,但是,我认为这是一种选择体验。作为在线营销商,用户的意图使我感到震惊和高兴。我认为这更多是基于“fear of the unknown.”

    我们是否在本质上放弃了通过提供引擎认为我们想要的信息而提供的网络自由,即使这些信息是基于我们在网络上的历史记录的呢?

    深度思考… 通过 Steve Pitts

  3. 类似于Gunning-Fog的算法可能会出现的一个问题是,具有高分的内容可能意味着两件事:技术性强/文盲性强,或编写得不好。

评论被关闭。