雅虎 Query Revisions Based upon Anchor Text Pointing to Search Results

分享是关怀!

想象有人在寻找“Internal 雅虎 Reorg Memos” (without the quotation marks) at 雅虎.com. You might end up with the following results:

  • www.valleywag.com/search/internal-memos/bydate
  • www.valleywag.com/search/internal-memo
  • www.techcrunch.com/2007/02/14/text-of-
    电子邮件发送给所有雅虎
  • www.churchofthecustomer.com/blog/2007/02/
    the_jerry_magui.html
  • www.advogato.org/person/adulau/diary/49.html
  • www.kimandrewelliott.com/bbg_2007_reorg.html
  • www.techcrunch.com/2006/12/07/metacafe-may-be-
    售出2亿
  • http://www.news.com/Gates-memo-warns-of–
    interruptive-changes / 2100-1014_3-5940792.html
  • http://www.pharmalot.com/2007/10/keep-the-old-
    抗抑郁药指南调查/
  • http://wonkette.com/search/political-appointees/

现在想象一下,搜索引擎可能会查看指向每个页面的链接(可能还会在结果中显示更多页面),并查看指向这些页面的链接中使用的锚文本。

雅虎 could gather that different anchor text, and perform more searches. It might then take results from these new searches, and grab the anchor text from links pointing to the pages in the new search results. And so on. And so on.

搜索引擎可能会查看从一次搜索到另一次搜索的结果有多相似(以知道何时停止),并且基于诸如:

  • “whether that link occurs within a 标题 or header of a result document,” or
  • “该链接中的文本为粗体,斜体或其他强调或粗体字体,” or
  • “该链接中的锚文本是否对应于该链接所在句子的主题或以其他方式标识该链接所在句子的主题。”

与那些搜索结果中排名较高的链接相关联的锚文本也可以被赋予更大的权重。

可以基于以这种方式收集的扩展的查询词集合,向搜索者显示最终的混合搜索结果集合,其中来自较高排名词的结果在那些结果中排名更高。

或第一个搜索的原始搜索结果(“Internal 雅虎 Reorg Memos”在我们的示例中)可能会显示,并且从搜索到的锚文本中收集的短语可能会显示在查询修订版本中,搜索者可以选择这些版本以查看这些查询字词的结果。这些可能被标记为“建议的修订查询字词。”

在查看显示的搜索结果时,搜索者可能能够选择一个或多个建议的修订,可能会省略一些建议,然后执行新的搜索。在我们的示例中,指向初始结果中最后三个页面的锚定词可能包括:

  • 比尔盖茨
  • 抗抑郁药
  • 旺凯特

搜索者可能不会在新搜索中选择那些作为查询修订,但可能会选择指向其他页面的锚文本,这些文本可能包含在他们的搜索词中,例如“花生酱宣言,”这可能意味着结果类似于标题为““Yahoo’布拉德·加林豪斯(Brad Garlinghouse)掌权”显示在搜索结果中。

锚文字的价值

Before introducing the actual patent filing from 雅虎, I wanted to point out what one of my favorite papers from search says about the value of anchor text.

那里’s some interesting discussion about this text that appears within links in a paper cowritten 通过 Sergey Brin, Rajeev Motwani, Lawrence Page, and Terry Winograd, 标题d 口袋里的网站能做什么?

即使在只有一个或几个指向与查询匹配的页面的锚点的情况下,这些锚点也非常有用。

首先,与网页本身相比,锚通常是对网页的更好描述。他们经常准确地指出有关网页的重要内容。

其次,它们通常是由Web页面的作者以外的其他人编写的,因此,他们更容易受到恶意篡改,将页面移动到搜索结果的顶部以获取商业利益。

实际上,Google区分了站点锚,站点外锚和域外锚,以提高对恶意篡改的抵抗力。

最后,锚点允许搜索引擎即使不进行爬网也可以返回网页。

雅虎 on using Anchor Text from Search Results to Create Query Revisions

雅虎’使用锚文本的方法很有趣,可能对搜索者有帮助。

根据属于搜索结果集的文档的链接注释确定相关术语
由Jan Pedersen和Hadar Shemtov发明
美国专利申请20070250498
2007年10月25日发布
提交日期:2006年4月21日

抽象

提供了用于自动聚焦由搜索引擎进行的搜索的技术。

根据一个方面,基于与基于初始查询词生成的初始搜索结果中引用的文档相关联的传入(和/或传出)链接列表中的链接中的文本,自动生成修订的查询词。例如,可以选择出现在与结果文档关联的传入(和/或传出)链接中的某些短语。

所选择的短语可以被添加到初始查询词以生成修订的查询词。这些修订的查询词可以自动提交给搜索引擎,以产生修订后的搜索结果的更集中的列表。

该过程可以重复执行,每次迭代修改由先前的迭代生成的查询项,直到满足指定的标准为止,此时可以将最终的修改后的搜索结果呈现给用户。

使用非锚文本生成修订的查询词

尽管该专利文件描述了从一组文档中出现的所选链接的锚文本中创建修订的查询词,但它也可能使用与这些链接相关联的文本。该文本可能是“在所选链接的HTML标签中。”

悬停文字(或工具提示文字)可能来自“title”链接的属性,或者“alt”属性,如果链接包含图像,则可以使用它作为锚文本的替代或补充。

在包含链接的同一文档中,此方法也有可能在链接的一定距离内使用单词。

停在最后一组修订的查询词上

如上所述,基于指向结果页面的锚文本执行新搜索的过程可能会重复几次。我没有’谈论的是过程何时停止并到达一组最终的修订查询词。

那里 are a couple of possibilities.

最简单的是,该过程可能会在经过一定数量的迭代后才停止。因此,如果选择3作为执行新搜索的次数,则该过程将在3次之后停止,并且经过修改的查询词集将是用于为搜索者生成搜索结果的词条。

可以用来知道何时停止的另一种方法可能是查看“最近一次迭代的搜索结果和该迭代之前的迭代搜​​索结果中都引用了多少个相同文档。”

如果结果中显示的文档从一个到下一个大致相同,并且列出的文档是“sufficently similar,”该过程可能会停止。

结论

我不’我不知道这种方法的效果如何,但是听起来似乎很有趣,可以进行测试以查看结果。

无论是否使用它,听起来都是一种寻找可能与其他查询词相关的查询词的有趣方式。

分享是关怀!

有1个想法“基于锚文本指向搜索结果的Yahoo查询修订”

  1. 有趣的主意。不过很可能最终稀释了农作物。有趣的是,看看有什么可能。

评论被关闭。