改进文本分段以显示广告和过滤搜索结果

分享是关怀!

文本分段是搜索引擎需要做的事情

当您在浏览器地址栏中输入域名时,该域名不是’找不到,有时候你’将向搜索结果页面提供包含与广告相关的广告和链接的搜索结果页面“subject”该域名。

例如,您可以输入“usedrugs.com”进入地址栏,域名可能没有网站“usedrugs.com”。您可能会被重定向到带有该域名相关广告和/或链接的第三方网站。该词组可能会展示广告“used rugs”如果确定该域名是域名中最有可能分割的文字字符串版本,则在该网页上显示。

某些站点可能会被过滤掉,使其无法出现在搜索结果中,因为域名似乎可能表明存在成人相关内容。

例如,域名,例如“mikesexpress.com”,可能会被成人过滤器从搜索结果中过滤掉,因为该词“sex”出现在字符串中。

可以使用分段过程来确定字符串最可能的分段结果“mikesexpress” is “mikes express,”并且成人过滤器可能会使用该信息来允许网站“mikesexpress.com”包含在搜索结果集中(或允许带有该URL的页面或指向该URL的链接显示在结果中)。

谷歌的专利申请着眼于设法弄清楚搜索者在不清楚时输入的字母字符串的含义以及在分割时如何理解该字符串的方法。

改进文本分割的方法和系统
Assigned to 谷歌
由Gilad Israel Elbaz和Jacob Leon Mandelson发明
美国专利申请20070124301
2007年5月31日发布
归档:2004年9月30日

抽象

公开了用于改进文本分割的方法和系统。在一个实施例中,从字符串中至少确定第一分割结果和第二分割结果,确定第一分割结果的第一出现频率和第二分割结果的第二出现频率,并且可操作至少部分地基于第一发生频率和第二发生频率,从第一分段结果和第二分段结果中识别分段结果。

将文本字符串分割为标记

当搜索引擎收到一串不间断的单词或其他标记时,就会发生文本处理的挑战之一。通过域名经常在单词之间不包含空格的方式,这可以经常发生。

文本分段引擎或模块可以将该字符串字符串分段为潜在的令牌组合,以选择与该字符串字符串相关联。以下是一些可以视为标记的内容:

  • 一个字,
  • 合适的名字
  • 地理名称
  • 缩写,
  • 缩写,
  • 股票行情股票代码,或
  • 其他令牌。

此文本分段过程可能如何工作的一个示例

1)字符串“usedrugs”可以细分为细分结果,包括“used rugs”, “use drugs”, “us ed rugs”, “used rugs”, “usedrugs”, etc.

2)确定最细分的结果。这些将是成为最佳或可操作的细分结果的可能性最高的那些。

3)在文章或搜索查询的语料库中,对顶部的选定分段结果执行频率搜索。

4)搜索引擎可以通过将每个分段结果用作搜索查询来对索引文章中的每个分段结果执行搜索。这将是一个精确的搜索(将带分隔符的单词括在引号中),结果的数量为每次出现的频率。

5)另一种方法是考虑这些结果在搜索引擎的多个索引中的某些或全部中的出现(如果搜索引擎正在使用多个索引)。

6)或者可以在查询日志中搜索不同的分段结果,并记录它们出现的频率。

7)可以在不同的段上进行拼写检查,对原始文件和拼写检查的版本进行频率搜索。例如,如果细分结果是“baseball game”并且拼写更正的结果是“baseball game”,可以对这两个结果执行频率搜索。

8)出现频率最高的结果(在检索到的文章中,或在日志文件中匹配搜索查询中)可能被选为最佳选择。

9)除了使用令牌的不同组合的频率以外,还可以查看其他信号:

  • 包含每个细分结果的文章的PageRank,以便它们的权重不同。
  • 文章中出现细分结果的次数,以及
  • 细分结果在这些文章中的位置。

分享是关怀!

关于4个想法“改进文本分段以显示广告和过滤搜索结果”

  1. 中文和日文应该擅长于文本分割,因为他们的书面语言不能’单词之间必须有空格。用于这些语言的任何翻译软件都必须具有分段例程,但是因为有它们’如此现实的事实,他们可能永远不会费心申请专利。

  2. It’众所周知,谷歌在其搜索相关性定义中对URL的权重很高,因此更好地检测非分段文本中的单词和短语的能力是向前迈出的重要一步。

  3. 众所周知,Google在其搜索相关性的定义中对网址的权重很高,

    I’我不太确定。在众多信号中,只有一种’不要说它是最强大的之一。搜索引擎可能会在URL中查找某些内容,但我怀疑在大多数页面上,URL不会’t反映被索引页面的内容,以及可能会被误导的期望。

    这个专利申请有趣的是,它没有’为了将内容索引到网页上而将重点放在相关性上,而是考虑其中唯一有问题的信号涉及URL的实例–用于在网站未重定向到广告登陆页面时’t存在于正在键入的域中,或用于确定当URL出现在页面上的链接等中时是否使用成人过滤器。

    德里卡特鲁,

    关于语言/字母之间的区别的不错的观点。

  4. Pingback:本周搜索引擎优化-6/8/07 |范博客

评论被关闭。