基于官方网投的索引和垃圾邮件检测

分享是关怀!

斯基普切斯特敦

基于官方网投的索引如何工作

想象一下一个信息检索系统,该系统使用官方网投在网络上对文档进行索引,搜索,排名和描述。该系统将研究这些官方网投在网络上的使用方式,以确定它们是否为“valid” or “good”词组。除了从使用频率上考虑它们在所有网页上的使用是否在统计上具有显着意义之外,还将研究这些官方网投之间的相互关系–某些官方网投在其他文档中往往会被提及

例如,有关“美国总统”可能还会包含该词组“white house.” So the appearance of some phrases can be used to predict the appearance of other phrases. And a 垃圾邮件 document might contain an excessive number of related phrases.

一些“spam”页面几乎没有有意义的内容,但是可以由大量的流行单词和官方网投组成。这些有时称为“关键字填充页面。”包含广告客户可能感兴趣的包含特定单词和官方网投的相似页面通常被称为“honeypots,”并为搜索引擎创建,以与付费广告一起显示。对于寻找有意义内容的搜索者而言,这些页面可能浪费时间,并造成挫败感。

一些基于官方网投的索引 patents

谷歌’安娜·帕特森(Anna Patterson)是许多专​​利申请中列出的发明人,这些专利描述了基于官方网投的索引系统,该系统可能比过去更受关注。一世’ve written about a couple of these patent filings, and a new one was published this week. The newest filing, and a couple of the others, are explicitly assigned to 谷歌. The fact that there are several related 基于官方网投的索引 makes it look like it is something 谷歌 has committed to using.

我专注于其中的几个 谷歌 Aiming at 100 Billion Pages? 五月和二月’s Move over PageRank: 谷歌’在看官方网投?,这些文章总结了此基于官方网投的索引系统的某些方面。它具有许多有用的功能,可用于对大量网页进行索引,对旧版网页进行历史索引,对较不受欢迎的网页进行补充索引以及消除“Google Bombing,”重复的内容检测,以及如新专利申请中所述,一种以关键字填充页面和蜜罐的形式标识网络垃圾邮件的方法。

Detecting 垃圾邮件 documents in a phrase based information retrieval system
由Anna Lynn Patterson发明
美国专利申请20060294155
2006年12月28日发布
提交日期:2006年6月28日

抽象

An information retrieval system uses phrases to index, retrieve, organize, and describe documents. Phrases are identified that predict the presence of other phrases in documents. Documents are indexed according to their included phrases. A 垃圾邮件 document is identified based on the number of related phrases included in a document.

基于官方网投的索引搜索系统概述

基于官方网投的索引编制是通过该系统识别Web文档中的官方网投并根据其官方网投编制索引来进行的。

搜索者向搜索系统提交查询,该搜索系统尝试提供相关页面作为响应,同时在查询中查找官方网投,然后使用官方网投对结果进行排名以影响排名顺序。

将结果呈现给搜索者后,首先会对其进行修改,以删除几乎重复的文档并为页面创建摘要(页面的主题描述)。

该系统包括存储有关文档的索引信息的主索引和辅助索引,以及存储官方网投和相关统计信息的官方网投数据存储。

先前关于多重索引系统的专利申请告诉我们,有关某些页面的信息可能存储在辅助索引或补充索引中,’不能捕获与在主索引中找到的结果一样多的信息。

基于词组索引系统的部分

那里 are three primary functions performed 通过 the indexing system:

  1. 识别官方网投和相关官方网投,
  2. 关于官方网投的文档索引;以及
  3. 生成和维护基于官方网投的分类法。

官方网投识别

官方网投识别可识别“good” and “bad”文档集合中的官方网投。

好官方网投之所以能脱颖而出,是因为它们:

  1. 出现在网络上超过一定比例的文档,和/或;
  2. 通过html标记或“其他形态,格式或语法标记。”
  3. Predict other 好 phrases rather than being mere sequences of words appearing in the lexicon

An example of the predictive ability of 好 phrases:

词组“美国总统”预测其他官方网投,例如“George Bush” and “Bill Clinton.”

其他官方网投可能无法预测,例如“fell down the stairs” or “top of the morning,” “out of the blue.”像这样的习语和口语被广泛使用,并且经常与许多其他不同且无关的官方网投一起出现。查看整个索引页面集合中各个页面上官方网投的出现频率,可以告诉我们一个官方网投的出现是否可以用来预测另一个官方网投的出现。

基于官方网投的索引识别过程的功能阶段

这些也可以分为三个步骤:

  1. Collect possible and 好 phrases, along with frequency and co-occurrence statistics of the phrases,
  2. Classify possible phrases to either 好 or 坏 phrases based on frequency statistics, and;
  3. Prune 好 phrase list based on a predictive measure derived from co-occurrence statistics.

The patent application goes into a 好 deal of detail on how those steps are taken. A summary:

1.文档在可管理的分区中建立索引。

2.官方网投以不同的词长来标识,请注意停用词,行尾,段落返回,标记标签以及识别内容或格式变化的其他可能方式。此步骤称为遍历。

遍历示例

词组window starts at the word “stock”并向右延伸5个字。

窗口中的第一个单词是候选官方网投i,并且序列i + 1,i + 2,i + 3,i + 4和i + 5中的每个单词同样都是候选官方网投。

在此示例中,候选官方网投为:“stock”, “stock dogs”, “stock dogs for”, “stock dogs for the”, “巴斯克犬”, and “巴斯克犬 shepherds”.

In each phrase window, each candidate phrase is checked in turn to determine if it is already present in the 好 phrase list or the possible phrase list. If it isn’,则候选人已经被确定为“bad” and is skipped.

If the candidate phrase is in the 好 phrase list as entry g.sub.j, then the index entry for phrase g.sub.j is updated to include the document (e.g., its URL or other document identifiers), to indicate that this candidate phrase g.sub.j appears in the current document.

官方网投g.sub.j(或术语)在索引中的条目称为官方网投g.sub.j的发布列表。

发布列表包括其中出现该官方网投的文档列表d(通过其文档标识符,例如文档编号或URL)。

在一个实施例中,使用例如MD5通过URL的单向哈希来导出文档编号。

3.将已识别的官方网投放入可能的官方网投列表中,并收集有关这些官方网投的统计信息。

a)P(p):可能出现官方网投的文件数;

b)S(p):可能官方网投的所有实例的数目;和

c) M(p): Number of interesting instances of the possible phrase. This may be where the possible phrase is distinguished from neighboring content in a document 通过 grammatical or format markers, (boldface, or underline, anchor text in a hyperlink, or quotation marks, or others). These distinguishing appearances involve various HTML markup language tags and grammatical markers. This information is retained for phrases when they are placed on the 好 phrase list.

从可能的列表更新良好官方网投列表

After traversal in a partition is completed, the next step is to update the 好 phrase list from the possible phrase list.

官方网投出现的频率和出现在其中的文档数量可能表明该官方网投被用作语义上有意义的官方网投。

The 好 phrase list will include individual words as phrases, as well as multi-word phrases.

A list of 坏 phrases isn’t stored – only possible and 好 phrases.

If a phrase appears for the very first time, it is very unlikely to be considered a 好 phrase at that time. It may be just coming into usage, and might be seen to be increasingly common – and if so will satisfy thresholds for being recognized as a 好 phrase.

更新基于官方网投的索引背后的共现矩阵

A co-occurrence matrix is maintained and updated for the 好 phrases. This helps to keep track of when different phrases appear together in the same documents.

The matrix G has a dimension of m.times.m, where m is the number of 好 phrases.

Each entry G(j, k) in the matrix represents a pair of 好 phrases (g.sub.j, g.sub.k).

The co-occurrence matrix logically (though not necessarily physically) maintains three separate counts for each pair (g.sub.j, g.sub.k) of 好 phrases concerning a secondary window that is centered at the current word i, and extends +/-h words.

在一个实施例中,诸如在图1中所图示的。如图3所示,辅助窗口304是30个单词。因此,共现矩阵保持:

1)R(j,k):原始共现计数。官方网投gj出现在带有官方网投gk的辅助窗口304中的次数;

2)D(j,k):析取兴趣计数。官方网投g.sub.j或官方网投g.sub.k在辅助窗口中显示为专有文本的次数;和

3)C(j,k):连词有趣计数:g.sub.j和官方网投g.sub.k在辅助窗口中同时显示为区别文本的次数。使用联合兴趣计数特别有利于避免在侧边栏,页脚或页眉中频繁出现官方网投(例如,版权声明)的情况,因此无法预测其他文本。

使用共现矩阵修剪商品清单

The third stage of the indexing operation is to prune the 好 phrase list using a predictive measure derived from the co-occurrence matrix.

Without pruning, the 好 phrase list is likely to include many phrases that while legitimately appearing in the lexicon, themselves do not sufficiently predict the presence of other phrases, or themselves are subsequences of longer phrases.

To identify 好 phrases, a predictive measure is used which expresses the increased likelihood of one phrase appearing in a document given the presence of another phrase.

修剪良好官方网投列表以删除不完整的官方网投

The final step of this stage is to prune the 好 phrase list to remove incomplete phrases. An incomplete phrase is a phrase that only predicts its phrase extensions, and which starts at the leftmost side of the phrase (i.e., the beginning of the phrase).

例:

词组“President of” predicts “美国总统”, “President of Mexico”, “President of AT&T”, etc.

所有这些后面的官方网投都是该官方网投的官方网投扩展“President of”因为他们开始于“President of”并且是它们的超序列。

It’之所以有用,是因为它可以预测其他官方网投之一。但是,如果没有’不能预测至少一个其他官方网投’作为它的扩展,它可能被视为不完整的官方网投。

“联合总统”是一个不完整的官方网投,因为它预测的唯一其他官方网投是“美国总统”这是该官方网投的扩展。

可能会保留此不完整的官方网投列表以帮助搜索者。收到搜索查询后,可以将其与不完整的阶段列表进行比较。

例如,如果搜索查询是“曼联主席,”搜索系统可以自动向用户建议“美国总统”作为搜索查询。

Each 好 phrase is used with sufficient frequency and independence to represent meaningful concepts or ideas expressed in the corpus.

基于官方网投的索引中相关官方网投的识别和相关官方网投的聚类

查看官方网投的同时出现并收集有关它们的信息可以帮助组织以下信息:

这种方法为集群提供了有用的组织。首先,而不是严格–而且经常是任意的–定义主题和概念的层次结构,这种方法可以识别主题,如相关官方网投所指示的那样,形成一个复杂的关系图,其中某些官方网投与许多其他官方网投相关,而某些官方网投的范围更有限,并且这些关系可以是相互的(每个官方网投可预测另一个官方网投)或一个方向的(一个官方网投可预测另一个官方网投,反之则不行)。结果是可以表征集群“local”对于每个好官方网投,某些类将通过具有一个或多个常见的相关官方网投而重叠。

Ordering related phrases 通过 information gain (how likely they will predict other phrases) help to create a taxonomy for naming the 集群 of the phrase. The patent tells us that

上面的过程提供了一种非常强大的方法来识别出现在文档集中的重要官方网投,并且有利地,这些相关官方网投自然地一起使用的方式“clusters”在实际中。结果,这种由数据驱动的相关官方网投的聚类避免了任何手动定向的固有偏差。“editorial”在许多系统中很常见的选择相关术语和概念。

这里使用的过程分为三个部分:

  1. 识别具有高信息增益值的相关官方网投。
  2. Identify 集群 of related phrases.
  3. 存储群集位向量和群集编号。

用官方网投和相关官方网投索引文档

I’我将提供文档其余大部分的快速摘要–这将是一篇相当长的文章。这是此专利申请中涵盖的其他部分:

用官方网投和相关官方网投索引文档

Once there is a 好 phrase list, with the information about related phrases and 集群, the next step is to index the documents concerning the 好 phrases and 集群, and store the updated information in the primary index and the secondary index.

根据有关官方网投的信息检索实践对文档进行预排名。

用于对文档进行预排名的评分算法可以与在搜索系统中用于生成相关性评分的基础相关性评分算法相同。在一个实施例中,IR得分是基于页面等级算法的,如美国专利No.5,235,038中所述。 6,285,999。

替代地或附加地,还可以存储文档的多个与IR相关的属性的统计信息,例如,内联链接数,外联链接数,文档长度,并可以单独使用或组合使用以对文档进行排名。

例如,可以根据内联链接的数量以降序对文档进行排名。

为了进一步促进从主要索引中最快地检索信息,每个发布列表中的条目都按照IR类型得分的排名顺序物理存储在适当的主要服务器上。

排名较低的条目,可能会为它保留较少的信息,而排名较低的文档则可能保留在辅助服务器中:

与常规技术相比,前述存储布置能够在给定数量的硬盘存储中存储明显更多的条目。

1)消除每个文档中每个官方网投的术语位置信息,可将给定文档集所需的存储量减少约50%,从而有效地使可以存储的文档数量加倍。

2)在主索引和辅助索引之间对发布列表进行分区,并且仅在主索引中存储相关信息,这可以进一步节省大量资金。许多官方网投在其发布列表中都有超过100,000,甚至1,000,000个文档。在主索引中仅存储有限数量的条目的相关性信息,就消除了不太可能在搜索中返回的文档所需的存储空间。该方面使可存储的文档数量增加了大约十倍。

3)通过有选择地将不太相关的信息选择性地存储在每个过帐列表中相关性较低(排名较低)的文档中的主要索引中,可以进一步节省费用(所需存储容量减少约25%-50%)。

该专利讨论了出于存档目的而保留较旧版本的页面,并允许人们按日期范围进行搜索。它还涵盖了将来的索引编制,以及如何识别页面中的更改,并可能影响对官方网投进行索引的方式。

在基于官方网投的索引中识别查询中的官方网投

整个过程的一个重要方面是能够识别查询是否包含官方网投。如果是这样,则此官方网投索引可以帮助找到与搜索者相关的文档。识别查询中的官方网投与识别要编制索引的页面上的官方网投有点相似。但是有一些区别。

例如,当某人在搜索框中键入查询时,大写字母可能会有助于他们理解要查找的内容。

将查询与索引官方网投进行比较有点复杂,但是该专利申请指出,当他们在查询中看到以下内容时,他们可能会采用四种类型的方法进行匹配:

–单个查询官方网投(结果已经预先排名)
–两个常见的查询官方网投(需要根据为每个官方网投收集的相关性数据对结果的交集进行排名)
–两个罕见的查询官方网投(类似于存在两个常见查询官方网投的情况,但是不太可能不得不转到二级索引。)
–常用官方网投和稀有官方网投(将主要索引文档连接在一起,然后为较常见的官方网投添加辅助文档,并对所有这些文档进行排名。)

基于官方网投的索引编制中的不同等级

该专利详细描述了基于以下内容的排名:

– Contained phrases
– Anchor Phrases
–日期范围相关性

识别垃圾邮件文件

我不’t know if you’re still with me here, but this is the main addition that this patent application brings to 基于官方网投的索引.

这个基于官方网投的索引系统如何知道关键字填充或蜜罐活动是否正在进行?

根据前述内容,已知给定文档中存在的相关官方网投的数量。普通的非垃圾邮件文档通常将具有相对有限数量的相关官方网投,具体取决于文档集合,其数量通常在8到20之间。相比之下,垃圾邮件文档将具有过多的相关官方网投,例如,在100到1000个相关官方网投之间。因此,本发明通过将那些在相关官方网投的数量上相对于文档集合中的文档的期望的相关官方网投的数量具有统计上显着偏差的文档识别为垃圾文档,来利用这一发现的优势。

那里 are some more details, and some additional information about identifying phrases associated with 垃圾邮件 to find 垃圾邮件 pages, but the volume of related phrases seems to be a large (and possibly very effective) part of this process.

结论

A long and detailed patent application, I apologize for the length of this post. But I wanted to capture a fair amount of it, especially since my last two posts on 基于官方网投的索引 didn’在这个问题上要深入很多。

Google是否使用基于词组索引?它’s possible.

对于雅虎的类似产品,他们’至少进行了现场测试,并据认为已实现“related results”自2003年以来,请参阅我的文章 根据用户中的概念对搜索结果进行排名’s Queries.

我写的关于共现的帖子:

分享是关怀!

关于36的想法“基于官方网投的索引和垃圾邮件检测”

  1. 你好克里斯托夫,

    It’s 好 to see you here. Thank you for your kind words.

    这可能是我最长的帖子之一,但是 ’也是我最长的专利申请之一’已经写过,可能是最重要的文章之一。

    祝你新年快乐。

  2. ______________________________________________

    该专利基本上是CONCEPT SEARCHING的高级分支(请记住EXCITE)–从根本上说,某些法律搜索应用程序已经在某种程度上被使用。 --

    但是,经典站点可能像这样:
    cuiwww.unige.ch/meta-index.html
    (which, for years, until recently, has been in the top 20 on 谷歌 for the term SEARCH ENGINES) would be seen as 垃圾邮件my.

    仅由于积极的SEOing或信息量过多的首页,此方法也会出现误报。或积极使用同义词或首字母缩写词来覆盖所有基础。同样,那些以分类样式(仅使用不带停用词的关键字)书写的人也会遭受痛苦!!!!

    但是,如果在链接流行度和流行度链接之间平衡使用此方法,则值得评估SERP。

    但必须记住,搜索引擎算法的新优先级–通过分析来自高信任度站点的锚文本/反向链接,现在这些蜜罐站点几乎不可能在SERP上排名很高。

    大多数搜索者不使用复杂的搜索词– so many no longer get 垃圾邮件 sites to the degree they would have gotten a few years ago,
    对于那些使用复杂术语的人,通常首先会提到参考站点。贫民窟通常位于底部900附近–1000根农作物

    if 谷歌 does buy into this, the so-called 坏 phrases sites might go into the supplimental listings.

  3. 嗨,比尔,

    恭喜,这篇优质的帖子… I’我惊讶于它的长度和全面的风格,向我解释了这个概念。

    现在,这很确定由“seo copywriters”(侧重于关键字密度和此类废话)成为补充…(也许可以结合更好的重复内容检查… )

    谢谢& happy new year
    欢呼声,克里斯托夫
    – the marketingfan

  4. 哇,不得不读几次。从理论上讲,这听起来很棒,看看它是如何工作的将会很有趣。随着用户变得越来越复杂,查询变得越来越长,这应该有助于词组匹配。看起来LSA部分,搜索行为分析部分以及用于确定重复内容的过程的一部分。我知道’这是一个非常简单的观察,但是再考虑一下来源。

  5. 但是,如果在链接流行度和流行度链接之间平衡使用此方法,则值得评估SERP。

    是的,搜索引擎网站。这些东西都没有消失。这种基于官方网投的索引有点像重新排序方法,因为它适合现有的信息检索和链接流行度方法。我真的避风港’没有看到Google讨论过类似补充结果的任何其他白皮书或专利,在这种情况下,不良官方网投的结果确实会成为补充结果。以及我们的解决方案’我听说过补品–页面链接,更改标题,元描述和页面的其他部分(可能是重复的)将在这些专利的框架内起作用。

    谢谢SearchDaddy的Brian。周一祝孟加拉虎好运。

  6. 只要有足够的处理能力,您就可以’ll see a lot of new statistical methods of checking for 垃圾邮件.

    Of course, with enough processing power you could create statistically 有效 pages as well that were 垃圾邮件 but don’t look like 垃圾邮件 so the sword cuts both ways.

    I’我真的很惊讶我没有’没见过谷歌计算期间,逗号,和其他类似的东西。从我身上’ve seen when looking at various 垃圾邮件 pages, they have an inordinately low or high number of them depending on how the pages are created.

    侠客

  7. 嗨,阿妮,

    如果能够产生这种效果,那将是巨大的。

    It’很难说是否已经实施了任何基于官方网投的索引,但是我认为其中一部分可能已经实现。一世’m still seeing 谷歌 bombing work, which we’根据一项专利申请被告知’成为普遍现象。但是,补充结果的存在表明某些想法可能会在这些专利申请中使用。

  8. 我和David一样,不得不阅读几次(加上指向其他信息的链接),但是有意义的是搜索引擎希望实现这一点。当然希望它能杀死那些毫无意义的烂文章,浪费读者’s time.

  9. 谢谢。

    我很喜欢官方网投索引方面的一系列专利申请,而且’m hoping that some of the other types of things mentioned within them are added to 谷歌, such as the ability to search 通过 date range, and find older versions of pages. I guess we wait.

    这些的前四个“基于官方网投的索引”专利申请中提到,同一天有六项相互关联的专利。现在仅出版了其中的四本,另外两本也已进入公众审查的范围,其中一份是在最初的六本之后将近两年提交的。

    这似乎确实有可能对Adsense(MFA)网站以及带有关键词官方网投的网站造成负面影响。我不会’如果那样的话,不要生气。

    关于不同类型目录的要点。

  10. 伟大的邮政条例草案,

    At first glance, this seems like an attempt to filter out people who scrape the SERPS and feed it right back to 谷歌 as keyword rich content. (Sorry 侠客)

    它可能会影响某些SEO类型的目录,这些目录的标题,描述和列表清单中具有相同官方网投类型的比例也很高,从而具有竞争优势。人工编辑的目录可能不太可能受此影响,因为列表的重复性可能较小。

  11. pingback的:tcbutler.co.uk» 博客存档»制作搜索引擎
  12. Pingback:简而言之,基于Yahoo官方网投的索引|
  13. 优秀的文章,相当长,因此需要再次阅读以理解所提供的广泛分析。虽然我们可能永远都不会摆脱废话,但在撰写本文后上线,我至少可以肯定地说“quality of crap” has risen somewhat.

  14. 我已经阅读了很多有关关键字和搜索引擎优化的文章,但这是我遇到的有关基于官方网投的索引的第一篇文章…感谢深入的细节…Cheers !!!

  15. Old 文章, but very interesting patent. Always makes me wonder how 谷歌 gets so smart. I believe phrase based indexing also works now with text that’一直在旋转文章。

  16. 嗨Piotr,

    有趣的一点。

    谷歌 has also done a lot of research on statistical language models in the past few years, which can help with identifying synonyms amongst other things. Articles that are “spun” may not do the best job of appearing natural, and 基于官方网投的索引 might also be used to identify them as well.

  17. pingback: 谷歌's过度优化删除记录
  18. 这里的东西非常有用。感谢您一直以来对我对搜索的理解所作的贡献。

评论被关闭。