索引搜索引擎中的最新内容

分享是关怀!

对于许多搜索查询而言,较新的搜索结果(例如最近6-12个小时内)要优先于较旧的和较陈旧的搜索结果,这些结果可能会根据受欢迎程度信号(包括过去可能导致他们被分配的大量用户流量)进行排名高排名。如果您将搜索引擎视为可能与引用相关的页面存储库(例如库),那可能会很好用。

但是随着Web成为人们经常发布社交网络更新的地方,新闻来源争做第一个发布有关突发性话题的新闻,博客发布新话题,商人提供新产品并打折旧商品,以及其他在线内容出现强调新鲜度的搜索引擎正越来越成为我们周围世界的近实时监控器。

一台老式的Linotype排版机,制造时可能有更多的活动部件。

上面的Linotype排版机上的标牌指出,它在制造时比在人类制造的任何其他产品上都有更多的活动部件。它没有’不能很快产生出新鲜的内容,但这在当时是最先进的。

去年年底,我写了一篇关于 谷歌’的最新更新:社交媒体改变了搜索者的期望.

在此之前的大约一个月,我写了一篇文章,介绍了Yahoo如何看待社交媒体,以发现有关突发性和新鲜话题的新URL。 搜索引擎是否使用社交媒体发现新主题?

谷歌和雅虎都在探索寻找更新鲜的内容以寻找搜索结果的新方法,这使我们想知道必应在该领域可能正在做什么。

我最喜欢Google的一件事’s的搜索结果可以将我的搜索结果优化为过去一小时,过去24小时,过去一周,过去一个月,过去一年或自定义日期范围的内容。雅虎还提供了按过去一天,过去一周和过去一个月筛选搜索的机会。即使雅虎使用必应’抓取数据,Bing不会’不能在最近时期提供这种过滤。

微软本周获得的一项专利讨论了一种可用于尝试在搜索结果中包含更多新鲜内容的策略。

该过程涉及使用“in-memory”除Bing索引’s inverted index to return results from the search engine. The 在记忆中 index would be updated during a day and includes fresher content than Bing’s inverted index of the Web. Content added to the 在记忆中 index might be folded into Bing’每天或其他设定时间的倒排索引。

Searches would be responded to 通过 the inverted index, and then the 在记忆中 index would be checked for additional relevant results, which includes fresher content added during a day. After that, the results returned would be ranked and would include very recent results if there are any.

我们不’不知道该专利中描述的过程是微软已经实施的过程,还是他们探索并决定采用另一种方法的过程,或者可能已经过时了。我们知道Google’的咖啡因更新,其中介绍了 渗滤器 系统到谷歌’索引是从几年前从批处理索引的增量更新到增量索引的。

该专利中描述的过程似乎向搜索者提供了更新的内容,同时仍然保留了将新内容定期折叠到旧数据库中的批处理过程。

So, what kind of content gets added to the 在记忆中 index?

Significant user behavior centered around a document may trigger the addition of content to that 在记忆中 index. That behavior might come from a pre-determined recent time frame, such as within the last 12 hours or the last seven 7 days. Significant means activity from enough different users during that time frame.

可能要观察的另一个信号是行为是否与对页面的修改有关,例如对内容的更改至少改变了页面上的一个术语,例如基于零售站点的新价格。

搜索引擎可能会通过网站上的更新文件(例如产品提交提要和XML网站地图,甚至可能是Twitter之类的内容)来了解内容的修改和重大用户行为的迹象。’的新推文的数据提要,以及抓取网站页面并将其与早期版本进行比较。

在Bing中搜索一些最近的热门话题,例如搜索[地震],’并没有显示我期望的近期结果’将此更改纳入其结果。

Microsoft的专利是:

使用行为数据快速提高搜索排名
由Walter Sun,Jay Kumar Goyal,Pratibha Permandla,Yinzhe Yu和Li Jingfeng发明
分配给Microsoft
美国专利8,244,701
2012年8月14日授予
提交日期:2011年6月27日

抽象

提供了用于应用用户行为数据以改善搜索查询结果排名的系统和方法。在接收到表明最近重要的用户行为数据可用于与倒排索引相关联的文档的更新文件后,将更新文件定期且频繁地发布到索引服务器。在从更新文件中过滤出相关的更新信息之后,索引服务器提取具有关联的用户行为数据的文档的标识符。更新文件和文档的标识符用于更新内存索引,该内存索引包含指示用户行为的元数据表示。

The 在记忆中 index is continuously updated and utilized to serve search query results in response to user search queries. Search query results from the 在记忆中 index are ranked using the user behavior data before serving. Thus, results associated with recent, significant user-behavior metadata receive prominent placement on the search results page.

拿走

Bing似乎落后于Google和Yahoo的领域之一是显示按过去一天,一周和一个月筛选的搜索结果。一世’我不确定为什么Yahoo提供此功能而Bing没有提供’t。查看Google和Bing等[地震]字词的搜索结果,发现Google的及时结果要比Bing的及时,但Google过去显示的实时结果包括Twitter的数据’的数据流在该区域中丢失。

此Microsoft专利中描述的过程显示了迈向Google通过其Caffeine更新实现的搜索结果增量索引的一步,但它没有’看起来Bing似乎已经采用某种方式来实现这一过程,但这种方式会浮出水面。它’这样的更改可能会给Bing带来质量较低的搜索结果,并可能阻止使用此过程。

页面和内容从在线发布到包含在搜索索引和搜索结果中的速度越快,对这些结果进行分类,分类和确定质量的时间就越少。

Q&A session yesterday 在SES San Francisco,Google’马特·卡茨(Matt Cutts)回答了一些有关Google最近在搜索中所做的有趣问题。他提出的观点之一是“You shouldn’尚未对+1施加很大的压力”. It’很明显,Google仍在尝试对与搜索结果位置相关的社交信号给予多大的重视。它’社交信号可能有助于在网络上对最新内容进行排名,尤其是因为最近发布的网页都没有’t有机会将链接积累为质量信号,这可能有助于搜索引擎确定网页的排名。

新闻内容的确会迅速显示出来,并且在网络搜索结果中排名很高,但是Google’s的新闻结果仅限于已被接受为新闻来源并可能在内容质量方面进行持续监控的网站,并根据与其他类型的网页不同的算法进行判断以确定排名。

Bing可能会在如何对最新内容进行排名方面努力寻找一些相同的答案。该专利显示了朝该方向移动的尝试。

分享是关怀!

关于12条想法“索引搜索引擎中的最新内容”

  1. Pingback:在搜索引擎中为最近的内容建立索引-Inbound.org
  2. 法案,

    That was an interesting comment 通过 Matt Cutts stating “You shouldn’尚未对+1施加很大的压力”.

    但与此同时,我可以看到他怎么说。 SEO操纵的目标肯定是任何可能比其他任何因素都影响搜索结果的指标。

    另外,我可以看到高质量的网页’一定会立即获得+1吨。

    就我个人而言,我绝不会因为自己不擅长社交媒体而对任何事情进行+1,而且我只是从未考虑过要这样做。我相信其他人也一样。

    我想这其中存在使用像G + 1这样的投票系统来影响结果的缺点…但是它背后的想法似乎很合理。

    标记

  3. 很棒的帖子。正如Mark(先前的评论)指出的那样,Matt Cutts的评论很有趣,但让我怀疑Google是否’+1的最初计划是’像他们想的那样结果吗?不幸的是,将其用于任何类型的搜索排名都可以轻松地在其中进行操作或发送垃圾邮件’以目前的形式,构建个人搜索引擎似乎很不错。麻烦的是,当我搜索某物时,’我不太可能正在寻找以前去过的页面,或者我会直接去那里。

    关于谷歌’的最新搜索结果。它’在搜索Google几乎立即将它们编入索引的最新新闻报道时非常有用。我很高兴Google了解新闻网站与其他网站之间的区别,否则这将是另一个漏洞。不断地发布内容(这仍然是一个好主意),但这只会鼓励垃圾内容。

  4. “So, what kind of content gets added to the 在记忆中 index?”

    您是否真的认为他们正在考虑像价格变动这样小的更新,而不是“last updated” date? That’s crazy.

    利用开放图谱来最快衡量社会影响力的一方将赢得Bing与Google的较量,尤其是对于新闻和博客文章而言。对我来说’衡量人气的一种真正形式。进行新闻/最新更新要比在域级别容易得多&不可否认,算法中的技术不是’t确实可以正常工作。

  5. 尽管许多论坛不断地强调拥有博客和定期更新的重要性以及社交网站将如何接管seo世界的重要性,但我仍然不相信它们对seo或网站排名的影响是相关的或持久的。许多原因是因为许多论坛和博客都充满了自动评论,而权威网站上经过深思熟虑的原始文章应该对Google最初想要对信息进行排名的方式更有意义。

    这只是我和一厢情愿的想法吗?

  6. 我同意乔纳森在这里+1′ doesn’似乎没有Google想象的那样。它’似乎大多数技术/在线营销和SEO社区都在使用,但是我’令人怀疑的是,这会扩展到此后的任何重大用途“joe public”域。当然,就像任何类型的指标一样,无论它是基于评论,星级评分等,都可以操纵社会指标。它不会’人们操纵页面内容以影响与“可能要观察的另一个信号是行为是否与对页面的修改有关,例如对内容的更改至少改变了页面上的一个术语,例如基于零售站点的新价格。”

    在新鲜内容方面,我个人比较喜欢Twitter,我认为’Google去年失去了实时功能,真是令人遗憾。

  7. 我同意+1不会 ’确实看起来与Google最初计划的一样好。他们使Facebook看起来像是要倒水,并帮助SEO。但它’就像其他人所说的那样,操作+1很容易,’在该领域几乎一文不值。也许MS会找到一种对新内容进行排名的更好方法。

  8. I’我仍然对Twitter变得多么重要感到惊讶,其内容是如此简短且没有描述性,但它’即时性和速度正在重新定义网络,当然还有搜索引擎。

  9. 有趣-还有其他Mat Matt’s的引号表示他们确实将其存储在社交信号中-它’很难知道在这方面该相信什么,但我当然同意+1’s aren’这是目前算法中的重要因素。关于使用社交信号或喜欢来寻找新鲜内容的方法,您的观点是正确的。 --

  10. I’我在很多搜索短语的前10个中看到了越来越多的Google +作者信息。我认为Google仅将其Google+页面用作html中的作者页面这一事实,就将相关性较低的结果给予更高的优先级。尽管在一定程度上是不公平的,但这确实使努力培养良好满足感的努力者在竞争中占了上风。

  11. 很高兴看到Google曾经在搜索结果中显示实时推文。开始展示实时推文是很好的社交媒体集成。但是很遗憾,他们成功推广了+1。

    只是想知道,较早的排名方法是否在社交书签网站(如digg,stumble on,icious等)中的排名中被赋予了较好的偏好?

评论被关闭。