HTML的伟大之处在于它’如此灵活,并提供了许多处理方法。 HTML最糟糕的是’如此灵活,并提供了许多处理方法。一世’我看了很多网站,但我仍然看到人们以新的方式做事。
一个问题’在许多网站上常见的常见情况是,可以在多个URL上找到一个网站页面。站点所有者可能出于多种原因并以多种方式来完成此操作。这可能是与内容管理系统有关的问题,’也被使用。
Google公布的一项专利申请探讨了官方网投引擎如何通过网络爬网找到URL并通过诸如产品Feed的供稿找到另一个URL时,两个URL都指向同一页面,但是这些URL的结构不同。
This seems like potentially a lot of work to me, and the patent filing has me shaking my head that Google might use resources to figure out 重复d content on a site, even if it potentially might enable the search engine to understand URLs and associated products and other information that it might identify better.
例如,让’s说,URL的一种版本是Googlebot抓取页面时发现的内容。另一个版本是从数据库生成的供稿的一部分,该数据库列出了电子商务网站上的产品,并包含了页面本身可能未包含的某些信息,例如页面上特色产品的价格。
在DUST中爬行:具有相似文本的不同URL
有时,这些URL可能附加了跟踪参数,例如将站点访问者标识为唯一的会话ID。有时,将代码放在URL上,该URL告诉某人页面上链接的位置,例如页面顶部的标题,侧边栏或页脚中。
早在2006年,我写了一篇有关一篇论文的文章,描述了官方网投引擎如何尝试理解可能不同但指向同一页面的URL。帖子, 使用相同的文本(DUST)解决不同的URL.
在2007年,制作原始海报的团队在“不要在尘埃中爬行:具有相似文本的不同URL(pdf)”一文中对此进行了扩展。
官方网投引擎如何匹配网站上指向同一页面的不同URL?理想情况下,我’d想要做到这一点’每个页面只有一个URL,但是在某些情况下,例如通过网络抓取的网站上的URL是否可以与网站上相同页面的不同URL(例如作为产品Feed。上传产品Feed时,其中可能包含其他信息,例如产品价格。如果Google可以将爬网的URL与上载的URL进行匹配,则它可能能够显示URL的爬网版本以及产品Feed URL附带的价格。
鉴于Google现在负责展示产品结果,’我不确定Google是否会实施此专利申请。它背后的想法可以与其他供稿一起使用,例如视频供稿或XML新闻供稿吗?
专利申请是:
映射不同索引的统一资源定位符
由Oskar Sandberg和Olivier Bousquet发明
分配给Google
美国专利申请20130103666
2013年4月25日发布
提交日期:2011年10月21日
抽象
服务器可以识别存储在第一官方网投索引中的第一地址;
- 确定与第一地址相关的一个或多个第一标识符;
- 识别存储在第二官方网投索引中的第二地址;
- 确定与第二地址相关的一个或多个第二标识符;
- 基于一个或多个第一标识符中的第一标识符和一个或多个第二标识符中的第二标识符,将第一地址映射到第二地址;和
- 将第一地址到第二地址的映射发送到与第一官方网投索引关联的第一服务器或与第二官方网投索引关联的第二服务器。
除了从匹配中查找与特定模式匹配的URL唯一的数字键字符串(也显示在通过供稿上传的URL中)之外,官方网投引擎可能还会查看与这些URL相关的其他信息,例如网页标题和元描述等也可能匹配。
该专利申请确实表明它可能用于产品饲料以外的其他用途,例如”项目(例如产品),已发布的新闻报导,图片,用户组,地理区域或任何其他类型的数据。 ”鉴于Google产品官方网投已成为Google的付费产品,因此Google不太可能挖掘这些产品Feed URL来显示其他信息。
例如,Google新闻站点地图网址可以带有一个<geo_locations>标签附带的供稿中,Google可以使用该标签将同一页面的其他版本的URL与该位置相关联。
老实说,我’更有可能相信Google将首先开发自动驾驶汽车,多功能Google Glass,智能手表以及科幻小说中似乎更多的东西,然后才能够为同一个页面找出多个URL。在各种各样的网站上。
那里 ’用HTML处理事情的方法太多了。
谢谢,开发人员,
我怀疑谷歌没有’就像在不同的URL上看到相同的页面一样,它发生在很多站点上,并且是否通过允许Google将抓取的URL与不同的URL关联到同一页面来理解指向同一页面的不同URL何时具有一定的价值。出现在提要中的提要以及提要中的其他信息’在这种理解和联想中的价值。
而且,如果提要中的URL与站点上爬网的URL相同,则提要中的关联数据对于Google来说应该更容易提取,并与这些URL和提要中的额外数据相关联。
比尔,这是一个了不起的发现!我们’ve在Powered 通过 Search上对诸如第一个链接优先级和合理的冲浪者模型之类的问题进行了很多辩论,但到目前为止,’我看到了一个结果比另一个结果更好的混合结果。我们’在技术上也有很多实例‘duplicate’内容排名真的很好。例如我’我们已经看到WordPress博客上的类别和标签页面的排名要比指向商业网站的链接好’的服务页面,因为该类别页面似乎具有更多的主题长格式内容。
嗨,布伦特,
I’我不确定在HTML具有如此高的灵活性的情况下是否可以使用DUST规则集,但是我同意通过Google / Local / Product / Social属性的视角来研究可能会更容易。
嗨,伊恩,
在他们想出如何解决指向同一页面的多个URL之前,Google可能会在道路上拥有数百万辆自动驾驶汽车。我发现我每周至少几次对建立站点和引入新事物时富有创造力的人感到惊讶。
当您开始考虑大量CMS时’s, custom CMS’,论坛供应商,目录,聚合,应用程序,框架。’花费大量时间来建立规则集。那灰尘不是’将要解决一段时间。
It’有趣的是,可以考虑通过在Google / Local / Product / Social属性中的URL级别上完成什么工作来实现。
嗨乔,
我认为规范链接元素的目的不同–它们是某人(网站所有者)可以用来使官方网投引擎更容易理解的工具,该URL何时包含某个页面上实质上相同的内容(或其中一部分)。有了这项专利,Google承认有时会设置网站,以使同一页面具有不同的URL,有时其中的一些URL可能会与其他信息相关联,例如Google新闻Sitemap上的流派或地理位置或产品价格饲料等。如果Google可以适当地将不同类型的URL彼此关联,则它可能能够将Feed附带的某些其他信息关联起来。
最后一个音符的道具–我必须同意:自动驾驶汽车似乎更有可能出现。 Google也一样’传闻中的独角兽克隆计划。它’s not Google’s fault –我只是看到网络人士找到了难以置信的创造性方法来促进其网站上的重复。
Isn’这是什么规范标签?
就在我认为Google的抓取工具变得越来越聪明的时候,我发现这样的文章使我对它们的有效性提出了质疑。这就像我的2岁女儿一天要说一堆新单词,然后试图将人行道上的一块垃圾塞到她的嘴里。事实是,即使进行了所有更新和算法更改,Google仍无法跟上(并正确地排名)当今存在的庞大网站数量。
I believe that this patent was made for people who are not familiar with the term 重复 content or canonical link and have a website. In addition, Google will reduce the number of pages in the index –这意味着节省。
嗨,比尔,
感谢您解决此问题。好吧,就像你一样’ve said, “对于许多网站来说,常见的问题通常是一个网站的页面可以在多个URL上找到。”这是完全正确的,我可以证明这一点。一世’我一直在官方网投网站,然后遇到了一个网址 http://2012onwards.com/。单击此URL之后,它随后将我带到您的站点,这确实很不寻常,因为您的站点URL与我发布的站点URL非常不同。所以,然后我问自己这件事发生后,如果两个不同的网址会影响网站排名’s指向1页?官方网投引擎会将其视为垃圾邮件还是其他内容?
我猜想该专利将有助于规范化问题,因此将使用爬网带宽来爬网唯一的内容。不仅通过不同的媒介发现URL,而且在爬网时有很多重复的内容,因此识别相同的内容很重要内容网址,并包含一个单一的规范网址。。这也将帮助网站管理员,规范化问题将不再那么繁琐。尽管规范标签只是评论中的一个,但规范标签的问题是人们没有按应有的频繁使用规范标签,并且在使用跟踪参数和会话标识符时,我没有看到很多使用规范标签的网站。
感谢您解决此问题
我可以举一个很好的例子。完全排名下降的dailyjot.com。我看了看他们是如何通过多个超链接文本(15)来操纵单个博客(关键字丰富)的,这些文本重定向到该网站的将近15个着陆页。