官方网投分类法以回答网页上的问题

分享是关怀!

如果你 were to search for [Ronald 里根 Movies] at Google or Yahoo or Bing, would you expect to see a list of movies that the former President and actor appeared in?

It’您更有可能会看到一组包含以下单词的网页“Ronald” and “Reagan” and “Movies,”其中可能包含由前政治家和剧作家主演的电影的名称。

雅虎上周发布的一项专利申请,基于从网页上找到的信息中收集的有关特定人物,地点和事物的信息的官方网投分类法,探索了直接将信息返回给官方网投者的方法,而不是让官方网投者浏览多个网页查找诸如以下查询的答案 “罗纳德·里根电影。”

雅虎和Google在遇到某些涉及以下问题的查询时都会回答一些问题“named entities,”或知名人物,地点和事物的名称。例如,在任一官方网投引擎中官方网投[Babe Ruth的出生地],并且在官方网投结果页面上的网页上方会出现以下问题的答案:

Google官方网投结果显示了Babe Ruth的出生地。

雅虎官方网投结果显示了贝贝·露丝的出生地。

但是,没有一个官方网投引擎提供更详细的信息集,例如某些人的引言清单,他们可能出现在其中的电影或担任的政治职务。人们会在官方网投结果中看到这些东西吗?雅虎’的专利申请探讨了他们如何建立有关罗纳德·里根(Ronald 里根)等人的信息的分类法,并从网页中提取信息以建立对诸如在官方网投结果页面上显示的问题的答案。专利申请是:

创建和丰富基于官方网投的分类法以从半结构化数据中查找信息
由Sudharsan Vasudevan,Rohan Monga,Hemanth Sambrani和N S Sekar发明
美国专利申请20090282010
分配给Yahoo!
2009年11月12日发布
申请日期:2008年6月18日

抽象

提供了用于基于捕获的与用户与系统交互的信息来创建和更新实体层次结构(官方网投分类法)的技术。还提供了使用分类法确定由提交给官方网投引擎的术语表示的实体的性质的技术。分析官方网投日志以查找相关的实体集,并用于改进分类法来存储信息。

创建分类法后,将基于分类法获取并汇总跨数据源的信息。查询系统时,查询被修改为预定义的模板,并迅速返回最合适的结果。还提供了一种反馈机制,以基于官方网投量来增强分类法和实体数据。当涉及实体,实体的属性和关系时,该系统使官方网投引擎能够提供准确的答案。

官方网投分类法专利的发明人以罗纳德·里根(Ronald 里根)为例,因为他可以适应不止一个“main”分类或分类系统中的类别,既有电影明星又有政客的历史。在下面“movie stars”类别可能是诸如“date of birth” as well as “movies acted.” Under the “politicians”类别,我们可能还会看到“date of birth,”但是其他属性,例如“offices held”也可能包括在内。

什么’有趣的是,这让我想起了Yahoo根源的结构’的来源作为目录。我们’重新告知雅虎将结合官方网投查询日志和人工干预的反馈来构建官方网投分类法。建立分类法的人工编辑方面将有助于确保信息正确,而来自查询日志的自动反馈将有助于确保分类法是最新的,并包括来自官方网投趋势的最新信息。

专利说明书中包含的许多官方网投分类法示例涉及众所周知的人或地方或事物,通常称为“named entities,”例如约翰尼·德普(Johnny Depp)或帝国大厦(Empire State Building),但专利文件告诉我们,其中可能包括不’也涉及来自“humans” to “11th grade teachers.”

对于像这样的系统可能创建的许多官方网投分类法,官方网投引擎可能会以提供数据信息的现有数据源开始,例如Internet电影数据库(在专利申请中未专门命名)或黄页目录。

对于某些类型的类别(例如可能列出人员的类别),可能存在与人工编辑器定义的类别相关联的默认属性,例如“date of birth,” or “place of birth,” or a “date of death.”

可以通过查看官方网投日志以了解人们正在寻找的内容来学习可以应用于类别的其他属性。例如,人们经常从类似的人那里获取报价“Mark Twain.”如果这些类型的官方网投趋于普遍,则对于有[马克吐温报价]的查询,官方网投引擎收集马克吐温报价以向官方网投者显示可能是合理的。

有些人,地点和属性具有通用别名或替代名称。例如,当您官方网投某人的生日时,您可以使用以下单词:“birthday,” or “born,” or “d.o.b”。当某人官方网投Johnny Depp时,他们可能还会官方网投“Johnny D.”, “J. Depp”, and “Jack Sparrow”。官方网投查询,包括“United States”可能会打电话给那个国家“US,” or “USA” or “美国。”官方网投引擎可能会从官方网投日志中学习自动关联这些别名。

要显示给官方网投者的类别和属性的来源可以由编辑者识别,也可以从官方网投日志中看到的官方网投者的点击信息中识别出来。某些来源可能会更高“confidence levels”来自那些人工编辑或官方网投引擎,尽管该专利没有’t tell us the qualities that might be used to determine those 置信水平. Presumably, if a particular web page was used to provide information and answers to queries, the search engine would link to that page like in the examples above about Babe Ruth’是Google和Yahoo的出生地。

官方网投分类法结论

该专利确实更详细地介绍了如何建立官方网投分类法,以及如何确定响应某些类型的查询可能显示哪些信息。

尽管值得花一些时间,但该专利申请最有趣的是它显示了直接回答查询问题的愿望,而不是向官方网投者展示可能提供或可能不提供这些答案的页面。当然,官方网投引擎在显示答案后可能会继续显示网页,这些网页可能是官方网投者查询的良好结果。

如果你’如果官方网投者正在寻找有关某个主题的信息,然后官方网投引擎就这样直接回答了您的问题,您对这些答案的感觉如何?

如果你’作为一个网站所有者,是否会困扰您一个官方网投引擎可能会挖掘您的网站来显示答案,并可能阻止访问者直接访问您的网站来获得这些答案?

分享是关怀!

23想法“官方网投分类法以回答网页上的问题”

  1. 嗨,比尔,

    很棒的帖子–感谢您引起我的注意–非常值得推文ðŸ™,
    顺便说一句’m现在通过@headup和@pop_art关注您…

    干杯,
    麦克风

  2. 这很棒…因为关注点是人,地方和事物,所以我想到了维基百科,’通常您希望在哪里找到有关名人,地点或事物的所有必要信息,所以我不知道维基百科对此有何看法…作为官方网投者,我发现这对于尚未知名的人,地方,甚至他们可能没有自己的网站的东西很有价值,但是有关他们的内容颗粒却遍地开花,这使他们聚在一起

  3. pingback:»宾格饼干| seoFM-官方网投引擎优化和在线市场营销人员的德国PodCast播客
  4. 那么这是否意味着像Yahoo这样的官方网投引擎将吸引其他人’网站上的内容(辛苦工作),并出于自己的目的重新包装,从而使官方网投者留在自己的网站上,并有可能点击自己的广告?—

    “雅虎上周发布的一项专利申请,是基于从网页上找到的信息中收集的有关特定人物,地点和事物的信息分类法,探索了直接将信息返回给官方网投者的方法,而不是让官方网投者浏览多个网页来寻找信息。查找查询的答案,例如‘罗纳德·里根电影。'”

  5. 嗨尼克,

    好贴。我确实认为,以这种方式提供信息,并带有指向源的链接,这确实为提供信息的站点和源提供了机会。我的问题是,人们一旦停止’找到答案了,还是可能点击进入该信息的来源?一世’我倾向于他们会在相当长的时间内点击–对于作为来源的网站而言,这将是积极的。

  6. 嗨,湿婆,

    我在阅读文章时也想到了维基百科。它’当Bing显示涉及以下内容的结果时,Bing正在Wikipedia文章上使用Powerset技术就不足为奇了“named entities.”Google和Yahoo都已经做了有限的问题解答–问题是他们会考虑做更多的事情。该专利申请表明,它们可以为我们提供更详细的问题答案。他们会吗?

    他们还会开始回答有关人或地方或事物的问题吗?’众所周知吗?我不’不知道。该专利也提到了这种可能性,但没有涉及太多。

  7. 嗨人查找器,

    在某种程度上,它确实意味着–官方网投引擎从网页上提取有关人员,地点和事物的事实,并提供有关它们的信息以及指向该信息源的链接。这就是为什么我在帖子中问–官方网投引擎应该位于人们官方网投答案的地方,还是人们官方网投提供答案的页面的地方。

  8. 哇,这很有趣。比尔,您似乎对专利了解很多,雅虎是否必须证明自己是专利的第一人?我以为您必须证明自己最初开发了某些东西才能申请专利?也许这与之前所做的足够不同?

    对于Yahoo来说,这实际上是一个绝妙的主意。一世’m sure I’在并非如此罕见的情况下,我不是唯一的互联网用户,在这种情况下,您正在官方网投非常简单的内容,但是由于所有错误的正面点击,很难通过官方网投引擎找到它。一世’我不确定Google是否能在领先SEO技巧方面做得足够好,这可能是Yahoo抢回一点市场份额的机会。

    BTW Bill,很棒的内容在这里–我最近才找到您的博客,给我留下了深刻的印象。

  9. It’是一个有趣的话题,比尔。作为官方网投者,有时候我不知道’无需查看网页。我只想快速回答。贝贝·露丝的出生地查询就是一个很好的例子。一世’d而是官方网投引擎给了我答案,而不必点击进入页面并扫描结果。

    作为网站所有者的Od课程我希望人们点击并访问和扫描我的网站。我不会’如果官方网投引擎给出的答案像马里兰州的巴尔的摩那样简单,就不会感到困扰,但是当他们扩展答案的范围时,他们就会对此感到困扰。

    以“作为官方网投者”的列表为例,我认为将列表直接显示在官方网投结果中会很棒。但是,有人只是为了让官方网投引擎窃取努力而编制列表,是否公平?也许如果官方网投引擎在信息下方添加了一个链接,例如“compiled from” or “according to”这可能是一个很好的妥协。信用凡信用’s due.

  10. 嗨,Buzzlord,

    谢谢。一世’在过去的几年中,我们花费了大量时间来研究专利。

    专利的一般(通用)经验法则是,它们需要描述一个新颖的,非显而易见的和有用的实际过程。他们不’不必描述如此创新的东西,以至于它们将彻底改变世界,而且许多专利申请所涉及的范围都很小–一种做另一件事的新方法。

    鉴于Google,Yahoo,Microsoft和Ask都在交付官方网投结果时考虑到非常相似的目标,因此’我们有可能看到每种专利都涵盖了非常相似的领域。正如我在文章中提到的那样,Google和Yahoo都已经做了类似的事情来响应生日等查询。这项专利是否与众不同?我们真的赢了’直到真正知道为止。

  11. 史蒂文你好

    好问题和观点。快速答案可能是好的,而且它’链接形式的归因确实有可能使其成为“source”显示的信息。

    但是还有其他问题。从站点获取问题的答案是否会引发版权问题?是否涉及合理使用问题?正如您所指出的,多少信息太多了?

    网络发布者需要访问者,他们希望人们访问其页面。官方网投引擎希望直接或通过将官方网投者引导至提供这些答案的页面来向官方网投者提供答案。在某个时候,当官方网投引擎开始提供直接答案(从他们所访问的网站获取)时,可能会发生冲突’我已经在网上爬网了,指向源的链接可能不足以使网站所有者满意。

    如果我想要罗纳德·里根的电影列表,很高兴能在官方网投结果中看到它们–但我可能会觉得我’可以从Internet电影数据库(IMDB.com)获得更多信息。但是,并非所有人都会有这种感觉。 IMDB是否会因为Yahoo可能会从中获取这些信息而失败吗?

  12. 以Google为例,当我官方网投自然结果时,已经在页面上向下推,以便为付费结果腾出更多空间。我看到了其他旨在使官方网投者也留在网站上的动作。从我的行业来看,我注意到Google现在在其地图上有财产清单,因此官方网投者无需前往Zillow,Trulia或他们的房地产经纪人协会。此外,谷歌将其抵押贷款应用程序从英国转移到美国官方网投者手中,导致用户留在他们的网站上。通过这种方法,网站所有者起初可能看不到任何错误,但是随后他们将在某些时候对此提出质疑。如果来自加利福尼亚的官方网投者在我的网站上找到了答案,但官方网投引擎没有将其发送给我,我可能会满意,因为我不在那儿做生意。但是,我希望休斯敦的官方网投者能够通过,希望能有所作为。也许htaccess文件中的一些代码行与创用CC许可相连,告诉官方网投引擎我们希望他们采取什么行动。

  13. 嗨弗兰克,

    官方网投引擎是否可以达到一个舒适的平衡或平衡,既可以是一个试图尽可能长时间地将访问者保留在其自己的页面上并向他们展示广告的门户,又可以使官方网投者定期返回,通过尽可能有效地在其他站点上提供最佳结果?

    如果官方网投引擎提供的服务比提供房地产清单或抵押申请的网站上的服务更具创新性或有用性,那会有所作为吗?

    在查看Google时’s news listings, I’我不完全相信Google’的新闻提要对新闻网站不利–如果我在Google新闻上看到的一个故事对我来说很有趣,那么我通常想了解更多信息,而Google展示的摘录更有可能让我点击查看更多信息。合理使用范围是否涵盖这些列表?一世’我不确定让Google停止显示这些摘要是否代表报纸和杂志是明智之举。

    不断发展robots.txt,使其可以包含诸如创用CC之类的机器可读版权许可可能值得考虑,而且值得一看。但是从法律上讲,在合理使用时从来没有必要定义版权。

    在数据汇总,合理使用,官方网投引擎,API和机器可读许可证方面,我们处于法律和财产权快速变化和发展的领域。其中包括官方网投引擎可以汇总和显示多少信息(即使使用链接形式的归因),也可以将其从合理使用转变为侵犯版权。这些是有趣的时期。

  14. 根据新闻集团的公告,我’我一直在考虑这个问题。
    首先,如果提要足够有趣,那么我会点击一下,因此我认为这对网站所有者造成了负担,使他们可以头条新闻和摘录。
    第二,对于提供答案的官方网投引擎,也许我们可以制定一些与研究论文期望相似的规则?不需要像出生地这样的常识。当明确表达别人’在工作中,需要更适当的引用。
    对我而言,模糊区域可能包含一些常识,但可能仅针对特定的组。例如,智能电网现在正在获得一些关注。对于自80年代以来一直关注这些发展的我们来说,我们对与该想法相关的术语有一个常识。如果我写了一篇有关中间网格的文章(很少有网站做过),那么我所讨论的是一个常识性的话题,而不是一般话题。我的帖子应该得到更好的引用吗?
    最后,如您先前所述,网站所有者必须遵循建议,不要将其所有的营销希望都放在官方网投引擎上。

  15. 嗨弗兰克,

    周到的观点。谢谢。

    I’m not sure that we’我们已经从官方网投引擎中充分了解了这种问答方式,从而掌握了如何以一种既能吸引人们想要访问源的方式呈现这种信息的方式,又能使官方网投引擎充分理解的方式,想用它作为答案。也许,如果我们更仔细地研究Google处理定义的方式,我们可能会从中得到一些想法(对define:*关键词词组*进行一些官方网投以查看示例)。

    Facts, or common knowledge, 通过 themselves should be outside of copyright, but the expression of those facts may remain within copyright protection. It might be safer in many instances to provide a citation as a 资源. When you talk about specific terms of art that may be well known within an industry, but not as well known to the 主要stream population, it makes a lot of sense to provide a decent attribution or citation and a link.

    很多人都转向官方网投引擎,但是他们不是’这是人们找到站点的唯一途径。那’这是使网络营销有趣的一部分。

评论被关闭。