Search Based upon Concepts: Applied Semantics and 谷歌

分享是关怀!

Applied Semantics创始人最近授予的一项Google专利讨论了一种搜索界面,该界面可以帮助搜索者根据查询的含义而不是仅包含那些关键字的页面来查找网页。

在90年代后期,亚当·韦斯曼(Adam Weissman)和吉拉德·埃尔巴兹(Gilad Elbaz)决定启动一个搜索引擎, meanings 要么 概念 而不是关键字。他们与几个朋友和家人一起组建了一家名为Oingo的公司,并一路申请了一项有关 根据意义搜索 而不是关键字。

他们开发的技术除了可以用于搜索之外,还可以通过多种方式使用,并为基于关键字的搜索提供了有趣的替代方法,这将导致搜索引擎领域的一些重大发展。

Oingo改变方向

大约在Oingo开发其技术的同时,Google推出了针对于查询中匹配关键字的技术,并开始与公众接轨。 Oingo的另一位创始人Eytan Elbaz在 2008年面试:

在1999年,“我的哥哥和他的朋友以及一个堂兄为基于含义的搜索引擎Oingo提出了这个想法。我们提出了使搜索引擎更好的想法,因此您可以根据含义而不是文本进行搜索。

当我们想到人们不想这样搜索,他们想在Google上搜索时,我们走了一年。

“我们决定改变方向,将注意力更多地集中在互联网广告上,并使用相同的技术将目标语境化。”

虽然Oingo没有’为了直接向公众提供搜索,他们开始创建人们可以在其网站上免费使用的搜索工具,并成功建立了与Open Directory Project一起使用的搜索。他们进行了多元化的开发,并申请了一项 基于意义或概念的广告系统.

他们还开始构建企业级工具,该公司于2001年5月更名为Applied Semantics,“better reflect Oingo’改变的商业模式。”

他们发表了许多白皮书,描述了他们开发的CIRCA技术(概念性信息检索和通信体系结构),该技术着重于理解某些信息管理应用程序中字符串背后的概念性信息。

  • CIRCA技术概述(pdf)
  • CIRCA技术:将意义应用于信息管理(pdf)
  • 本体用法和应用(pdf)

应用语义学开发了一种使用该技术的方法 新闻内容,今天已被USA使用。

应用语义学也 推出Adsense in 2002, using their CIRCA technology to understand and extract the central 概念 that appear on pages to deliver advertising that matched the context of the pages those ads appeared upon.

谷歌 and Applied Semantics Merge

In 2003, 谷歌 合并与Applied Semantics.

合并的最明显结果是Google’在其Adsense产品中使用了该技术,但Google可能会更多’在幕后使用CIRCLA技术。上面链接的两项“应用语义学”专利早已重新转让给Google。合并后几个月申请了一项专利,列出了亚当·韦斯曼(Adam Weissman)和吉拉德·埃尔巴兹(Gilad Elbaz),本周才被授予专利。

是什么让Oingo开发的网络搜索技术与Google最初使用的关键字匹配方法不同?从其中之一 原始页面 在Oingo.com上:

Oingo的价值’基于意义的方法远远超出了不相关结果的过滤范围。

我们的技术的真正力量可以通过查询来证明,例如“购物渔具”。一旦用尽了对包含所有三个单词的网站的搜索,传统的基于文本的搜索引擎便会寻求三分之二的单词匹配。此搜索可能会产生有关购物和渔具的结果,但与钓鱼无关,或者相反,与渔具无关,但与购物无关!

An Oingo meaning-based search does not give up so easily; it essentially tries hundreds of possible combinations of related terms before giving up on finding information related to all three 概念. Consider the following examples of 高度 relevant results for this query: “在线购买捕鱼设备”, “捕鱼设备零售店”, and “钓鱼爱好者的礼物”.

除非所有三个特定搜索词恰好同时出现在页面上,否则传统的基于文本的搜索可能无法看到这些结果的高度相关性。

因此,传统的基于文本的搜索结果有时似乎是任意的,甚至是随机的。替换单词“employment” with “jobs”,例如,您通常会得到完全不同的结果。通过搜索含义而不是单词,我们的搜索消除了这种情况“randomness” of results.

谷歌授予的新专利描述了一种不同的搜索方式,搜索者不仅可以输入搜索词,还可以通过搜索界面在初始查询后提供其他选项,从而使搜索者可以在初始查询词的不同概念之间进行选择可能包含在搜索中,并定义了搜索的其他方面,而这些方面比关键字本身更关注含义和概念。

更少的关键字匹配,更多的尝试去理解含义?

您可能已经注意到,在Google,Yahoo和Bing上越来越多的搜索不仅提供搜索结果,而且还提供查询优化建议;对于Bing,有时会选择与查询词相关的不同类别的结果。

这些搜索引擎在搜索框下方的下拉列表中的预测结果也试图猜测搜索背后的意图。

谷歌’几个月前发布的有关他们可能如何扩展搜索者键入的查询的公告 包含同义词 这也是从严格的关键字匹配到可能更匹配搜索背后的含义而不只是单词的结果的转变。

该专利位于:

用于检测和提取信息的方法和系统
由Adam J. Weissman和Gilad Israel Elbaz发明
Assigned to 谷歌
美国专利7,689,536
2010年3月30日授予
归档:2003年12月18日

抽象

描述了检测信息并提取信息的系统和方法。

在一方面,定义了用于检测物品中的目标命中的目标规则,包括定义目标物品区域,基于用于从物品中提取提取物的目标规则定义了提取规则,包括提取物品区域,目标规则对物品的每个目标物品区域应用“确定”以确定目标命中,并且基于确定的目标命中将提取规则应用于从物品中检测至少一个提取物。

该专利可能暗示了Google将来可能会显示的其他搜索界面,这些界面旨在帮助搜索者找到与其查询词背后的含义更好的匹配项,而不仅仅是与搜索中使用的关键字的匹配项更好。

分享是关怀!

23想法“Search Based upon Concepts: Applied Semantics and 谷歌”

  1. It’有趣的是Google打算如何扩展其搜索者键入的查询以包含同义词的意图。这似乎是一种自然的演变,几年后,这将使基于关键字的查询看起来非常过时。

  2. I use 谷歌.co.in and found that 谷歌 is already using synonyms while searching for a keyword. 那 it more interesting when we misspelled some words and it suggests us the correct word…Google变得越来越聪明。

  3. “Google授予的新专利描述了一种不同的搜索方式,搜索者不仅可以输入搜索词,还可以通过搜索界面在初始查询后提供其他选项,从而使搜索者可以在初始查询词的不同概念之间进行选择可能包含在搜索中,并定义了搜索的其他方面,而这些方面比关键字本身更关注含义和概念。”

    我认为这只能是一件好事,更准确的结果意味着搜索者会高兴;但是这可能会导致SEO问题 ’s。假设用户使用特定查询进行搜索;他们’然后对它们进行细化,以帮助他们进行搜索,然后使用这些搜索并将用户引导到站点。

    将来会不会’s no longer any good to rank 高度 for keywords; you need to rank 高度 for the refined keywords. The big question is, 什么are the refinements going to be and can we track 什么the most popular one are?

    Looking through at 什么Oingo is saying, it sounds like 高度 authoritative sites which rank in a wide range of keywords would consistently be ranked 高度 in their system. I think this would sort the 搜索引擎优化 pro’s,他们的目标是长尾,来自单个关键字集中的业余爱好者。

    I look forward to seeing 什么Google’s next move is.

  4. 保罗,你好

    看起来确实是自然演变,’t it.

    Looking back at 什么Google offered in terms of keyword matching, versus the kind of search that Oingo offered –通过概念搜索,我’我想知道Google当时是否更成功,因为公众更容易理解为什么他们看到的结果出现在搜索结果中。出现的页面是包含这些单词的页面。

    被告知页面是“best matches”包含一些查询词的搜索,而这些查询词没有’出现在页面上可能会使搜索者难以接受。搜索引擎如何确定那些页面是最好的页面?如果“concepts”他们认为与查询aren有关’t 什么searchers actually intended?

    将查询扩展作为一种捕获同义词的方法,仍然可以使搜索者理解和理解,就像被告知页面被选中是因为它们包含搜索中使用的关键字一样。我实际上很喜欢包含建议的查询细化的想法,搜索者可以选择查看相关的概念,而不仅仅是在可能相关的搜索结果页面中,因为它们可能涵盖了相关的概念– I’我不确定关键字匹配本身会消失。

    我相信,即使是Oingo,也提供了查看关键字匹配结果的机会。我不’t know if we will ever lose those keyword matches, but hopefully we will have more options in the future to refine our search results based upon other 概念 that might match the intent behind our queries.

  5. 您好smsinhindi,

    谷歌确实在Google官方博客上宣布,他们将在几个月前在搜索结果中插入同义词的结果,而这些建议的拼写更正已经存在了很多年。谷歌不是 ’但是,仅靠提供越来越多有用的选择就可以了。我们’在Bing和Yahoo上看到了类似的功能。而且’s good to see.

  6. 嗨,卡利班,

    有趣的想法。感谢您分享他们。

    我认为,能够更智能地优化和定位搜索结果是一个好主意,它将极大地帮助搜索者。对于从事SEO的人员来说,这可能意味着更多的工作,但是如果他们意识到这些类型的变化,也可能会对他们有所帮助。

    我猜想,它们跟踪和理解潜在查询优化的最佳方法是花费大量时间自己研究搜索结果,并使用跟踪行业趋势的警报和工具,以及花费时间与可能感兴趣的人进行互动网站必须提供的商品或服务或信息中。

    It’很难判断Oingo创始人的专利中的程序是否会针对“highly”权威性。他们的系统提供的定位目标有多精确的示例之一是返回页面,因为该页面包含与搜索相关的单个句子“sharks”即使页面的其余部分没有’t, and wouldn’对于该查询字词,其排名尤其不错。但是,句子本身非常适合查询。如您所述,这可能会使那些关注提供包括长尾项在内的结果的人受益。

    似乎不仅在Google方面,它的发展还包括包括更智能的搜索界面,这些界面显示了更多的概念和类别,这些概念和类别可能掌握了查询背后不同含义的可能性,并允许进行更多的查询细化,从而使搜索者可以深入了解搜索结果,而不必在可能与搜索意图无关的多种结果之间进行选择。那’只是我的问题,但我认为我们’重新看到现在这种情况的迹象。

  7. 我想知道这项技术是否会结合某种类型的用户个人网络历史知识。如果我在Firefox搜索框中输入问题,它会拉出我作为建议提出的相关问题。在Google上以这种形式进行搜索时,我得到了许多其他人进行的标准搜索。如果我开始输入问题“what …”一个建议将是“whataburger” 要么 “我看起来像什么名人”。我喜欢此专利背后的想法,但我们可能会发现,不同的用户在以类似方式进行查询时会有不同的意图。

  8. 这真的很好,能够搜索含义或概​​念而不是关键字,因为某些单词会被拼写为理智的方式,但含义会有所不同。这样一来,搜索就不再是徒劳的了,人们会喜欢搜索,因为与查询的所有可能连接都将出现,包括同义词。真的很棒这表明Google确实在考虑搜索者的福利,并会竭尽所能提供最佳和最有用的信息。

  9. What a fantastic insight into 什么could become the norm in 谷歌’s SERPs.

    这是在SE上的结果页面上获得更准确,更整洁结果的逻辑步骤’s.

    我们想要更清洁的SERP’而不是覆盖很多结果的垃圾邮件。我们是饥饿的野兽;我们希望能回答我们的问题,并希望在搜索后获得最佳回报。

    Looking forward to this eventually happening if it does not happen some 什么already.

    Bill,您在哪里找到所有这些信息,又在哪里有时间研究所有专利和可能的用途?

  10. 李嗨

    谢谢。我觉得’是主要搜索引擎的最终目标。

    Bill,您在哪里找到所有这些信息,又在哪里有时间研究所有专利和可能的用途?

    我喜欢查看主要资源,例如专利申请,搜索引擎的白皮书和博客文章,因为在大多数情况下,它们直接从来源提供信息。我觉得’这对于我来说是必要的,需要花费时间并每天进行一些研究,并尝试使用我可能应尽的可能的最佳资源。

    我也确实通过RSS订阅了大量SEO,营销,设计和其他博客。

    研究专利申请和白皮书使我有机会:

    1.撰写有趣且有点独特的博客文章
    2.保持最新,并可能在搜索格局的潜在变化方面领先一点
    3.培养并保持与搜索相关主题的专业知识水平
    4.找到可以进行试验和思考的好主意
    5.提出以下问题:为什么事物按其现状进行排名,以及为什么搜索引擎会执行某些事情
    6.根据研究和实验,将有意义的想法和更改纳入对客户的建议中
    7. Use 什么I’也以其他方式学习。

    我认为这项研究帮助我做出了比我可能做出的更好的决策,使我免于对可能的SEO做法做出可能有害的假设,并使我有机会提出一些积极的方法来应对搜索引擎的可能变化。因此,花在研究上的时间使我可以更聪明地工作。

  11. 嗨弗兰克,

    It’搜索者与搜索界面之间的某些增加的交互很有可能帮助搜索引擎捕获更多数据,这可能有助于个性化该搜索者的搜索。如果没有’搜索引擎可能会使用大量有关个人的信息来提出个性化推荐(或提供个性化搜索结果),因此搜索引擎可能会退缩该个人’的历史,以查看可能被认为与该搜索者有很多相同兴趣的人们的搜索历史,并查看他们使用的是哪种查询,他们可能进行或点击过的查询细化形式以及他们访问了哪种网页可能去过。

    我认为你’正确质疑过去的查询和浏览历史记录是否可以很好地表明当前的意图,无论我们是否在讨论个人’的历史记录,或者许多搜索者决定要搜索,单击和查看的内容。由于某些基于情况的信息需求或执行与过去历史无关的任务的要求,因此启动了大量搜索。从这样的过程中收集的数据在某些情况下可能没有帮助,在这种情况下,情境相关性比基于搜索者的某些个人资料更重要’s implicit profile.

    The good thing is that a process like this would aim at multiple opportunities for a searcher to refine their search, targeting 什么they are interested in at the moment rather than 什么they were interested in during previous searches 要么 browsing sessions.

    And if it were tied to personalization, while some results shown to searchers might be influenced 通过 user data, there would likely be a level of diversification of results that would not be influenced 通过 that information to allow searchers with a situational intent to find 什么they were looking for as well.

  12. This is 什么makes 谷歌 grab a huge chunk of the market share. They’搜索中的智能有时难以处理。你不’甚至在您了解到有关此类专利的内容之前,您甚至都不知道他们使用的大多数内容,“wow!”

  13. 凯文,你好

    那’这绝对是我喜欢浏览搜索引擎发布的专利的原因之一。在过去的几年中,雅虎和微软也为一些有趣的技术申请了专利,很高兴看到其中一些方法得到了实施。

  14. 有先见之明的帖子’仅仅一个月后,Google Squared(或至少其中的一部分)显然已经准备好迎接黄金时段。那里’Google到目前为止提供的示例中没有歧义,但是当判断正确地理解了查询的意图并具有高度可信的匹配时,显然Google正在提取并返回数据。的等价“date of birth” and “born”在概念上与o相同

    在公告中给出的Google Squared示例中,’很明显,平方理解了“date of birth” and “born”, just as the Oingo “jobs” and “employment”例。这种理解反映在常规的SERP中,当然,它们’仍然返回网页,而不是垂直平方中提取的信息。

    It’对我来说很有趣,对于许多引用的网络资源(“according to”) the data isn’t structured – but they’在那里所有的网站’大量的标签一致的页面元素。如果他们在查询处理中使用本体’d相信具有结构化数据的网站可以将查询与之进行比较,从而有更高的机会对该查询进行排名。

  15. 很棒的文章。 谷歌的另一项语义搜索专利。有趣的是,所有这些专利实际上都已在Google结果中得到实施。

  16. 浪潮网站管理员,您好:

    好贴。一世’已经阅读了您的专利’我曾经写过一篇尚待解决的专利申请,’绝对是一个值得关注的人。

    您绝对需要注意如何链接到那些– right now you’链接到搜索中,这意味着如果将来某个特定搜索有更多结果,则在有人单击您的链接后可能会开始显示其他专利。这里’链接到该专利的另一种方式:

    http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&p=1&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=1&f=G&l=50&d=PALL&S1=08024326&OS=PN/08024326&RS=PN/08024326

    要么

    http://patft1.uspto.gov/netacgi/nph-Parser?patentnumber=08024326

    使用任何一种都意味着正确的专利,“使用相关查询改善搜索排名的方法和系统”将来人们点击您的链接时会显示。

    您引用的论文,“统计机器翻译,用于答案检索中的查询扩展”绝对值得花一些时间。

评论被关闭。