Google Patent Granted on 语义单元s (Meaningful Compounds)

分享是关怀!

语义单元s Found in 搜索查询

当搜索者在搜索引擎中键入查询时,它不是’t uncommon for 的m to use more than one word. It also isn’t unusual for those words 成为 a 语义的ally meaningful phrase rather than just a list of keywords.

Multiple search terms entered 通过 a user are often more useful if considered 通过 的 search engine as a single compound unit. Assume that a user enters 的 search terms “Baldur’s gate 下载.”

用户打算对该查询返回与该用户相关的网页’s intention of 下载ing 的 computer game called “Baldur’s gate.” Although “Baldur’s Gate”包括两个词,这两个词共同构成一个语义上有意义的单元。像这样的短语也是如此“New York,”这是两个作为语义单元一起使用的单词。

If 的 search engine can recognize “Baldur’s gate” as a single 语义的 unit, called a compound herein, 的 search engine is more likely to return 的 web pages desired 通过 的 user.

A Google patent, originally filed in 的 year 2000, was granted this week on a method that enables a search engine to understand when more than one word is used together in a single 语义的ally meaningful manner.

这不是’t 的 only patent filing from Google that looks at 的 meanings of compounds of words, with a series of patent applications on 基于短语的索引以及一项Infoseek专利’已于分配给Google 具有短语索引的实时文档收集搜索引擎.

这是Google实施的吗?它’s a possibility.

Identification of 语义的 units from within a search query
由克里希纳·巴拉特(Krishna Bharat),桑杰(Sanjay Ghemawat)和Urs Hoelzle发明
分配给Google
美国专利7,249,121
2007年7月24日发布
归档:2000年12月5日

抽象

用于搜索语料库的搜索引擎通过将搜索查询中的多个术语分类为单个语义单元来提高结果的相关性。搜索引擎的语义单元定位器根据查询中的各个术语生成通常与查询相关的文档子集。然后针对文档的子集评估定义了查询中潜在语义单元的搜索词组合,以确定应将哪些搜索词组合归类为语义单元。所得的语义单元用于优化搜索结果。

注意这些类型的有意义的复合词可用于对搜索结果进行排名,因此包含复合词的页面被认为比包含单个单词而非复合词的文档更相关。

复合的使用也可能有助于查找查询条件–语义上有意义的选择。为了“Baldur’s Gate”在上面引用的示例中,语义上有意义的替代方法可能是“Baldur’s gate reviews”(即游戏的书面评论)。

查询中有意义化合物的常规方法

Compounds in queries could be identified based upon a matching of a list of previously identified compounds and upon statistics that describe 的 relative frequency of occurrence of 的 compounds.

第一种方法涉及从网络中提取化合物,并寻找出现频率具有统计意义的单词序列。这种方法的问题在于,与人们在查询中进行搜索所使用的化合物相比,它可能会生成更大的化合物列表,并且只会使用一小部分已识别的化合物。

The second approach involves extracting compounds from query logs. That may pose some problems in how people search. An example used in 的 patent:

与使用统计技术在查询日志中查找化合物相关的缺点是,查询日志中出现的单词序列可能不对应于文档中的化合物。这是因为查询(尤其是在Web上)往往是自然语言序列的缩写形式。例如,单词“mp3” and “download”可能经常一起出现在查询日志中,但是“mp3 下载”可能不会在文档中作为化合物出现。

Another issue, and where 的 word “semantic” comes into play in this document, is that 的 meaning of 的 query is important:

基于语料库和基于查询日志的技术以及实际上完全依赖于先前检测到的化合物和统计信息来细分查询的任何技术的缺点是,它们倾向于忽略查询的含义。这样的技术可能会识别与查询的含义不一致的复合词,这可能会对依赖该复合词作为查询内语义单元的应用程序产生负面影响。

例如,查询“country 西 mp3” and “离开古老的国家向西方移民”都有字“country” and “western”彼此相邻。但是,仅对于第一个查询“country-western”代表性的化合物。正确细分此类查询需要对查询的含义有所了解。在第二个查询中“western migration”尽管一般情况下发生频率较低,但它更合适。

Finding 语义的 units

How are meaningful compounds identified based on 的 overall context of a user query?

1)将查询中的各个搜索词与Web的索引匹配,并生成查询的子字符串。对于每个生成的子字符串,将计算一个与包含子字符串的已识别文档部分有关的值。基于这些计算值,从生成的子字符串中选择语义单位。

2) The list of relevant documents for those searches is refined based on 的 selected 语义的 units.

3) Semantic units might be chosen from a predetermined number of 的 most relevant documents in 的 list returned 通过 的 ranking component.

4) “Relevance”在此上下文中,可以基于以下因素来定义这些因素:查询词之间的接近度(查询词彼此靠近的页面被认为更相关)以及返回文档(例如,其中查询词的顺序与查询词组的顺序相同)被认为更相关)。

换句话说,通过首先识别与查询中的各个术语有关的文档来执行搜索。然后根据所识别文件中化合物的出现率,使用一种方法选择有意义的化合物。根据使用这些化合物对结果进行排名。

分享是关怀!

关于13条想法“Google Patent Granted on 语义单元s (Meaningful Compounds)”

  1. As usual, another great post that goes way beyond what 的 other SEO bloggers (including myself) are willing to provide 的ir readers.

    我想问你一个条例草案。您如何找到时间在文章上投入大量精力,同时仍然通过客户工作或自己的网站赚钱?这是质量过高的问题吗?

  2. A very interesting post. It is generally very enlightening to read 的 posts in this blog.

    在自然语言处理中,术语“multi word token”通常用于称呼这篇文章中所说的“Semantic Unit”。这个问题主要是在“命名实体识别”任务,但不仅限于此。

    一种有趣的识别方法“Meaningful Compounds”正在使用词汇链,这些词汇链涌现了许多出版物和学术著作,尤其是在文本自动摘要中。

  3. 感谢您分享您对此的评论–您在解释它方面做得很好。

    When 的 individual search terms in 的 query are matched to an index of 的 Web, though, I’m assuming that 的y’re taking out 的 stop words, right?

    什么’不过,还有一点很有趣,那就是我认为,随着搜索者自己继续在搜索中使用更多关键字(即搜索时间越来越长),这一切都将发挥更重要的作用。过去人们会用一个和两个词...然后是三个,现在我们’重新看到他们使用越来越多的单词。

  4. 嗨,比尔,

    谢谢。一世’我不确定在此过程中是否删除了停用词。专利中的示例包括单词的使用“the” as one of 的 multi-word substrings being investigated to see if it is a meaningful compound.

    如果我们在Google搜寻类似的字串“To be or not 成为,”(没有引号),有’不得提及停用词。我想知道那是否是因为搜索引擎正在识别“to be” and “not 成为”作为语义上有意义的单位。

    那里 is a message about 的 use of 的 word “or” 的re, though:

    尝试大写“OR”搜索两个词之一。 [细节]

    这可能在更长的查询中扮演的角色很有趣。如果查询中有不止一个语义上有意义的复合词,这种方法是否有用,还是可以以一种重要的方式将注意力更多地集中在一个复合词上,从而降低第二个复合词的结果?

  5. Pingback:本周搜索引擎优化-7/27/07-TheVanBlog
  6. 哇,我以为我对搜索了解一两件事… And 的n I read something like this and it humbles me to realize how little I know.

  7. 嗨,Geri,

    那里’搜索和搜索引擎优化要比大多数人意识到的要多得多。它’无论如何,这并不是真正可以自动化的东西,并且随着时间的推移,话题及其我们的知识也在不断发展。好消息是您正在寻找信息和学习,这将对您有很大帮助。

    我喜欢研究专利和专利申请,因为它们是信息的主要来源–它们直接来自搜索引擎本身。我尽量不要对它们描述的过程以及对它们所做的假设所描述的过程,以及它们可能提供的关于构建搜索引擎的人员如何解决所面临的问题的见解。

    坚持下去,每天尝试学习新知识,然后您’在几个月和几年内,您会知道多少,这会让您感到惊讶。

  8. Bill this was a nice read; I actually sent 的 link to my bro at Enoa before I ever finished reading it. Have you ever thought about teaming up on a few patent related posts with Gypsy?

  9. pingback:SEO的陷阱– Keywords » SEOpittfall
  10. pingback: Identificare unità 语义的a nelle query di ricerca «Posizionamento Su Google« Seo

评论被关闭。