关于趋势,新鲜度,个性化和更好的搜索结果的Ask.com

分享是关怀!

网络不是’一个静态的页面,页面保持不变,这是因为搜索引擎试图索引并引导搜索者获得信息。

Ask.com的一项新专利申请探讨了该数据流及其中的趋势,以及如何将其用于改善搜索排名和广告,以及为搜索者提供相关且最新的内容。

我怀疑在其他搜索引擎中也会发生类似的信息趋势和突发性查询。

用于监视时间内容随时间的演变的系统和方法
由Antonino Gulli,Filippo Tanganelli和Antonio Savona发明
分配给Ask Jeeves,Inc.
美国专利申请20070143300
2007年6月21日发布
提交日期:2005年12月20日

抽象

一种方法和系统,用于通过传输线从许多源接收时间内容,将时间内容存储在至少一个存储设备中,从时间内容中提取实体内容,分析实体出现以确定时间内容趋势,从中接收搜索查询用户,并基于时间内容趋势向用户呈现个性化的时间内容。

测量内容使用的频率

网络上有很多文档,其中包含与日期和时间相关的文档,从新闻文章到博客到电子邮件,再到RSS / Atom提要,以转录来自世界各地的音频和视频。

这些文档可以定期进行爬网,并附带时间和日期信息,并且可以对内容进行索引和存储,并从中提取实体内容,例如

…。名称,类别(例如,人物,地方,位置,事物,组织,名人,体育明星,书籍,歌曲,主题(例如,政治,世界新闻,本地新闻,娱乐,体育,通用(即,无类别))等等),日期,原始故事/文章的URL和故事/文章的来源名称,词性,所售商品等。

该实体的内容可以与以下的某些分类匹配:

预定实体(例如,纳斯达克排名前100位,名人等),动态更改的实体(例如,名称,地点,组织等)以及名称列表(例如域名列表)等。

还可以提取重复术语,重复句子,非相邻单词的子序列作为实体内容。

这些术语可以根据其在该内容流中的出现频率进行加权。

加权过程(例如术语频率超过反向文档频率(TF-IDF))可以用作计算其使用频率随时间变化的一部分。重复使用的术语,句子等也可以使用自然语言处理技术(例如命名实体或词性等)从Web中提取并存储。

获得者and Losers

这些不同种类的实体的出现可以随时间进行分析,以确定趋势或实体随时间的演变。获胜者和失败者可以通过查看连续时间范围内发生的许多事件来识别。

获得者–内容,例如新闻事实,在给定的连续时间范围内发生率迅速增加。

失败者–内容,例如新闻事实,在连续的时间范围内发生的重要性正在下降。

信息共现

有些人或地方或事物或它们的组合可能会同时出现。测量共现可能会提供一些有趣的信息。该专利申请书中包含一些数学运算。这里’一些描述趋势发现的内容:

如果同一则新闻中同时出现两条信息,则它们的相似性会增加。在一实施例中,如下发现新趋势。集合S.OMEGA。= {e.sub.1,e.sub.2,e.sub.3,... 。 。对于固定的时间窗= [t,t +δ),提取实体内容的e.sub.n}。提取的内容出现在.OMEGA中的次数。由Occ.sub.OMEGA。(e.sub.i)表示。并且,Omega -1(e.i)是实体内容i在OMEGA.-1 = [t-delta,t)中出现的次数。通过为给定的最小阈值选择顶部固定的K实体内容或顶部加权的实体来发现新趋势,该阈值在两个相邻的时间窗口OMEGA中出现次数增加(即增加)或减少(即减少)。和.OMEGA.-1。应当注意,也可以使用其他用于检测最新趋势的时间方法。

新闻个性化

如果用户使用搜索提取的实体的搜索引擎在查询中输入查询,则他或她可能会收到个性化的报纸网页,在该网页中,共享同一新鲜主题的新闻被聚在一起,并且用户可以监视聚类随时间的演变。新新闻将进入群集,而旧新闻将过期并被删除。

搜索结果趋势

新趋势和发现的新主题可用于改进由搜索引擎提供的具有新鲜信息的搜索结果的聚类。
例如,

可能出现相关性“George Bush” and “Hurricane Katrina”因为这两者同时发生的页面和故事很多。

虽然这种关系是有益的,但它可能被用来填充搜索引擎的新索引。当它成为失败者时,它可能会掉下来然后退出搜索引擎:

相关的头号事件可以用来改善搜索引擎的排名并预测搜索趋势。这用于为Web索引添加新鲜度。那些包含新主题的网页–在新闻流中确定–在观察期间的排名有所提高。在一定时间(例如,一周,一个月等)之后,如果主题不再新鲜,则增强效果应遵循衰减规则。

了解趋势的其他好处

查询优化 –可以向用户建议相关的头号事件,以扩展他们的搜索查询,以帮助他们集中搜索。

语音搜寻 –发现的新趋势和主题可用于维护语音到文本系统的更新字典,在该字典中,新词条一旦出现或从内容流中消失,就会被插入和删除。

广告 –发现的趋势可用于帮助设置为拍卖的广告销售计划中的价格设置。

一旦时间趋势分析器345发现了新趋势,就设置广告的起始价格,例如与收益最大的用户相关联的网页上的广告。实体的聚类/相关性由聚类单元380执行,并用于设置价格。用于一组群集的或相关的实体。根据预测类别使用价格分类。

集中爬行 –趋势的识别可以使搜索引擎进行有针对性的爬网,以便更好地关注趋势。例如,当博客站点开始讨论突发事件,意外事件,地震,海啸,恐怖活动等意外事件时,该新主题的趋势表明,更多的用户可能会感兴趣并渴望收到有关意外事件的更多信息。

预期的事件(例如选举,电影的开幕日,商店,预定的体育赛事)也可以用于集中抓取。

分享是关怀!

5个想法“关于趋势,新鲜度,个性化和更好的搜索结果的Ask.com”

  1. Ask.com似乎一直在安静,稳步地建立自己的声誉,因为它是迄今为止相当可靠的替代搜索引擎,是除Web之外的替代搜索引擎’s top 3.跟随他们的发展非常有趣。

  2. 我想知道,作为专家在ask.com上添加内容是否可以帮助您在电子商务网站上建立流量。 Ask.com邀请各种主题的客座专家撰写文章。值得付出努力吗?如果是的话,那么从seo角度出发的最佳方法是什么?

评论被关闭。