Searching Future 大事记 Using 雅虎 News

分享是关怀!

Imagine exploring millions 和 millions of news pages 和 other documents to find information about events that are scheduled to happen in the 未来, to help predict the 未来.

德尔斐神谕的西比尔

This kind of 未来 search, or 未来 retrieval,也许能够支持许多不同领域的决策。

News information could be used for searching 未来 events, based upon news information, 和 that information can help people plan for the 未来.

The 雅虎 patent application is:

搜索未来事件的技术
里卡多·阿尔贝托·贝萨·耶茨(Ricardo Alberto Baeza-Yates)发明
Assigned to 雅虎
美国专利申请20080040321
2008年2月14日发布
申请日期:2006年8月11日

在此过程中,时间将成为收集的有关文档信息的标准部分。将基于时间段建立排名模型。

Much of the news does contain information about 未来 events. The author of the patent application tells us:

An exemplary sample from a web-based news service on Dec. 1st, 2003, included more than one-hundred thousand references to years 2004 和 beyond. 关于 80% of the references related to the immediate 未来 (e.g., within days, weeks, or a few months) 和, on average, more than one 未来 reference was included per 文章.

We estimated that there were at least half a million references to 未来 events in the sample. Assuming that there is a ten-fold repetition redundancy (i.e., similar 文章s in different newspapers), this yielded an estimate of about fifty thousand unique 文章s about the 未来. A similar analysis only on headlines gave around 10% of that number.

He also looked closely at 未来 event information for a date in 2005:

在2005年7月15日从同一新闻服务中提取的样本中,对2006年或更晚年份的参考数量超过25万。例如,对于2034年,与以下主题相关的新闻条目包含在近100个新闻条目的样本中:

(1)阿肯色州和密歇根州的核电厂许可证将终止;

(2)伦敦海豚广场的所有权必须归保险公司所有;

(3)旅行者2的燃料应已耗尽;

(4)在美国,长期护理机构可能需要容纳210万人;和

(5)一个在月球上的人类基地将在运作。

所以,当寻找“energy” or “health” in the 未来, a 未来 retrieval system should return, for example, items 1 和 4, preferably classified 通过 year. On the other hand, when searching for “2034” 和 “space,”系统应返回项目3和5。

Searching 未来 events could include an information extraction system that would recognize expressions about time, dates, 和 durations, 和 the probabilities that certain events will happen.

它还将包括一个信息检索系统,以便人们可以使用文本查询进行搜索,并可能在搜索过程中指定时间段。因此,如果您搜索2034年,则可能会发现与该年相关的最重要的主题或可能发生的事件或两者。

In addition to providing information about possible 未来s that might be used to help support decision making in many fields, the same system could be turned back to look at past events, 和 perhaps understand them better.

发明人Ricardo Alberto Baeza-Yates列出了发明人的一些相关出版物:

分享是关怀!

关于26的想法“Searching Future 大事记 Using 雅虎 News”

  1. 谢谢。

    我认为他们采取的方法很有趣,而且我’d喜欢在行动中看到它。我希望它’Yahoo认真对待与我们发展和分享的事情。

    也感谢Nassim Nicholas Teleb的引用。一世’我会寻找那些。

  2. 感谢您的链接。

    午餐时,我可能会沿着街道跑到我当地的书店,看看他们是否有两个。他们听起来很有趣。非常感激。

    您’re welcome.

  3. 雅虎 Future Search听起来非常有趣,并且在某些基本层面上可行。我只是希望它不会’退化为某种“Yahoo Tarot Card” or “Yahoo Palm Reader” scenario.

    However, the general idea of a 未来 search engine for news 和 events could be very practical. The whole concept seems like something right out of two recent books I have read: 愚弄随机黑天鹅–高度不可能的影响,均由作者Nassim Nicholas Teleb撰写。

    At the very least, a 未来 search like this could prove to be an interesting novelty that offers up some basic insights into 未来 events.

  4. @ 德米特里,让我有点想起Google’的基于时间轴的搜索。一世’d猜测有一些相似之处。

    I like that they gave us some specific examples of the kind of 未来 looking information in the patent application.

  5. @ Chris, 谢谢。 I guess that predictions work like that. Hopefully, a 未来 search like this one will give you more information to act upon than you had access to before. Not so much changing your 未来 as providing a useful decision making tool.

    我主要从在线美国专利商标局数据库中获取信息,尽管有时我会’在WIPO网站上会发现一些有趣的东西。这里没有在政府机关周围闲逛。 ðŸ™,

  6. 它让我想起了Google’s最近宣布了基于时间轴的搜索,但扩展到了未来。有趣的想法,会很好奇地看到它的使用。只是要注意,未来的结果发生的可能性通常比过去的结果低得多(通常,错误和尝试重写历史的可能性为100%)。所以用户’s perception of the “future”结果可能应该被指导。感谢Bill分享。

  7. 对不起比尔,

    我对作者不好’的姓氏。是塔莱布(Taleb),不是Teleb。

    The Black Swan:高度不可能的影响

    被随机性愚弄:机会在生活和市场中的隐藏作用

    Obviously, from the titles, Taleb deals a lot with chance 和 randomness as well as the impact of Black Swans ( wildly unpredictable statistical outliers ) on the 未来.

    However, he totally debunks much of traditional statistics, economics 和 other academic disciplines for their false sense of security 和 their smug, holier-than-thou 象牙塔 tendencies to explain away things from the perspective of hindsight. Think: hindsight isn’t 20/20,它似乎只是。大声笑。

    这两本书都是令人难以置信的,令人惊奇的,尽管有些冗长而有些自指。尽管如此,两者都在改变思想 人群的智慧 由James Surowiecki撰写。另一本很棒的书,尤其是与我们当前的协作式Web 2.0文化有关的书。

    再次感谢您的独特博客文章。

  8. 法案,

    唐’付钱给他们。我读完了这两本书,可能最终将它们卖给《半价书籍》,一无所有。我会将它们发送到此博客上的地址。考虑它为您发布的所有重要信息的回报。

    谢谢。

  9. 嗯,是的,这种力量很强大!也许我了解这个错误…

    But with anything algorythmic it can be manipulated. So if that is the case can I go see the 雅虎 oracle 和 get my 未来 changed?

    我将不得不进一步检查。很棒的发现。快速问题给你。您是否只是在美国专利局附近闲逛,等待信息进入?我最近看到了很多非常新的SE专利信息。

  10. 我认为这比您掌握的更重要。

    我见过的最好的基于IR的想法之一来自Yahoo而不是Google,它是从根本上设计您的索引,从而使其遍及搜索者’的查询空间比基础文档空间更好。时间会随时间变化,因此能够预测下个月哪些主题将成为热点,从而可以建立索引,从而将用户定位到下个月要搜索的区域。

    这不仅可以提高搜索精度,而且可以提高性能和运行搜索服务的成本–当您对这些数据进行哈希处理时,通过预测将要更好地进行哈希处理的数据,可以显着提高性能(从而提高性能)。

    蒂姆·温特尔

  11. 蒂姆,你好

    这个过程在许多方面都有很多价值,但我认为您’很好地表达了它最重要的方面之一– being able to understand 和 perhaps focus upon events that will happen in the 未来 is something that can be very powerful for a search engine, 和 for an information portal (we can’也不要忽略有关Yahoo的信息)。

  12. However, he totally debunks much of traditional statistics, economics 和 other academic disciplines for their false sense of security 和 their smug, holier-than-thou 象牙塔 tendencies to explain away things from the perspective of hindsight. Think: hindsight isn’t 20/20,它似乎只是。大声笑。

  13. @Bill:好点,我想我倾向于专注于搜索和IR,而完全忘记了Yahoo!的目录方面! (我大约每六个月才去那里查看一次我的排名)。它’当然在几个方面都是创收者。

    @lory au:作为一个将我的大部分时间都花在周围的人“ivory tower”或做某种研究,我’d想说统计学家和(研究)经济学家一直都完全意识到事后洞察的本质。我的一个朋友完成了他的本科项目,目的是证明可用于模拟股票市场的最佳模型在统计上并不比随机猜测好(他’现在在股市上工作)。

    问题通常出在统计数据传递给他们的人身上–数学家知道数字的含义(以及它们没有做什么)’t mean –这总是远远超过他们所做的事情),但随后查看数据的人员(例如记者(越来越多的普通大众拥有更多按需统计的网站)’总是知道足够的数学知识才能知道’从结果中获取。

    以谷歌“结果1-10约100,000” result:

    计算机科学家会知道,这大概是正确的,数量级为+ -1(所以10,000 –1,000,000),并且该数字表示Google认为其中包含可公开抓取的页面的数量?本月有[m / b]百万个页面最值得索引(不一定是最好),有些重复。他们还知道这就是您所了解的全部数据。

    报纸经常刊登一些故事,表明他们认为这意味着在线上几乎有100,000个有关您的查询的网页。他们似乎还认为这些数字可以直接比较–因此,通过运行类似“在线上的猫爱好者多于狗爱好者”。一旦您开始考虑,这类文章显然在很多层面上都是有缺陷的。

    同样,在创建统计模型时,研究人员通常会说过去的数据符合他们的模型…%的准确性,并且该模型在将来显示出有趣的行为。他们通常将重点放在这种未来行为上,因为这是最能测试模型准确性的点。它’对于记者来说,通过这种有趣的行为逃避并说出“科学家预测,未来… “。不幸的是,由于新闻报道有助于增加研究的资金投入和兴趣,因此科学家没有理由阻止它。

  14. Wow! Love it! Trying to predict the 未来 trends 通过 analysing what is currently being said about it? Did I get this right? More or less….soooo,这在哪里离开我们?

    通过这种媒介,可以建立真正重要的,相关的潜在媒介或结果的良好意识。….all都是基于人们现在正在谈论的内容。有趣的概念也可用于加强某些社交程序,并抑制其他不希望的输入,尤其是在受到更多审查的Web 2环境中。我很想知道这是怎么回事!

  15. 嗨,比尔,有趣的帖子。

    雅虎’s 2034年 example sounds great now, but one thing I wonder is how useful the feature will become as the date gets closer, 和 the data surrounding the year grows exponentially?

    除了查询在2005年返回的100多个故事以外,2030年的同一查询可能返回数十万个故事。搜索引擎’将日期与项目关联的能力’的查找将同样有用,但用户仍将不得不进一步完善他们的搜索。

    在切线相关的音符上,不确定是否’我们见过Hubdub,后者似乎正在尝试基于社区的新闻预测。得到了 在《卫报》技术博客中介绍

  16. @劳瑞’我期待着深入研究那些昨天才寄到的书。

    @ 雅克·斯曼(Jacques Snyman),它’s an exciting idea, without a doubt. Armed with more relevant information taken from the news, can we predict aspects of the 未来, or are we just capable of making better decisions armed with better sources of information?

    @ 蒂姆·温特尔,关于数据的困难之一是需要对其进行解释,并且通常可以以完全意想不到的方式来解释它。我们也可以通过民意调查了解您经常谈论的话题。人们看到民意测验结果时很少问的问题是,“谁为这次民意调查付费” 和 “他们为什么要委托创作?”

    @ Simon,信息超载会使使用预测工具变得困难。该专利申请确实表明信息将像普通搜索结果一样是可搜索和可分类的,其中显示的结果是对搜索查询的响应。我没有’t seen Hubdub – looks interesting. May be spending a little time over there figuring out what might be going on in the 未来. 谢谢。

  17. 您’re welcome, 桑德拉.

    I agree. Using the news is one step, but expanding to information that might be found on the 深 Web may open up a lot of additional possibilities.

    An approach like this one may bring some interesting things to us in the 未来. I’我希望像自然保护协会这样的组织可以像行业一样多(或更多)地利用它。

  18. 嗨,比尔,
    能够’相信我错过了这个帖子…在我看来,访问权限的扩展即将到来“deep” or “semantic”网络数据将在很大程度上支持这种类型的预测搜索。例如,提高从多个数据库(例如刚发表的研究论文和上市时间工业数据)关联日期的能力,可以预测新药或新产品。

    当然,我们都知道变化通常是破坏性的或算法性的,而不是平滑的增量路径(使预测困难或不可能)。那巨大的人为因素–兴趣,意志,政治影响力,资金等等)对可能的事情是否变为现实具有巨大影响。

    但是对我而言,预测性搜索似乎是自然的结果。我不会’惊奇地发现它与已经用于政府的3D建模紧密相关。和军事应用,尤其是短期预测…

    谢谢你,让我开心!
    –Sandra

  19. Isn’Bing声明的是什么?决策引擎?或者是“decision engine”微软发布Bing只是一个口号。

    我不知道雅虎将从何处获得可信赖的,可靠的,调查性的新闻报道。实际上,似乎所有新闻内容发布者中的80%会将其内容锁定在付费专区后面。

    How will the search engine separate facts from fiction stories with reference to the 未来? 能够 it tell gossip/rumours from truth? Internet is a place where gossip 和 rumours run amock 和 spread like wild fire so I wonder how relevant the search results from this search engine would be?

评论被关闭。