教计算机阅读报纸:搜索引擎如何使用OCR索引复杂的印刷页面

分享是关怀!

光学字符识别(OCR)是一项技术,可以使计算机查看包含文本的图片,并将这些视觉表示形式的文本转换为实际的文本。如果网页上的图片中有文字,’当涉及到索引页面时,搜索引擎很可能会忽略这些单词。

但这将来可能会改变。

虽然OCR已经存在了一段时间,但搜索引擎还是天堂’在对网页内容进行爬网和编制索引时一直使用该技术。谷歌’s 网站管理员指南 告诉我们:

尝试使用文本而不是图像来显示重要的名称,内容或链接。 Google搜寻器没有’t识别图像中包含的文字。如果必须将图像用于文本内容,请考虑使用“ALT”属性,以包含一些描述性文字。

雅虎’s page, 如何提高您的网站在Yahoo!中的位置搜索结果 提供以下提示:

将相关的文本和链接保留在HTML中。将文字编码为图形或图像地图可能会阻止搜索引擎查找文字或跟踪您网站的链接’s other pages.

Bing网站站长中心页面发出以下警告:

唐’t将要索引的文本放入图像中。例如,如果您希望索引公司名称或地址,请确保没有’t仅显示在公司徽标的图像内。

虽然搜索引擎现在可能不使用OCR为网页内容建立索引,但是’表示它们将来可能不会出现,并且有迹象表明搜索引擎在使用光学字符识别方面正在发展出更高的熟练程度。

例如, Google图书图书馆计划 涉及扫描大量印刷书籍和期刊,以及 扫描技术 进行如此大规模的项目。几年前Google提交的专利申请暗示,Google可能会使用OCR来查看网页上某些图片中的文字,从而 拒绝一些广告。 Google的另一项专利申请描述了搜索引擎如何将OCR与StreetViews视频结合使用来 改善商家地址位置信息.

在索引信息中使用OCR的限制之一是,它最适用于相当简单的文档和印刷材料,而不适用于格式复杂的文档(例如报纸)。报纸通常包括多列文字,标题,带标题的图像,各种字体大小和类型,以及可能使此类内容编入索引的其他挑战。

Google专利文件中的图片显示了报纸上的不同标题和正文文本块

报纸上的文章也经常在其他页面上继续,而那些故事情节可能在孤立的文本块中继续,而这些文本可能需要与之前的页面相关联。

Google专利文件中的另一张图片显示孤立文本阻止了其他页面的连续故事

2月份的Google专利文件描述了在使用OCR进行打印时,它们如何应对理解报纸等复杂文档的布局所遇到的一些挑战。“read” those documents.

专利申请是:

将印刷媒体页面细分为文章
由Ankur Jain,Vivek Sahasranaman,Shobhit Saxena和Krishnendu Chaudhury发明
分配给Google Inc.
美国专利申请20100040287
2010年2月18日发布
归档:2008年8月13日

抽象

用于快速有效地将印刷媒体页面分割成单个文章的方法和系统。可以包括各种列,标题,图像和文本的基于印刷媒体的图像被输入到包括块分割器和商品分割器系统的系统中。

块分割器从印刷媒体图像中识别并产生文本内容块,而文章分割器系统基于分类器算法确定哪些文本内容块属于印刷媒体图像中的一个或多个文章。

还提出了一种将印刷的媒体页面分割成单独的文章的方法。

尽管该专利申请集中于将OCR用于已扫描的报纸等印刷文档,但这仅是所描述的过程如何使用的一个例子。该专利确实详细介绍了如何解释报纸页面的不同特征和方面,例如:

  • 头条新闻
  • 列旁边以及行上方和下方的装订线,
  • 分隔线
  • 标题段落和正文文本段落,
  • 将标题与段落块相关联,
  • 确定适合文章的所有图块/段落

结论

什么’这个专利申请的有趣之处在于’搜索引擎具有将图像中的文本转换为实际文本的能力,而在于搜索引擎如何处理可能包含许多不同文章和图像的复杂页面,其中一些文章甚至在其他页面上继续进行,从而使标题与正文相关联文本,然后对这些不同的文章进行细分,以便可以分别对其进行索引。

搜索引擎将来可能会开始在网页上的图像中读取文本并将它们编入索引,并且这样做时可能会遇到复杂的图像。搜索引擎可能要采取的步骤不仅仅在于准确识别图像中的字符,而且类似于本专利申请中所述的过程使搜索引擎又迈近了一步。

分享是关怀!

关于28的想法“教计算机阅读报纸:搜索引擎如何使用OCR索引复杂的印刷页面”

  1. OCR ..惊人的潜力,对吗?最喜欢您的结论句..相关因素和相似之处..”而是搜索引擎如何处理可能包含许多不同文章和图像的复杂页面,有些文章甚至在其他页面上继续,将标题与正文文本关联起来,并对这些不同的文章进行细分,以便可以分别对其进行索引。”

    I’m thinking..”Tony Taco Boy” name badge

    塔可男孩(Taco Boy)在4号和Main号抢走了老人钱包。

    塔可男孩消失了。 Taco Boy换衣服直到下一个班次。

    G发送Bad Boys团队&凸轮将Taco Boy戴上手铐。

    Thanks to OCR, U2 will have to start singing Where The Streets HAD No Name and revise the Joshua Tree Album. 什么. Is. Happening. Here!

  2. pingback:光学字符识别(OCR):学习SEO基础知识
  3. 嗯…我想知道这种OCR技术是否基于类似于识别PDF文件中字符的格式?我想这技术不是什么新奇的东西,即使人类今天也很难破译。’s验证码图像。垃圾邮件发送者编写的计算机和脚本非常擅长阅读它们。

  4. 嗨,马克,

    该专利申请不是’与使用OCR识别不同的字符一样,它与理解使用该技术时复杂文档的格式(包括可能在同一页面上具有多个文章,广告,图像等等,而彼此不相关的文档)的格式有关。试想一下,如果Google能够将这些文章以及广告和图片彼此分别编入索引。

  5. 嗨金伯利,

    Thanks. 那里 is a lot of potential in the future of OCR, and if the search engines start 读ing the text in images, it could change around the way many sites are ranked 通过 the search engines.

    您的Tony Taco Boy例子让我想知道,像Tommy Hilfiger这样的设计师是否可能要重新考虑将自己的名字放在衬衫上。“Tommy’再次变得不好。” 🙂

  6. 如果搜索引擎能够读取图像中的文本,那么我猜想将图像与文本一起使用会很普及,因为人们或读者都喜欢图像或图片。因此,如果您可以在图片中放置主关键字,然后由搜索引擎读取…我认为那真的很棒!

  7. 以前从未听说过OCR技术,但我认为应用程序中已经有类似的内容。我记得有一次来自Google的会议,他们正在做android的演示。他们无能为力!

    1)在演示期间,他用手机拍摄了随机人的名片照片。 Android自动识别,电话,地址,传真,电子邮件…并将所有内容放入手机的联系人列表中。只需拍摄一张照片即可填满所有内容。

    2)他在墙上有一张照片,是复制品。他拍了一张照片,然后Android自动询问他们的Cloud并将其识别为Kandinsky的画作…。坚果!他对教堂的内部图片也做过同样的事情,这很容易识别。

    确保OCR并不是真正意义上的识别本身,因为我们已经很了解了。但是有关技术如何理解报纸版面的更多信息有时对我们来说是棘手的。

  8. I’我听说过,而且我想马特·卡茨(Matt Cutts)甚至说过,谷歌没有计划将来将OCR纳入该指数。相当有趣的东西。

  9. OCR是技术进步的令人惊奇的例子。我相信有一天它将用于搜索索引,以改善搜索结果,我喜欢您如何展示这种可能性。

  10. I’ve认为这是搜索引擎技术的下一个主要里程碑之一。当Flash网站– not Flash + HTML –被成千上万的人吸引了,企业开始怀疑为什么他们的网站没有排名甚至没有被索引,我认为SE’意识到他们必须在一定程度上投资OCR。因此,Flash代码和Adobe .pdf’事实证明,破解起来并不难… it’几乎需要人工智能的东西–就像您建议Bill阅读报纸一样,这将需要技术的飞跃。我认为所有这一切将比其他任何事情更重要。 Google和其他所有人都有合法权利,可按自己喜欢的目的使用公共领域的文本,但报纸拥有对其制作的内容和SE的合法权利。’通常只能使用一个代码段。因此,尽管这个概念引人入胜,但现实是,报纸将严格保护其内容,并以电子方式将其出售给愿意付款的任何人。特别是存档内容。当您发现Google正在为人脸扫描技术申请专利时,如果他们想在世界各地的每一个街角安装扫描仪,请告诉我们。

  11. 有趣的东西,比尔!

    In some special cases I create text as graphic. It can be cases where I would like to put in text slightly off topic, and 我不’希望此文字干扰该特定页面上的整体关键字密度。

    根据您将来的描述(如果原则得到实施),在执行此操作之前,我将需要三思。

  12. 嗨安德鲁,

    我认为搜索引擎希望能够使用OCR读取文本图像的主要原因不会’是为了鼓励人们以这种方式使用它,而是能够在网站所有者没有的页面上捕获信息’不能意识到基于图像的文本不是’t目前可索引。

    昨晚我试图找到本地建筑承包商的网站,当我终于找到它时,我发现了一个带有主页的网站,’不能根据其内容建立索引,因为它只是图像,没有实际文本。它没有’搜索结果中没有摘要,而是Google而不是显示页面标题,而是显示了该页面的URL。一世’我一直想知道他们是否意识到自己’对自己做了。

  13. 嗨,菲利普,

    那里’s some pretty amazing stuff that can be done with mobile devices and the ability to recognize and understand text and objects and landmarks as well. 那里’在您描述的某些事情上仍然需要做很多工作,但是在那里’这是Google的原因 收购了Neven Vision 几年前。

    你看过Google吗’s pages on Google护目镜?

  14. 嗨,约翰,

    我相信我’我听过马特说了类似的话,但是当他这样说时,’通常带有某种量词。一世’确保在大多数情况下,Google希望人们使用实际文本在页面上显示重要内容,而不是文本图像。与文本图片相比,首选文本需要更少的处理能力,更少的爬网时间和更少的精力来确保您对图像中文本布局的解释正确。

    正如我上面提到的,Google似乎表明他们对开发使用OCR的特定问题的解决方案感兴趣,例如在使用街景时更好地了解建筑物的位置,扫描诸如书籍之类的单个文档以及复杂文档像报纸。能够有效解决这些问题意味着他们正在开发技术,使他们能够更好地扫描Web上找到的图像。

    你什么时候说“Hey, we’如果以其他方式使用该技术还不够好,我们应该在网页上开始使用它吗?”我希望您会进行大量测试,以确保您可以做得很好,并且这样做的方式仍然鼓励人们选择实际文本而不是图像中的文本。

    在网页上使用这种技术可能意味着您需要更多的存储空间,更大,更快的索引编制方法以及进行OCR和理解格式的过程,这些工作也非常迅速。 Caffeine是一种基础结构更新,可以使Google开始执行类似的工作吗?还是我们将在等待下一个版本的Google File System(GFS3)是否将它们带到那里?

    而且,如果Google确实启动了,那么让他们逐步这样做是否有意义,例如,首先仅对PDF文件使用OCR?它可能。马特在三月份的采访中提到了这种可能性:

    马特·卡茨(Matt Cutts)接受埃里克·恩格(Eric Enge)的采访

    从采访中:

    马特 Cutts: 我不’t believe we can index password protected PDF files. Also, some PDF files are image based. 那里 are, however, some situations in which we can actually run OCR on a PDF.

  15. 嗨,马特,

    Thanks. I think that in many ways it will help how the web is indexed. 那里 still are just too many sites that include important text in images only. It’s something that I’我们已经看到知名品牌的网站与刚开始在网络上开展新业务的网站一样频繁。

  16. 嗨,玛尔,

    尽管在网络上发布了许多复杂的文档,但上载文档的人确实希望对其进行索引,即使这可能会带来一些严重的技术挑战。对于以这种格式出版的报纸,可能会存在一些版权问题,但是我希望,如果搜索引擎和报纸提出了许可协议或某种利润共享安排(例如付款)对于完全访问可以通过搜索引擎找到的文档的某种方式,我们可以开始看到类似正在使用的专利中所述的过程。

    不确定Google是否正在开发一项用于面部识别的专利,但是他们确实在2006年收购了一家已经拥有至少一家公司的公司。然后从后面看我的帖子:

    Google收购Neven Vision:添加物体和面部识别移动技术

    至于每个街角的扫描仪,请参阅我的文章:

    Google从街景,货架和博物馆内部读取图像中的文字

  17. 嗨,Per,

    有趣的问题,它提出了一些重要的问题。

    I’我不确定您是否需要执行类似的操作来克服关键字密度– 我不’我们相信搜索引擎会将关键字密度用作排名信号。

    但是,如果页面上的文字可能被认为与页面要点无关,那么它可能会导致搜索引擎对页面的分类与出于多种目的(例如选择)而有所不同。他们可能会在Adsense中显示的广告数量。这也可能影响如何通过基于短语的索引之类的重新排名方法查看页面。

  18. 我认为还有另一件事要考虑,那就是处理OCR。 Google没有无限的资源,在那里处理所有的OCR文档都需要很多时间。

  19. 以赛亚你好,

    对–我们确实必须考虑Google处理OCR的影响。

    当然,这是Google可以随时执行的操作,而不是响应搜索者的特定查询,这可能会有所帮助。当搜索引擎捕获页面的副本而不是独立地将其副本放入其缓存时,也可能会这样做,这可能会使处理效率更高。

    我们确实看到Google在使用Google Caffeine爬网和索引页面方面变得更加高效,该网站据说使用了第二版的Google File System(或GFS 2)。一世’我们已经看到了许多有关GFS 3开发的参考资料,因此将来可能会有更高的效率,这可能会使在基于Web的图像上处理OCR的可能性更高。

  20. OCR?
    当原始文本就在其中时,为什么还要浪费所有CPU周期将图像转换为文本。
    不管怎样,对于网站而言。对于他们自己的事物(例如街景),如果他们可以对家庭编号进行OCR,则确实可以帮助他们正确找到地址。

    在大G运行OCR例程的麻烦之前,我怀疑它们会继续告诉人们图像是信息介质。

    至于Flash,我看到了Flash演示,其中包含了代码中显示的文本内容。

    最好,
    注册

  21. 哦,我也不认为Google也使用关键字密度。
    关键字的使用完全取决于内容。您无法设置“ideal” amount.
    注册

  22. 嗨,Reg,

    我们俩都同意关键字密度。本文介绍了搜索引擎无法’使用这种方法– 非感的关键词密度

    Google在其图书扫描项目(包括杂志,报纸和其他期刊)中为OCR投入了大量时间,而在街景中使用OCR可能非常有用。

    正如您所提出的,问题是Google是否会采取步骤尝试理解文本出现在Web图像中的情况。我想我同意你的看法’他们可能会暂缓一段时间。

  23. 他们在搜索引擎中讨论OCR已有一段时间了,但我认为他们仍未将其纳入。还是他们?我没有’没看到任何事情

  24. 嗨,斯科特,

    It’很难说。 Google已发布了许多专利,描述了他们可能如何在其图书项目中使用OCR。他们’ve发表了另一篇文章,描述了他们如何在Streetviews视频中使用它来提高Google Maps的质量。上面的帖子详细介绍了Google如何在pdf和其他数字文档中使用OCR。但是我没有’看不到任何特别说明Google正在四处浏览并阅读其在网页上找到的图像中的文字的信息。

  25. 嗨,斯科特,

    我不’认为我们应该期望搜索引擎在一段时间内开始OCRing在网页上找到的文字,但是Google’肯定会通过其图书扫描项目致力于开发该技术的专业知识。有许多专利和白皮书暗示了在阅读Google Street Views和Google Maps的路牌以及在Google中使用OCR时都使用了OCR。’的视觉搜索(又名Google护目镜)。

    如果从其他项目获得足够的数据,那么对网页上图像中的文本快速准确地执行OCR的能力可能并不太遥远。

    那 ’考虑到我经常看到网站将重要文本(例如,小型企业的地址)显示为图像,这是一件好事。

  26. 我完全同意Bill,几个月前不得不找到一些不错的OCR软件来进行扫描的文档转换,但我仍然不相信OCR尚未准备就绪。我被无数的错误所困扰,不得不证明阅读了所有’标准时间乘以新的罗马字母进行拼写和插补错误,我不’试想不到Google会冒险冒险使用公司的电话号码和地址等敏感信息,并弄错了它们,作为一种准确的搜索方法,其声誉受到的损害会被加重,而且我认为如果他们现在能做到这一点,他们会因此,行动可以充分说明OCR的当前状态。

  27. 嗨,安迪,

    当您有大量的数据要处理,并且有做正确事的动力时,OCR之类的过程会变得更好。谷歌’s的书籍扫描项目涉及数百万种具有不同字体类型的书籍,我怀疑这一点表明它所具有的复杂性水平远远超出了商用OCR软件中可能看到的水平。

    人们可以拍摄文档的照片,或者对那些文档中的文本或图像进行搜索,或者如果文档是表格,则使人们能够自动化填写这些表格的过程的能力是其中的一些功能改进的OCR可能带来的效果。谷歌 获得的 不久前Exbiblio的一些专利指出了这类功能。

    Google还发布了至少一项专利,该专利描述了如何使用StreetViews视频中的文本来基于OCR更好地在其Maps系统中绘制实际商家的位置。

    Google可能会改善多少’OCR可能比您可以购买的OCR多?可能好多了。不确定 ’尚未准备好黄金时段,但该书项目确实让他们处理了许多不同形式和形状的文本。谷歌’的图像相似度算法最近从Beta版毕业,并已整合到Google中’的图像搜索,OCR的很大一部分涉及对书面字符的理解。

评论被关闭。