Google上的自动视频和图像注释

分享是关怀!

添加6/20/2020–此图片注释专利申请于2011年11月22日获得了Google的专利。– 自动注释图像的方法和装置

搜索引擎如何有效地自动为图像和视频创建注释,以便它们可以很好地回应搜索者’的查询?在没有人工干预和检查的情况下,可以完成多少图像注释?

A newly published Google patent application explores the 话题 and comes up with a method of 图像标注 通过 comparison to similar images found on the Web, and the text surrounding those similar images.

自动注释图像的方法和装置
Jay N. Yagnik发明
美国专利申请20080021928
2008年1月24日发布
申请日期:2006年7月24日

抽象

本发明的一个实施例提供了一种自动执行图像注释的系统。在运行期间,系统会接收图像。接下来,系统从图像中提取图像特征。

然后,系统识别具有相似图像特征的其他图像。接下来,系统获取与其他图像关联的文本,并在获取的文本中标识相交的关键字。最后,系统使用相交的关键字注释图像。

图像注释问题

与Web的连接变得越来越快,人们可以使用许多更高的带宽选项。这导致网页上图片和视频的使用大量增加。

这些图像很多’附带有基于文本的信息,例如标签,标题或标题,可以帮助描述图像的内容。

搜索主要基于文本,关键字搜索是某人寻找某物的常用方式–甚至图片。通过搜索引擎搜索图像可能很困难。为图像创建注释(如一组关键字或标题)可以使人们更容易进行这些搜索。

注释图像的传统方法往往是手动的,昂贵的和劳动密集型的。

那里 have been some other approaches to the automatic annotation of images, like the one described in 将语义图像注释表达为监督学习问题 (pdf)。尽管这种方法可以使删除注释中的手动操作变得更加容易,但是它们仍然需要人工干预和审查。

一种自动注释图像的方法

简而言之,注释系统将如下所示:

  1. 收到图像
  2. 提取图像特征
  3. 确定具有相似特征的其他图像
  4. 获得与其他图像关联的文本
  5. 确定该文本中的关键字
  6. 使用这些关键字进行图像注释

Google图片注释过程

一种更技术性的方法可能要求:

  1. 生成颜色直方图
  2. 生成方向直方图
  3. 使用直接余弦变换(DCT)技术
  4. 使用主成分分析(PCA)技术;要么,
  5. 使用Gabor小波技术。

其他一些变化包括:

  • 根据以下方面识别图像特征:形状,颜色和纹理
  • 通过在Internet上搜索图像来识别其他图像
  • 使用概率模型查找具有相似图像特征的其他图像
  • 通过为关键字添加同义词来扩展获取的文本中的关键字
  • 使用视频中的图像

对视频使用此过程

没有标题或描述的视频可以从使用相同方法中受益。

它们可能被分成一个“一组代表性的框架,”并且可以使用上述过程将每个图像处理为图像。在为这些图像添加了关键字注释后,可以对其进行分析,以为整个视频创建一组通用注释。

分享是关怀!

关于8条想法“Google上的自动视频和图像注释”

  1. 好主意,尤其是考虑到他们从Google图像贴标签机游戏中获得的大量准确标签。

    我什么’我有兴趣了解的是他们如何分解图像分析–它们必须在如此庞大的集合中的不同图像之间具有巨大的差异。

  2. 那是’也许是为什么我为乔纳斯兄弟(Jonas Brothers)赢得如此高的人气。我不只是跟我的女儿一起发布乐队的照片,而是发布图像的URL(将它们上传到Photobucket之后)。我使用的超链接上的关键字是The Jonas Brothers。这使得帖子更容易被索引,并且更容易被主要搜索引擎找到。
    结果?
    上面提到的特定站点(共22个中的1个)主要与我的7个孩子,自闭症和日常生活有关,受到乔纳斯兄弟球迷的欢迎。哦,是的,我找到了一种减少流量的方法。
    ðŸ™,

  3. 我认为关于这一切的另一个有趣的问题是:

    Google如何将他们的图片搜索与照片中的地理编码联系起来,然后使用Google Local,Google Earth和Google地图上已经发现的大量信息来比较数字图像和其拍摄地点(经度,纬度,时间,方向和透视图) ,以评估地点,背景和“topic”一张特定的照片?

    从Wikipedia上的地理编码图像–

    地理编码的照片是与地理位置相关联的照片。可以将经过地理编码的图像与地理坐标(例如纬度和经度)或物理地址相关联。

    从理论上讲,图片的每个部分都可以绑定到某个地理位置,但是在最典型的应用中,只有摄影师的位置才与整个数字图像相关联。这对搜索和检索有影响。例如,可以从相距数英里的不同位置拍摄山顶的照片。

    要在图像数据库中查找特定峰顶的所有图像,必须考虑在合理距离内拍摄的所有照片。在某些情况下,摄影师的指向位置可以包括方位,相机指向的方向。

    一些数码相机支持GPS,并在每次拍摄时记录摄影师的时间和位置。理解这种区别很重要,因为例如,正好是站在它前面的摄影师拍摄的照片主题所代表的房屋的地理坐标可能与住宅的地理坐标相对接近。摄影师认为差异不大;但是,从地平线上看山上的照片与摄影师的距离可能很大’记录的GPS坐标。

    换句话说,经过地理编码的照片的主题就是它从记录的GPS位置出现的样子。照片的最准确定义’的地理编码信息(分别是位置和时间戳)是摄影师的标识’在地球上的位置和摄影师’在拍摄照片的确切时间从该位置观看。一张照片’相关的GPS数据存储在照片中’s EXIF file.

    如果您可以开始比较数字图像(视频和图片)中找到的地理编码信息的使用量与所有Google产品中已经存在的可用和不断增加的信息进行比较’在本地,地图和卫星数据库方面,我认为这是向强大的图像搜索迈出重要一步。

    您是否阅读过Google的任何提及’关于图像搜索的专利申请中的任何一项?我认为它具有很大的潜力。谢谢。

  4. 经过地理编码的图片看起来确实是该技术的完美应用。它可以使Google将数以百万计的本地图片打包到Google Earth中。
    问题在于,许多站点都对其标签进行了调整以帮助获得搜索结果。我知道有人用“亚特兰大房屋出租”。这似乎很普遍,以至于可能会产生一些非常糟糕的结果。
    对于搜索之王来说,确实会看到完全不合适的搜索结果,但如果有人能够做到,那么Google可以。

  5. 嗨,Supermom,

    祝贺您在搜索中取得了如此出色的成绩。搜索引擎可以更轻松地索引类似的信息,从而使您更容易做好。此处描述的注释适用于人们没有’使其像您一样容易。

    蒂姆,你好

    谢谢。我没有’虽然没有详细介绍Google使用的不同图像分析过程,但它们确实提到了许多可能性,值得研究。我想在此提及基于ESP游戏的贴标游戏。我认为这可能确实对他们有很大帮助。

  6. I’确保Google可以提出一种用户贡献系统,如果用户使用适当的描述标记图像,他们将获得“Google Points”用于Adwords或其他Google产品的购买。

    这些用户贡献中的一部分可能是其他用户的验证’ descriptions.

  7. Pingback:搜索不可见内容-视频和音频搜索的发展»闭环营销博客

评论被关闭。