美国麻省理工学院(MIT)的一支团队惊奇的发现,只需要少数信息的像素就能够识别出图像内的目标。这个发现为在线图像的自动识别带来了巨大的进步,终为计算机像人类那样观察事物提供了基础。MIT计算机科学与人工智能实验室的助教Antonio Torralba和同事试图找到小量的信息,即从能够提供内容有用表示的图像中导出短的数字表示。
导出这样一种短小的表示将会是很重要的的一步,它使得对因特网上百万亿副图像进行自动分类成为可能。现在,搜索图像的唯一方法是基于每幅图片人工键入的文本标题,而许多图像都缺乏这样的信息。自动识别也为人们检索那些从数字相机下载到计算机的图片提供了一种方法,而且不需要手工检查每个标题。后它将会引发真正的机器视觉,也许某天将会使机器人弄懂它们相机中数据的意义,并描绘出它们在哪 。
Torralba说,“我们都在尝试找到图像的短代码,这样如果两幅图像具有相似的(数字)序列,它们就可能是相似的,即可能由大致相同的目标,大致相同的结构组成”。如果一个图像通过说明文字或标题来识别,那么其它与数字代码匹配的图像可能显示相同的目标(例如一辆车,一棵树,一个人),因此与图片联系在一起的名字会转移到另一个。
Torralba说,利用这种方法识别图像,“对于海量图像,即使相对较简单的算法也能够执行的很好”。他将在今年6月Alaska举行的机器视觉和模式识别会议上公开他的新发现。这个工作是和纽约大学库朗研究所的Rob Fergus和耶路撒冷的希伯来大学的Yair Weiss合作完成的。
需要识别目标的信息
为了找到人们识别一副图像中的目标需要的图像信息有多小,Torralba和他的合作者尝试将图像降低到越来越低的分辨率,然后观察在每层人们能够识别的图像有多少。“我们能够识别出图像内有什么,即使分辨率非常低,因为我们知道有关图像的许多东西”,他说,“你需要识别大多数图像的信息量大约是32比32”。作为对比,即使Google搜索中显示的小的缩略图的典型值是100比100。
即使一部廉价的数字相机产生的图像也由数百万像素的数据组成,每个像素一般由24bits的数据组成。但Torralba和同事开发的数学系统能够将每幅图片的数据简化更多,并且证明了,即使图像被编码而成的数字表示包含的数据只有256到1024bits时,许多图像都是可识别的。
Torralba说,对每幅图像都使用这样少的数据,就有可能利用一台普通PC,在一秒钟内对数据库内上百万副图像搜索相似的图片。不像其它要求将图像分解成包含不同目标部分的方法,这种方法使用的整幅图像,因此无需人工干预就能简单的应用到大数据集。
举个例子,Torralba和同事使用其开发的编码系统,能够将因特网上12900000幅图像只用600 Mbytes表示,这些数据小到足够匹配当前大多数PC的RAM,也能存储到记忆棒中。图像数据库和软件使数据库的搜索可在网上公开获得。
现在对于常见种类的图像,匹配是有效的。Torralba说,“并不是创建所有的图像都同等”。图像越复杂或越独特,就越不太可能正确的匹配。但对于图片中普通的目标来说,结果已经相当令人瞩目了。