技术文章
新算法拉近机器视觉与人类视觉距离
美国普渡大学的研究人员开发出一种基于热映像的计算机图像分割算法,可使计算机迅速识别出物体的外形,即便其发生扭曲或轻度变形也不会受到影响。该技术将使机器视觉与人类视觉更加接近,可广泛应用于图像搜索、医疗影像以及无人机制造等多个领域。详细研究结果将分为两篇论文,在6月21日至23日举行的IEEE(美国电气及电子工程师学会)计算机视觉和模式识别大会上予以公布。
人类能够很容易把一个三维物体从背景中识别出来,也能轻松地识别出它的部分和整体。但这对计算机来说就比较复杂:按照目前的计算机视觉识别技术,必须事先告诉计算机目标物体外形的初始信息以及可以将其分割成多少片段,而后通过一定的算法将已知图像与未知图像进行对比,最终通过筛选识别出目标。新算法更接近于人类,是一种无监督机器学习(计算机或是机器人在无需任何事前训练的情况下就能具有感知和学习能力)技术,计算机可自行估计可分割的段数而无需预先提供。
负责该项研究的美国普渡大学机械工程学教授卡西克?拉马尼说,新算法采用了两种新技术,分别被称为热图和热分布。由于热量会沿物体表面进行扩散,并准确地显示出物体的外形,通过这种“智能热力”,该算法就能模拟出热量沿物体表面从一点到另一点的流动,从而描述出物体的形状。其工作原理是,为了便于描述和识别,首先将图像分割成众多三角形状的网格,再通过计算网格间流动的热量来识别出物体的外形。该方法不但可用于对实际热量的跟踪,还能按照相应的原理对热量的流动进行模拟。拉马尼说,该技术是站在巨人的肩膀上才得以产生的。爱因斯坦对热扩散理论的贡献和法国物理学家傅立叶对热在固体中传播的研究都为该算法提供了巨大的帮助。
实验中,研究人员利用该算法对包括手、人形模型和半人马模型等多种复杂形状的物体进行了测试。结果发现,计算机能够准确识别出这些物体,即便其发生扭曲或轻度变形也不会受到影响。此外,该算法还能忽略由激光扫描不完整或其他错误数据所产生的“噪音”.
研究人员称,该技术潜力巨大,可广泛应用于图像搜索、机器人视觉和导航、3D医学影像、无人机制造、多媒体游戏机、动画电影人物创作等多个领域。