CN / EN
banner图
掌握核心技术 驾驭光的运用

技术文章

Technical Articles

计算机视觉技术的原理

日期:2020-04-21 来源:三姆森科技

计算机视觉就是用各种成象系统代替视觉器官作为输入敏感手段,由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能象人那样通过视觉观察和理解世界,具有自主适应环境的能力。在实现最终目标以前,人们努力的中期目标是建立一种视觉系统,这个系统能依据视觉敏感和反馈的某种程度的智能完成一定的任务。例如,计算机视觉的一个重要应用领域就是自主车辆的视觉导航,还没有条件实现象人那样能识别和理解任何环境,完成自主导航的系统。因此,人们努力的研究目标是实现在高速公路上具有道路跟踪能力,可避免与前方车辆碰撞的视觉辅助驾驶系统。

这里要指出的一点是在计算机视觉系统中计算机起代替人脑的作用,但并不意味着计算机必须按人类视觉的方法完成视觉信息的处理。计算机视觉可以而且应该根据计算机系统的特点来进行视觉信息的处理。但是,人类视觉系统是迄今为止,人们所知道的功能最强大和完善的视觉系统,对人类视觉处理机制的研究将给计算机视觉的研究提供启发和指导。因此,用计算机信息处理的方法研究人类视觉的机理,建立人类视觉的计算理论,也是一个非常重要和信人感兴趣的研究领域。

这一领域的深入研究是从20世纪50年代开始的,走的是三个方向——即复制人眼;复制视觉皮层;以及复制大脑剩余部分。
复制人眼——让计算机“去看”

目前做出最多成效的领域就是在“复制人眼”这一领域。在过去的几十年,科学家已经打造了传感器和图像处理器,这些与人类的眼睛相匹配,甚至某种程度上已经超越。通过强大、光学上更加完善的镜头,以及纳米级别制造的半导体像素,现代摄像机的精确性和敏锐度达到了一个惊人的地步。它们同样可以拍下每秒数千张的图像,并十分精准地测量距离。

但是问题在于,虽然我们已经能够实现输出端极高的保真度,但是在很多方面来说,这些设备并不比19世纪的针孔摄像机更为出色:它们充其量记录的只是相应方向上光子的分布,而即便是最优秀的摄像头传感器也无法去“识别”一个球,遑论将它抓住。

换而言之,在没有软件的基础上,硬件是相当受限制的。因此这一领域的软件才是要投入解决的更加棘手的问题。不过现在摄像头的先进技术,的确为这软件提供了丰富、灵活的平台就是了。
复制视觉皮层——让计算机“去描述”

要知道,人的大脑从根本上就是通过意识来进行“看”的动作的。比起其他的任务,在大脑中相当的部分都是专门用来“看”的,而这一专长是由细胞本身来完成的——数十亿的细胞通力合作,从嘈杂、不规则的视网膜信号中提取模式。

如果在特定角度的一条沿线上出现了差异,或是在某个方向上出现了快速运动,那么神经元组就会兴奋起来。较高级的网络会将这些模式归纳进元模式(meta-pattern)中:它是一个朝上运动的圆环。同时,另一个网络也相应而成:这次是带红线的白色圆环。而还有一个模式则会在大小上增长。从这些粗糙但是补充性的描述中,开始生成具体的图像。

使用人脑视觉区域相似的技术,定位物体的边缘和其他特色,从而形成的“方向梯度直方图”

由于这些网络一度被认为是“深不可测的复杂”,因此 在计算机视觉研究的早期,采用的是别的方式:即“自上而下的推理”模式——比如一本书看起来是“这样”,那么就要注意与“这个”类似的模式。而一辆车看起来是“这样”,动起来又是“这样”。

在某些受控的情况下,确实能够对少数几个物体完成这一过程,但如果要描述身边的每个物体,包括所有的角度、光照变化、运动和其他上百个要素,即便是咿呀学语的婴儿级别的识别,也需要难以想象的庞大数据。

而如果不用“自上而下”,改用“自下而上”的办法,即去模拟大脑中的过程,则看上去前景更加美好:计算机可以在多张图中,对一张图片进行一系列的转换,从而找到物体的边缘,发现图片上的物体、角度和运动。就像人类的大脑一样,通过给计算机观看各种图形,计算机会使用大量的计算和统计,试着把“看到的”形状与之前训练中识别的相匹配。

科学家正在研究的,是让智能手机和其他的设备能够理解、并迅速识别出处在摄像头视场里的物体。如上图,街景中的物体都被打上了用于描述物体的文本标签,而完成这一过程的处理器要比传统手机处理器快上120倍。

随着近几年并行计算领域的进步,相关的屏障逐渐被移除。目前出现了关于模仿类似大脑机能研究和应用的爆发性增长。模式识别的过程正在获得数量级的加速,我们每天都在取得更多的进步。
复制大脑剩余部分——让计算机“去理解”

当然,光是“识别”“描述”是不够的。一台系统能够识别苹果,包括在任何情况、任何角度、任何运动状态,甚至是否被咬等等等等。但它仍然无法识别一个橘子。并且它甚至都不能告诉人们:啥是苹果?是否可以吃?尺寸如何?或者具体的用途。

前面说过,没有软件,硬件的发挥非常受限。但现在的问题是,即便是有了优秀的软硬件,没有出色的操作系统,也“然并卵”。

对于人们来说,大脑的剩余部分由这些组成,包括长短期记忆、其他感官的输入、注意力和认知力、从世界中万亿级别的交互中收获的十亿计知识,这些知识将通过我们很难理解的方式,被写入互联的神经。而要复制它,比起我们遇到过的任何事情都要更加复杂。


返回列表