依图德尔非聚集地 马尔斯伯教授向世人描绘通往人工智能路径
2018-09-30 14:05:02爱云资讯阅读量:1,145
“人们若问这个世界是一直存在呢,还是刚刚开始呢?其答案肯定是这样:它刚刚开始,因为它是可见的、可触的、具体的,感官所能知觉的任何东西,没有一件像思想的对象那样是永恒不变的。”——柏拉图《蒂迈欧篇》
两千多年前,柏拉图借助蒂迈欧之口,向世人描绘了他心中的宇宙创立过程。而今,在依图的德尔非聚集地(Delphi Talk),来自法兰克福高级研究所的马尔斯伯教授(Christoph Von Der Malsburg)借助柏拉图的宇宙观,向世人描绘了一条通往通用人工智能(Artificial General Intelligence)的路径。
不知不觉,人工智能已经在泥泞中蹒跚发展了六十年。其中计算机视觉领域异军突起,借助深度神经网络、大量标注数据、强计算能力的加持,机器能够把你从十亿个人里面找出来,但却依然不能像三岁小孩子那样轻易学会一个新的物体类别。
1966年,马文·明斯基(Marvin Minsky)在麻省理工学院让他的学生用一个暑假的时间完成一个计算机视觉的课题,然而52年过去了,计算机视觉距离“通用”这两个字,依然有着山海不可平的距离。
通用计算机视觉与人的视觉系统类似。这意味着,它不仅得分辨出动态环境下的所有物体,还得能理解它们。它可以分析出它们之间的逻辑关系,甚至得要有记忆功能。而不只是简单地反馈一个结果,尽管这个结果在限定的条件下准确率很高。
马尔斯伯教授认为,现在主流人工智能领域分为两大阵营,一个是基于传统算法,另一个则基于人工神经系统(Artificial Neural System)。
基于传统算法的人工智能属于狭义人工智能范畴。程序员需要总结某个特定问题来理解它的本质,然后将这个本质融合到一个算法中。虽然在发展过程中发明了大量的实用软件工具,诸如文字处理、计算机代数、会计、计算机图形学、建筑设计等工具,但从本质来说它只是罐装的人类智能而已。
基于传统算法的人工智能科学家也在努力设想通用人工智能的解决之道,但是马尔斯伯教授认为除非建立了一个普遍完备的数据结构,以及重新正视示例学习的重要性,否则很难触及通用的本质。
马尔斯伯教授提到的示例学习的对象,正是人类的大脑,这也是人工神经系统(Artificial Neural System)阵营最具魅力的灵感源泉。以深度神经网络(Deep Neural Network)为代表,也是形成了这次人工智能浪潮的主要原因。
然而它的缺陷也是显而易见的——任何经过标注数据训练的深度学习系统都是针对特定领域的,什么样的数据集决定了它所能解决的领域和问题。换句话来说,它就好像是人类智慧的微小切片。
为了解决通用问题,马尔斯伯教授提出了另一条模仿大脑与人类视觉系统的探索路径。
他认为,大脑是人类智能的核心,而视觉是大脑的典型功能,它有认知和观察相一致的特点,与大脑的神经系统紧密纠缠在一起,是最具备验证和模仿条件的。正如科学是一个反问题一样——你首先要发明一个概念,然后得用实验验证它。视觉也是一个反问题,这意味着你可以轻而易举地利用视觉看到所有的物体,但是要回溯视觉能力的基础架构、找到产生当时视觉画面的所有输入却并不容易。
当你通过视觉系统看见一只猫或者是一条狗的时候,你可能并不需要看清它的全貌就能够做出正确的判断,你甚至可能会有99%的输入内容是由记忆中提取。所以马尔斯伯教授认为,对视觉输入系统的建立,需要同时依赖于记忆片段和投影模式的集合。
为了模拟视觉能力,马尔斯伯教授开创性地提出了自组织动态图模型系统的概念。
就好像在柏拉图宇宙观中,时间是永恒的映像,物理世界的一切都是完美真理的投射。马尔斯伯教授的动态图模型系统构成了这个永恒映像的本体,它是一个通用视图库,由一张张动态图片的基本构建构成。
马尔斯伯教授详细描述了这个视图库的创建过程,每一张图片,会根据图片的内容归类为不同的部件,诸如颜色、材料、阴影、几何图形、边缘等。当有足够多的图片,就会形成通用的不同种类的部件属性,这些属性用神经系统的方式形成一个视图库。
当需要识别图像时,图像上的某些部件特征形成信号源,能够激活这个通用视图库相应的部件,这个视图库会产生动态变化,自然运动到一个恰当的位置而进行识别。由于这个视图库对图像中的不同部件、不同的特征、空间属性有分类的能力,每一次激活和搜索都变得非常有效率。
马尔斯伯教授强调了这个系统是一个自组织的系统,这个灵感同样来源于大脑。
一方面,人类的大脑是一个仅仅建立在1GB遗传信息上的有机体。另一方面,人类的大脑又是包含了800亿个神经元的复杂有机体。它既轻巧又复杂,集合这两种矛盾为一体,主要依赖于它强大的基于自我交互的组织机制。
从大脑系统的初始结构开始,它历经的每个状态所生成的活动都能对它的结构起反作用,大脑系统能对自己进行修改和区分,形成了大脑网络的自组织。大脑的这种连接机制,在搜索信息时,能够形成无限的认知空间和稳定的自我交互。
而在视图库中模拟出这种自组织的能力,正是让计算机视觉摆脱简单地输入信息和反馈结果的机制,具备记忆和动态变化,解决物理世界的组合爆炸问题,进而具有通用能力的基础。
现在,马尔斯伯教授和他位于法兰克福的初创公司 PLATONITE 正在致力于这项激动人心的研究。在他的实验室里,这种新颖的自组织动态图模型系统已经能够开始识别简单的物体。
这位研究智能四十余年之久的科学家,面对已经停滞不前数十年之久的人工智能基础理论研究,并未回避实现智能的根本性问题,而是以一种公正的态度走到了德尔非聚集地的讲台上,分享他的最新观点。这是我们的荣幸!