新闻中心

N
ews

“知识”让“人工智障”变成“人工智能”,理解人工智能中“知识”要素的价值 ——2021中国人工智能峰会主题论坛成果解读

2021-10-27点击:2042

2021年,谁是交通违章最多的人?董明珠!!谁说的?AI!!

绝大多数情况下,用“人工智障”来代称人工智能更合适,因为在很多领域内AI。那么,人工智能和人的思维方式差异究竟在哪里?

其实差异有很多,但其中最主要的一个就是人在思考时有大量的“知识”储备,而人工智能一般没有。所以,“知识”不光是对人很重要,对人工智能也是如此。

20216月,中国人工智能峰会在南京顺利举办。南京大学计算机系主任、人工智能学院院长、欧洲科学院外籍院士周志华教授作了《人工智能“三要素”走向“四要素”》的主旨演讲,重点探讨和展示了“知识”要素在人工智能领域的重要作用。


白手起家太难了——没有“知识”储备的模型训练太贵了


众所周知,数据、算法和算法是人工智能领域的核心“三要素”。2016AlphaGo以及深度学习模型掀起的新一轮的人工智能热潮也是基于这三要素的突破性进展而到来的,人工智能也真正进入了落地结果的实质性成长阶段。几年间,人工智能在各个行业领域内的发展日新月异,硕果累累。

然而,如同20世纪初漂浮在物理学天空的两朵乌云(以太理论和黑体辐射,分别引出了相对论和量子力学两个新领域)一样,现有的人工智能的主流的深度学习模型也存在着鲁棒性不稳定和可解释性不可控两个难以克服的问题,严重制约了强人工智能领域(真正具有推理和解决问题能力的人工智能)的发展。

当前最先进的人工智能模型基本都是基于海量数量训练而来的深度神经模型,模型的训练需要有巨大的资金、设备和时间来支撑,成本极高。史上最大的AI模型GPT-3训练数据量高达45TB,模型参数有1750亿个,模型大小为700G,训练该模型OpenAI机构花费了1300万美元。然而让人啼笑皆非的是,规模如此庞大的模型直到训练完成之后,OpenAI才发现模型中存在一些不影响大局但又很低级的Bug。可是最终OpenAI选择接受模型的Bug,因为训练模型实在太贵了!!

就像创业一样,无数曾激励过我们的白手起家的创业神话最后都被证明是营销手段。为什么?因为白手起家创业实在太难了!!同样,大型算法模型的训练实在太贵了,即使是对于巨头来说也难以承受;归根究底这些困难就来源于模型没有“知识”储备,要从头去学。

深耕人工智能领域研究的周志华教授给出了一个或许是破解这个问题的有效方式:将人工智能的三要素改成四要素“数据+算法+算力+知识”。

 

知识——让机器像人一样思考


为什么“知识”元素的引入很有必要?人思考的模式就是基于知识储备的逻辑推理,举一反三而且经济实惠。如果人可以,那么机器为什么不能尝试?

人工智能的诞生于20世纪50年代,半个多世纪以来的探索和发展步履维艰。总体来看经历了“重推理,轻学习”的概率逻辑程序设计为主的传统机器学习阶段和“重学习,轻推理”的统计关系学习的深度神经网络模型阶段。而今,两条路走到了交汇的路口,既有条件也有必要结合一下了。

周教授用一个原创的“反绎学习”的概念来代指基于“知识”,学习和推理并重的新型的AI算法模型。

那么究竟什么是“反绎学习”呢?官方说法是从一个不完备的观察出发,然后希望得到一个关于某一个我们特别关心的集合的最可能的解释。

举个栗子:预言过2012世界末日的玛雅历法是一套非常复杂且精致的历法,历法包含玛雅长历玛雅神历和玛雅太阳历三套体系大概类似于我们的阳历阴历和天干地支纪年的体系就像你无法通过“庚子年”来确定具体是指八国联军侵华的那年还是新冠疫情肆虐的那年;同样只通过玛雅长历玛雅神历或者玛雅太阳历也很难确定玛雅历法中记录的准确时间。

如下图所示,表示玛雅历法的时间的数字以不同形状的人脸图案刻在纪年的柱子上,不同的人脸在三套历法中代表着不同的时间数字。让人崩溃的是,由于人脸图案是手工刻出来的,即使代表同样一张人脸的图案也可能刻出不同的效果来。因此很难单纯只通过图案的外观性状来确定其准确代表的日期。所以,玛雅历法的解读曾给考古学家带来过巨大的困扰。


图片11.png


好在同样一根历法石柱记录记录的是同一个时间这就为考古学家提供了一种猜到正确答案的方法。考古学家拿到这个图像之后,先根据以往破译图像的经验去这些数字是什么把可能的情况全部展开。接下来的一步,他们就要利用所掌握的知识来做判断。


图片12.png


就是将三种不同历法中可能的结果都展示出来然后寻找三者共同的交集。刚好同时满足三种历法标识的时间即为准确的记录时间。这就是反绎的过程。

 

而算法里的反绎学习也是借鉴了这种思想。就是首先利用简单粗糙的算法模型去原始数据里学习预测,将初步预测出来的粗糙结果作为输入数据利用不同维度的知识图谱的规则去筛选,筛选出的结果利用反绎学习的方式进行多维度的交叉验证,并根据结果优化算法模型;形成一个多轮次的反馈模型。以达到用最少的数据和训练量,训练出最有效的算法模型。


图片13.png


据周教授介绍,基于“知识”规则的反绎学习算法模型已经开始逐渐应用在诸如法院案件评审等自然语言处理相关的算法中并且效果明显优于现有的其他算法模型。此算法模式得到了前欧洲机器学习大会主席L. De Raedt院士的高度赞扬。


图片14.png


换句话说,反绎就是基于不同角度的先验知识,从不同的角度去给一个事物定位,即使每一个角度得到的信息都是片面的,也能够将真相拼凑出来。

人的大脑思考过程的神奇之处就在于可以基于已有的知识体系的逻辑,通过归纳演绎的方式,举一反三,去解决许多看起来完全无关的问题。而这一点,正是机器学习和深度学习需要学习的地方。只有训练出具有知识逻辑和推理能力的算法模型,人工智能才能真正摘掉“人工智障”的帽子!

 

AI教育知识图谱构建——一条让教育智能化的必经之路


作为一家立足于真正将将教育智能化的公司,在我们在利用AI的过程中应该准确把握技术的发展脉络,结合自身的优势去开展产品的研发工作。

无论是从经济成本还是行业属性来说,训练大规模的算法模型都是一条不切实际的道路。因此,根据教育的学科属性和基于“知识”要素的反绎学习算法更有可能是未来AI推理学习中的不二之选,将会广泛应用于学习知识标签的标注和个性化推荐等领域,真正助力教育的数字化和智能化。

而要实现这个目标,需要构建出真正适用于算法推理和学习的学科知识图谱,形成我们自己的核心竞争优势,在未来的AI教育浪潮中始终立于不败之地!