克服灾难性遗忘，提高人工神经网络适应性

作者：来源：发布时间：2019-09-05

　　人工智能已成为21世纪最具挑战性的前沿科学领域之一，但究竟什么是“智能”?图灵奖得主Allen Newell和诺贝尔奖得主Herbert A. Simon曾经联合撰文将智能定义为“适应环境变化，实现自身目的”，DeepMind的联合创始人之一Shane Legg总结了数十种智能的定义，提出智能的通用衡量指标应该是在不同的环境中实现特定目的的能力。从中可见，个体对复杂、动态环境的高适应性是智能的重要标志。

　　人类大脑显然是高环境适应性的典范。人不仅可以在新的环境中不断吸收新的知识，而且可以根据不同的环境灵活调整自己的行为。在此方面，深度神经网络(deep neural networks，DNN)与大脑相比存在着很大的差距。传统DNN一方面会受到“灾难性遗忘”问题的困扰，难以在学习新知识的同时保留旧知识，即缺少连续学习(continual learning)的能力;另一方面，DNN往往只能实现预先训练好的固定操作，不能对实际环境中存在情境信息(比如自身状态，环境变化、任务变化等)做出灵活的响应，难以满足复杂多变的需求，即缺少情境依赖学习(contextual-dependent learning)的能力。这两方面能力的缺失是制约当前DNN发展出高水平智能的重要瓶颈。

　　近日，自动化所脑网络组研究中心与模式识别国家重点实验室余山课题组在克服上述两个核心问题方面取得了重要进展，为提高人工智能系统对于复杂多变环境的适应性提出了新的思路和方案。在Continual Learning of Context-dependent Processing in Neural Networks一文中，硕士生曾冠雄、博士后陈阳等提出了正交权重修改(orthogonal weights modification，OWM)算法和情境依赖处理(context-dependent processing，CDP)模块。OWM算法可以有效克服神经网络中的灾难性遗忘，实现连续学习;受大脑前额叶皮层启发的CDP模块可以有效整合情境信息，调制神经网络的信息处理过程。二者的有效结合，使人工神经网络具备了强大的连续学习和情境依赖学习的能力，大大增加了其灵活性和适应性。该论文于2019年8月在自然机器智能子刊(Nature Machine Intelligence)在线发表。

　　OWM算法的核心思想为：在学习新任务时，只在旧任务输入空间正交的方向上修改神经网络权重。如此，权重增量几乎不与以往任务的输入发生作用，从而保证网络在新任务训练过程中搜索到的解，仍处在以往任务的解空间中。OWM通过正交投影算子与误差反传算法得到的权重增量〖？W〗^BP作用实现其目的，即最终的权重增量为？W=κP〖？W〗^BP。

　　图一：OWM算法原理示意图。(a): 在权重更新时，OWM算法只保留传统BP算法计算的权重增量中与历史任务输入空间正交的部分。(b): 在新任务中，OWM算法将神经网络对解的搜索范围约束在旧任务的解空间中。

　　OWM算法实现了对网络中已有知识的有效保护，并可以与现有梯度反传算法完全兼容，在连续学习测试任务中表现出了良好的性能。在连续学习的标准任务disjoint MNIST与shuffled MNIST任务中，OWM算法的表现超过了同类的其他算法。并且，随着学习的任务数目增加，OWM算法的性能优势会进一步加大。利用OWM算法，神经网络可以连续学习识别ImageNet的1000类图片和3755个中文手写体汉字(每个任务仅训练一类图片或一个汉字)。值得一提的是，算法具有优良的小样本学习能力，以手写体汉字识别为例，基于预训练的特征提取器，系统可以从仅仅数个正样本中就能连续的学习新的汉字。

　　图二：在连续学习MNIST手写体数字0-9的任务中，随着任务数目的增加，OWM算法的优势也愈加明显。同时，任务的学习顺序会对个别任务产生影响。如先学数字4和7，会显著提升数字9的识别正确率。

　　表一：OWM算法在ImageNet和中文手写体汉字识别的连续学习任务上体现出优良的性能

　　图三：OWM实现汉字识别的小样本连续学习

　　CDP模块则是受前额叶皮层启发提出的。前额叶是大脑中负责认知控制的核心皮层。其同时接收感官输入和情境信号，并选择与当前任务最相关的感官信号指导输出响应。受此启发，作者引入了类似的处理架构--CDP模块，它包括两个子模块：1.编码子模块，其负责将情境信息编码为适当的控制信号;2.“旋转”子模块，其利用编码模块的控制信号处理任务输入(由于其功能上相当于将特征向量在高维空间上进行了旋转，故称为“旋转”子模块)。

　　图四：类前额叶的CDP模块的结构设计。左上角是其工作原理示意图。

　　若将CDP模块与OWM算法联合使用，神经网络只需要一个分类器，就可以连续学习40种不同的脸部特征的识别任务。并且，当不同的提示信号出现时，其对相应的特征做出判断，效果与引入40个分类的情况相当。

　　图五：同一个分类器对于同样的输入，连续学习40种不同人脸属性的分类任务(蓝色数据点)，正确率与用40个分类器的系统(橙色线)几乎一致

　　通过OWM算法有效克服灾难性遗忘，并通过CDP模块实现了单个分类器基于情境信号的多任务连续学习，这一方法有望让智能体通过连续不断的学习去适应复杂多变的环境，从而逐步逼近更高水平的智能。

附件下载