东南大学王萌 | “神经+符号”学习与多模态知识发现

转载公众号 | DataFunTalk

分享嘉宾   |王萌博士 东南大学 助理教授

编辑整理   |盛泳潘 重庆大学 助理研究员


导读:近年来,多模态一词在知识图谱、计算机视觉、机器学习等领域逐渐引起越来越多的关注。从认知科学角度看,个体感知、认知外界多模态信息进而形成知识的过程,通常是多种感官同时对信息进行处理和融合,这也对应着神经网络与符号知识两类人工智能方法。本文将介绍东南大学认知智能研究所在多模态知识发现的最新工作,并介绍神经网络方法与传统的符号知识结合相关研究进展。

具体将围绕以下几部分展开:

  • 引言——两个例子

  • 为什么符号知识很重要

  • “神经”+“符号”学习

  • 多模态知识发现

01

引言——两个例子

首先按照我自己的风格,先举两个和本次分享主题相关的例子。

4f69c6648ff1f7340985a2a742cb8e22.png

第2个例子是和多模态相关的,谈到神经和符号,我们知道神经系统在视觉以及一些非结构化的文本任务上取得了长足的进步。这个例子来源于NeurIPS’2020,Facebook公司提出的一个任务,说明在很多时候我们都需要多种模态的数据来共同处理。

02

为什么符号知识很重要

0b82e40c322bc832b93bdfde62c6e8d9.png

对上述内容感兴趣的同学或朋友们,我建议大家可以看看以上三本书。中间这本书是一个诺贝尔经济学奖获得者写的一本关于认知科学理论的书,其中有一些很有意思的题目让你去做,你会发现人脑在处理这些相同或类似的任务时,所产生的差异也是非常明显的。哪怕是非常接近的任务,有的任务你可能需要思考很长的时间才能完成,有的任务你可能在直觉上一下子就能判断出来。我想这可能也对应现实世界中的一些应用场景,可以帮助你找到答案。

6dcafdc27d1bfbf289e0793e49e65388.png

从本质上讲,神经系统和符号系统的目标都是一致的,即输入一个问题(Input(Question)),产生一个答案(Goal(Answer))。区别在于它们擅长处理的数据类型不一样,神经系统可能擅长于处理非结构化的文本、语音、图片等,通常采用的是端到端的方式;符号系统擅长处理数据库以及定义的模式/语义规则/推理规则、图数据库、图谱等等。但是从任务的输入、输出的角度来讲,它们都是一致的。

2d91cc643720996aca282b189b4d95cf.png

这里提到的“神经”+“符号”并不是说它们两者是对立的。我一直在跟踪前沿的工作,我不是想说“符号系统”有多么的好,而是说我们现在需要的是找到所有可能的方式去补充深度学习目前所出现的问题。这也是我本次分享的核心出发点。从上图中可知,目前现有的神经系统模型主要还是集中在感知或语言方面,而人类的符号知识包含了大量的常识,我们如何能够将它们用在神经系统里面,这方面的研究具有无限的潜力。

6351cb1456b76e149f6426d9f52b46f0.png

G.Marcus在2020年的KR会议上也对符号知识进行了概括,他说符号知识可以分为几类,例如变量、实例,在变量/实例上的操作,以及绑定(binding)。符号知识的泛化能力从何而来据Gary F.Marcus这本书中提出的观点,这主要得益于变量的强大之处,也就是说,当我们能在一个符号系统中定义有代表性的变量时,它其实是永无止境的泛化(open-ended generalization)。

ffb0d20fa3d3bf20a0dcc42716480dce.png

概括而言,符号知识包括:对一类对象的表示(Representationsof objects),一些结构化的代数层级的表示(Structured, algebraicrepresentations),定义在变量上的运算(Operations over variables),一些单词级别的区别(A type-token distinction),对于集合、地点、路径、轨迹、障碍物以及一些持久性质个体的表达能力(A capacity to represent sets, locations, paths, trajectories,obstacles and enduring individuals),一种表示对象属性的方式(A way of representing the affordances of objects),大量的时空信息(Spatiotemporal contiguity/conservation of mass),因果关系(Causality),平均变量(Translational invariance)和成本效益分析能力(Capacity for cost-benefit analysis)。以上可视为对常见的符号知识的系统性的总结。大家可以思考下,根据自己的背景知识,是否可以将上述中的每一类嵌入到神经学习系统中来。

494e1883ffaf5247518632d5e34b114d.png

符号系统不单单是表示问题,符号知识也是与方法相关的。但现在为止,AI系统已经有很多种类型了,我们在选择知识表达时应紧密联系实际场景,一个核心的问题是,在一个“神经”+“符号”的结合系统中,面向一个给定的问题,或是一个给定的人来选择一个最合适的知识表达,这样最终可以实现两个目的:一是帮助研究者跳出传统的知识图谱/知识表示的思维,进而帮助其获得全新的知识理解(New understanding/ insights);二是让研究者的神经系统更加个性化(Personalizationof system)。

ead9eb2c4a7ba0d3616c143c206ddc38.png

基于上述设计思想,我们可以充分利用人类世界中的不同知识,这些知识上的不同操作方式,不同个体对于该问题的不同思考,核心的目的是能够根据不同的人,不同的任务选择相应的符号知识与推理规则,最后将知识嵌入到模型之中(With symbols model use, inferences model enable, and knowledge modelencode)。

258a2370e4573d23a2a15ba63f74cb05.png

总结一下,我们期望的目标是能够实现一个“神经”+“符号”的系统,在这个系统中,我们可以集成“神经”+“符号”的所有优点,最终来完成既定的任务。在IJCAI 2018的一个辅导报告(tutorial)中,专门介绍了如何来结合“神经”+“符号”,本质上这是一个循环的过程。

03

“神经”+“符号”学习

下面,我将给大家介绍“神经”+“符号”的学习方法。

1160935d100ec729f18b94b7420afb3f.png

详细来说,第一类将神经系统直接应用于推理任务中的方法就是表示学习,它其实是在用神经的方法解决浅层的关系预测问题(在符号系统中,它们本质就是简单的推理问题),但是我们知道,在知识图谱表示学习中,基本上全部都是用神经网络或统计学习的方法去解决这个任务。还有现在流行的图神经网络,如GCN,GNN等,它们都是在用神经的方法去解决浅层的推理问题。但是我想说的是,这里的推理更多侧重的是统计上的推理,而不是逻辑上的演绎推理。所以这里值得我们做更深层的探讨,是否可以让神经系统去做更高级别的推理。

再比如多跳问答,相比而言,单跳问答是一个复杂的推理或复杂的问题,然而在传统的符号知识领域中,它依然是一个浅层的推理。在多跳问答中,常使用循环神经网络+注意力机制(RNN+Attention)或层次图卷积网络(Hierarchical GCN)来解决这一问题。

3ded7c00c72bdd014994cb24e2f8ae3f.png

还有一类方法主要还是在做神经系统面临的问题,主要是通过引入符号知识来提升神经网络的效果。其中具有代表性的问题包括:信息编审问题,如知识蒸馏(有老师网络和学生网络的过程,在这些过程中就可以嵌入一些逻辑的规则),远程监督(在自然语言处理的过程中将知识图谱作为监督信息,并且在这其中去思考降噪的问题)。在计算机视觉领域,本质上还是在用符号知识的迁移去解决一些小样本、零样本的问题。

在NLP场景中嵌入知识的三种常见方法:

b045d1ee84474d23173b2d3feb80534e.png

第二类方法是将问题抽象为多任务学习(multi-tasklearning)的任务(请见《Incorporating Relation Knowledge intoCommonsense Reading Comprehension with Multi-task Learning》一文)。这篇文章的最大贡献在于:作者提出了一个概念网络(ConceptNet)。作者认为在整合多类型的知识时会有多个整合的损失函数(lossfunction),因此提出了一个全新的符号知识,称为ConceptNet,最后将其抽象为一个多任务学习的过程。

6cd68b3b1b0a40d5f46ce4d0797f7569.png

此外,符号知识还能帮助我们更好地解释神经网络的输出结果,以及提供更好的可解释性。这些都是“神经”+“符号”学习的特点。

8834ba4d3031eda47138103d832a0959.png

首先多模态知识发现与多模态知识图谱不是一个新的问题,从2004到2019年,在每一个阶段,研究者都有不同的定义。

4cf99fef3759cc9df086f70c84e482a5.png

他们总结了在将文本知识与场景知识融合过程中所面临的一些挑战。专门提到了不同模态知识的精准对齐是多模态知识发现中的一个核心问题。

e3d67b974e231732efab12ab98133f4c.png

上图为该系统的主要架构,我们可以发现:多模态知识发现其实是一个庞大的工程,因为每种模态的知识都有不同的抽取方法,不同模态的知识还涉及对齐以及联合学习等核心问题。

d9e7bccc323cf9929ebf170ca09a1222.png

f9c9a3960d09ba4ab2357f54bf88078d.png

大家可以顺着去发现在推荐系统(请见《Multi-modalKnowledge Graphs for Recommender Systems》一文)、旅游场景(请见《Constructionof Multi-modal Chinese Tourism Knowledge Graph》一文)、软件工程(请见《Multimodal Knowledge Graph for Deep Learning Papers and Code》一文)以及个人生活场景(请见《Multimodal joint learning for personal knowledge base constructionfrom Twitter-based lifelogs》一文),都可以发现多模态知识发现和多模态知识图谱过程中不同知识和神经系统相结合的一些探索。

10f88bc73ada502142646ebe52b7acbb.png

这里总结一下,我借鉴Dong老师等人的表达,上图所示为商品知识图谱。多模态知识图谱的发展最终会向上图中所总结的情况一样,在开始时(2016-2017年),多模态知识图谱只是传统知识图谱中的一个小块(如图(A)),大家刚刚开始关注这个问题;到2020年,我们发现传统知识图谱和多模态知识图谱逐渐成为并列关系(如图(B));未来,我相信多模态知识图谱必定是包含了传统知识图谱(如图(D))。

2. 我们的多模态知识图谱 

fb2e0d5f91ad2191ad90c012e817f593.png

对于上图中的每个部分,我们都有相应的论文。

f8bf3ddff20589c5d53614a631f08df3.png

以上是我们对于场景的理解。

cbb80da5db2ced09627df7b5b75c5247.png

例如在符号层级,我们如何利用拥有的知识去解决尾部关系类型很少的实体抽取。

da9fb42a0c32ef1f482b554e766b64b3.png

09263b496658e42171a233b98fdb14be.png

以上为该模型的整体框架,以及相应的实验结果。

3. 其它多模态发现任务 

569ea9d0d60bc0fc8aca6515ac155c72.png

上图是多模态机器翻译的对抗性评价。

feeebc7f13c8fc9dc87c201d4bab1207.png

接下来,我总结了多模态数据/知识图谱中的真实挑战:

  • 是否真正有多模态的数据,如知识图谱、文本数据、图像和视频等;

  • 在符号层级,我们需要去思考多模态知识/符号知识应该如何去表达;

  • 在神经网络层级,我们需要去探索多模态预训练语言模型,是否有不同模态基准的对齐,以及是否有强大的计算资源。

e9b951b112ce8d04d50f3bdb301920b9.png

上图给出了这个领域未来的浅层研究方向,大家可以去探讨。

今天的分享就到这里,谢谢大家。


分享嘉宾:

c803484cb2c42b093b54a4d5ddac6efb.png

点击阅读原文,进入 OpenKG 网站。

文章知识点与官方知识档案匹配,可进一步学习相关知识算法技能树首页概览34297 人正在系统学习中

来源:开放知识图谱

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年11月25日
下一篇 2021年11月25日

相关推荐