知识图谱发展史

知识图谱是人工智能三大分支之一——符号主义——在新时期的主要的落地技术方式。该技术虽然在 2012年才得名,但是它的历史渊源,却可以追溯到更早的语义网、描述逻辑、和专家系统。

在该技术的的历史演变中,多次出现发展瓶颈,也多次以工程的方式突破了这些瓶颈。本次公开课将分析知识图谱发展中关键阶段的技术脉络,并提出进一步工程化才是该技术进步的核心方向。

报名地址:

https://edu.csdn.net/huiyiCourse/detail/833


作者介绍:文因互联 CEO,联合创始人。前三星美国研发中心研究员,伦斯勒理工学院博士后,麻省理工学院分布式信息组 (DIG) 访问研究员,以及雷神BBN技术公司访问科学家。2007 年,他于爱荷华州立大学获得博士学位。

他的研究领域涉及自然语言处理,语义网,机器学习,描述逻辑,信息论,神经网络,图像识别等。发表70多篇论文,曾任 W3C OWL ( Web 本体语言)工作组成员,合作撰写了 OWL2 的 W3C 规范文档。参与组织了50多场国际学术会议和学术研讨会,是中国中文信息学会语言与知识计算专委会委员,W3C 顾问委员会委员,中国计算机协会会刊编委,中文开放知识图谱联盟 (OpenKG) 发起人之一。

作者 | 鲍捷 来源 | AI科技大本营

知识图谱是人工智能三大分支之一——符号主义——在新时期主要的落地技术方式。该技术虽然在 2012 年才得名,但它的历史渊源,却可以追溯到更早的语义网、描述逻辑、和专家系统。在该技术的的历史演变中,多次出现发展瓶颈,也多次以工程的方式突破了这些瓶颈。

作者:鲍捷,文因互联 CEO,联合创始人。他曾是三星美国研发中心研究员,伦斯勒理工学院(RPI)博士后。他是中国中文信息学会语言与知识计算专委会委员,W3C 顾问委员会委员,中国计算机协会会刊编委,中文开放知识图谱联盟(OpenKG)发起人之一。他的研究领域涉及人工智能诸多方向,如自然语言处理、语义网、机器学习、描述逻辑、信息论、神经网络、图像识别等,已发表 70 多篇论文。

什么是知识图谱/h3>

知识图谱到底是什么白说我也没有特别好的答案,知识图谱从某种程度来说是一个营销名词,是 2012 年谷歌提出了这样一个项目叫 “ Knowledge Graph ”。

一个有意思的定义是王昊奋老师提出来的:知识图谱旨在描述真实世界中存在的各种实体或概念。其中,每个实体或概念用一个全局唯一确定的 ID 来标识,称为它们的标识符。每个属性-值对用来刻画实体的内在特性,而关系用来连接两个实体,刻画它们之间的关联。

但是在实践中我们并不需要太过纠结什么叫知识图谱,什么不是知识图谱。有人问我说是否必须要用 RDF(资源描述框架)才是知识图谱者说是不是必须用 Neo4j 图数据库才是知识图谱实不是。不在于你具体用了哪一种 Syntax,哪一种数据存储的数据库。关键是它的本质是什么。

理解本质从了解知识图谱的演化过程入手。

知识图谱的演化

知识图谱这个概念是最近四、五年才为大家所知的,但是这个技术本身有非常深厚的发展基础,我把这个过程分成六个阶段,合并一下之后大概分成两个比较重要的阶段。

enter image description here

这张图是对前面那张图的抽象,我们选其中发展过程中最重要的节点。六十年代有一种东西叫 “ 语义网络 ”,语义网络在七十年代、八十年代时演化成了描述逻辑。为什么会有这种变化为语义网络本身只是一种表征,并不具备推理能力。语义网络 + 推理变成了新的逻辑系统,叫 “ 描述逻辑 ”,描述逻辑到两千年前后跟 Web 技术结合在一起,形成了新的语言,比如 OIL 、DAML。

另外一个分支是 1995 年前后有了元数据,从元数据学科衍生出一个分支叫 RDF,后来 RDF 和 DAML 合并起来就变成了 OWL。下面还有一些更工程的内容,包括 schema.org、RDFa、JOSN-LD、GraphpDB,这都是最近 5、6 年兴起的新技术。这些技术的总和就构成了我们所称的 “ 知识图谱 ” 技术,但只是其中一部分。

enter image description here

到了八十年代时,描述逻辑就已经比较成熟了。描述逻辑是逻辑的一种,我在这里面列了一张表,这是描述逻辑和一阶逻辑 (FOL 逻辑)之间的对应。如果大家没有逻辑基础也不用害怕,因为这个图本质上是讲很基础的逻辑定义。

我们有了一个描述逻辑之后,就可以用计算机来做一些自动推理的工作。八十年代到九十年代,描述逻辑学者们一直都在寻找如何让计算机更好的进行逻辑推理,一些比较可判定的所谓计算机不会死机的那些问题的总和,这种语言称为 “ 描述逻辑 ”。

OWL

enter image description here

前面这一段大体总结了知识图谱技术发展的前两个大的阶段历史,一个是从六十年代到九十年代,早期知识图谱的原型,包括语义网络等等,后面一系列的技术。

从 2001 – 2006 年或者 2007 年这段时间,是不断加强语义网所谓的语义的过程,就是从弱语义到强语义,从语义网络到描述逻辑,一直发展到 OWL,并行还有另外其他一些,比如基于框架逻辑还有另外一个语言叫 “ RIF ”。

这十几年时间都一直不断在加强语义表现的表达力,但最后证明这个做法是不太妥当的。

元数据框架到 RDF

enter image description here

什么是 RDF里给一个例子,它是非常简单的语言,本质上是三元组,主语、谓语、宾语就是个三元组。比如 “ 我叫鲍婕 ”,“ 我 ” 是主语,“ 是 ” 是谓语,“ 鲍捷 ” 是宾语。在 RDF 这个框架下,万事万物各种复杂的关系最后都被拆分成三元组,如果从图形来表示,三元组就是一个主语、一个谓语,中间有一条线一个箭头是宾语,可以把各种各样的模型都分解成这样的三元组。

从 1997 年有了 RDF,1998 年有了 RDFS,2004 年逻辑学家给 RDF 加了一个语义,因为他们认为 RDF 必须要能够推理,所以 2014 年进一步加强,最后有了 RDF1.1,这是 RDF 大概 20 多年的发展史。

小结:从弱语义到强语义的尝试(元数据)

enter image description here

到了 2006 年时我们的 “ 神 ” Tim Berners – Lee 出来思考这个问题,他想与其要求大家现在把数据搞得很漂亮,不如让大家把数据公开出来。只要数据能够公开出来,数据能够连在一起,我们就会建立一个生态,这套想法他称为 “ 关联数据 ”。

enter image description here

这张图上总结了知识交换语言一系列的发展,刚才提到 RDF,RDF + HTML,变成了 RDFa,还有另外一种叫 Microformat,这都是非常多网站上已经用到的元数据语言。RDF + HTML5 就变成了 Microdata,RDF+JSON 就变成了 JSON – LD。所以传统的 RDF semantics 就是基于 XML 的 semantics,现在不太多见了,因为那个东西非常复杂,学习成本非常高。

现在我们看到的大部分 RDF 从概念上是 RDF 的变种,但是语法形式在网站上打开元代码看都有元数据。大概 3 年前统计,有 30% 的网页已经有语义数据了,现在应该至少超过一半的网站都有语义数据,所以 RDF 是很成功的一个东西。

新的综合:存储语言(图数据库)

enter image description here

在整个领域发展过程中,我慢慢也有一些思考。后来我有一个博客 叫 “ 语义噪声 ”,这里记录了很多我对语义网大大小小事情的想法。那天统计了一下,加在一起大概有 300 多页纸的内容,如果有空了会整理出来给大家看。

这里我列举了一些跟今天讲课内容关系比较紧密的东西,包括为什么语义网会不断的去简化,为什么链接数据最后要演化成所谓的知识图谱。我之前的博客里都写过,欢迎大家去看一看。

还有 github 上,大连理工大学的耿新鹏博士把我博客文章整理到 github 上了,大家不用翻墙就可以看得到了。

总结

其实知识图谱从 2012 年谷歌提出之后,它进入了新的综合的过程。知识图谱在理论上并没有特别大的进步,因为这些工程包括逻辑推理几十年来一直都是这样。进步的地方在哪里过实践发现,我们要想实现一个人工智能非常复杂的分支,其实是没有办法用那种学院派办法来做的。我们只有理论结合实际,甚至从实践中出发总结出产品来、总结出语言来,这样东西的生命力远远大于一群专家坐在屋子里讨论出来的。

知识图谱的领域从 2006 年往前一直不断从弱语义到强语义的发展过程中,这个阶段最后被证明是不太成功的。2006 年之后这个领域不断的强调工程、强调应用、强调数据、强调跟实践最相关的东西,语义也进一步弱化,又从强语义再次回归到弱语义。2012 年谷歌的知识图谱是完全抛弃掉语义的。

从二十年来的历史表明,从实践中总结的方法要优于从顶向下设计的方法。如果你有一个很好的想法或者一个很好的语言,并不能保证别人就能够用起来,除了要贴合用户的需求之外,还有大量工具工作和生产工具的工作,这就形成了产业链。

所以在知识图谱领域,我们不能狭隘看它的某一种语言或者某一种技术,它是一个体系的,就是一大堆结构化数据从生产到存储到检索的全流程工具丰富程度,才决定这个技术能不能落地。简单的优于强大的,太过复杂的比如 OWL 最终用不起来,反而比较简单的的像 RDF、最近比较火的 JSON – LD 用得越来越多。越简单越好,这就是 20 年来最核心学习到的东西。

展望

知识图谱从 2015 年之后,就在实践中应用越来越广泛。经过这几年培育,在不同的领域里,像医疗、法律、金融都已经有比较好的公司建立起市场口碑了。相信知识图谱还会向更多其他的垂直领域进行渗透。

我们这几年时间最主要的工作,不管在中国,还是在美国,都是促进了知识图谱工具的建设。这是我今天晚上第三次强调工具了,如果你离开一整套的工具链条的话,比如校验工具、编辑工具、检索工具、推理工具,开发是非常难做的。

知识图谱本质上来说是一种程序,它是为了机器理解世界是什么时写的一种程序。知识工程和软件工程一样,需要很多人在一起协作才能够做好。我们经过这几十年软件工程总结出一整套的打法来,可以让比较笨的人或者专业度不那么强的人,也可以去做开发工作。对于知识工程而言,目前没有达到那个点,这就是为什么知识工程那么贵的原因。但是我相信今后一段时间内工具的建设会不断改善,我们自己也在做一些工具,将来会提供给大家用。

相关资料

下面是是跟语义网有关的参考资料,我刻意没有去列近期的东西,因为绝大多数重要的东西在 2012 年前就有了,2012 年之后的东西没有那么太必要搞明白,我们优先把这个领域本源的东西看一下,相信对大家是有价值的。如果大家对英文还 OK,我建议大家读读 W3C 一系列标准,包括 RDF 有一个入门指南写得非常好,OWL 也有一个入门指南是我参与写作的。

总的来说,到目前为止知识图谱在中国没有特别好的书来讲,王昊奋、漆桂林、陈华钧老师他们正在写。其他的包括知识抽取、知识检索工具的总结在 W3C 上也有,欢迎大家去看一看,可以解惑。

The Semantic Web

知识表示 + 知识推理理

  • RDF
  • RDFa
  • JSON – LD
  • RDFS

OWL:

  • OWL 1

  • OWL 2

Prov

More Inference & Reasoning: RIF

SPARQL based reasoning:Description Logic Primer

知识检索:
  • SPARQL

  • SPARQL Tools

知识抽取:

Information Extraction:

  • PDF 1

  • PDF 2

Entity Linking

Book


本文首发于GitChat,未经授权不得转载,转载需与GitChat联系。

阅读全文: http://gitbook.cn/gitchat/activity/5b5afb1e6975083f90251648

您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。

FtooAtPSkEJwnW-9xkCLqSTRpBKX

文章知识点与官方知识档案匹配,可进一步学习相关知识MySQL入门技能树内置函数JSON函数31830 人正在系统学习中 相关资源:世新砸蛋抽奖软件V2.3.10官方安装版-其它代码类资源-CSDN文库

来源:蔚1

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年10月23日
下一篇 2018年10月23日

相关推荐