0

    【微课堂】知识图谱漫谈

    2023.07.13 | admin | 126次围观

    在社交网络中,有一个著名的理论:“最多通过六个人,你就能够认识世界上的任何一个陌生人。”如果把每个人看作实体,找出人与人之间的联系,其中涉及的就是建设知识图谱的技术。

    如果把实体扩大到除了人之外,例如加入机构、事件等不同的类型,同时,建立起这些实体间的不同种类的关系,当实体数量足够多、关系类型足够丰富、数据足够准确的情况下,就构成了一个可以用来深度分析探索人物、机构、事件及其之间关联网络的知识图谱。

    道可道,非常道——知识图谱的一些是是非非的概念

    妄图通过三言两语把知识图谱中的所有概念说明白是比较困难的,更何况还有很多理论至今尚未形成定论。不过,笔者在此还是希望通过一张图把一些理论知识做一个直观的表示。

    从狭义方面来说,知识图谱本质上是大规模语义网络。语义网络是一种以图形化的形式,通过点和边表达知识的方式,譬如常见的网络拓扑图、关联关系图。其中的点可以是实体、概念和属性值。

    实体[1](Entity)是不依附于其他东西的、可以独立存在的具象的事物,比如图中的特朗普其人、宾夕法尼亚大学。概念[2](Concept),是把独立存在的、具有相似性的一类实体进行归类,形成范畴化、概念化的描述。概念与概念之间有子类(subclass of)关系,即概念可以是多级的,例如特朗普属于“国际政要”,“国际政要”是“政治人物”的子类,“政治人物”又是“人物”的子类。相应地,实体作为概念的某个具体存在,则是概念的实例(instance of)。属性值(Value),用来描述实体的一些组成特征的具体的值,通常依附于实体,如单独说1.9米是没有意义的动态网页技术有哪些,而“特朗普的身高是1.9米”则是有意义的。

    知识图谱的边包括属性与关系。其中属性(Property)描述实体某方面的特性,例如人物的身高、职业、出生日期等。关系(Relation)也可以认为是一类特殊的属性,当某个实体的属性值是一个实体时,这个属性实质上就是关系,比如特朗普的配偶是梅拉尼娅,“配偶”则可认为是一条关系。关系通常具有方向性,用于连接并表征两个实体之间的联系。

    重点说说本体(Ontology),本体是人类的认知框架,定义本体就是让机器遵循我们人类的“世界观”,例如图中“国际政要”本体所示,我们定义了的国际政要的属性及其值类型(包括出生日期Date、党派String、身高Number、职业String)、相关的概念(包括政治人物、人物、学校)以及关系(配偶、对立、接受教育),通过建立这种认知框架,就能将各类数据转化为我们人类所理解的知识。

    建设知识图谱最主要的一个方面就是定义本体,这个过程需要依赖于人,否则就可能违背我们的认知框架。具体来说,在业务场景中只有按照业务人员的实际需要定义出来的本体,才能解决相应的业务问题。任何想让机器无中生有的企图最终都会走向失败!既然是人为定义,就会存在不确定性,因此,动态本体(Dynamic Ontology)应运而生,即动态地去对本体进行维护管理,如修改、添加、删除概念、关系、属性等。

    正是有了这些认知基础,知识才能被抽象出来,也才能让机器去“理解”和“解释”我们人类的知识。

    尘尘混入,刹刹圆融——知识图谱背后的技术组成

    前文算是对知识图谱的外在图形化表现形式做了一个简单的分析。然而知识图谱不仅仅是图谱,其背后的技术组成是复杂和庞大的,换言之,知识图谱在广义上具有更丰富的含义。

    知识工程旨在让机器利用专家知识以及推理能力解决实际问题,在大数据时代和实际场景下,知识图谱作为一种技术体系,是知识工程的一系列代表性技术的集合体。具体而言,作为一门学科,知识图谱属于人工智能范畴,作为知识表示的形式之一,为知识工程的应用提供解决方案。不过需要强调的是,除了知识图谱或语义网络外,知识表示的形式还包括谓词逻辑、规则、决策树等,它们共同构成了表达现实世界中的各种复杂语义与逻辑。

    按照计算机学科领域来分,知识图谱密切相关的学科包括自然语言处理、机器学习、数据库、知识表示等动态网页技术有哪些,涉及的典型技术点如实体识别、同义词挖掘、缩略词抽取、关系抽取、图数据存储、子图查询、路径查询等。

    让凯撒的归凯撒——知识图谱适合用来解决什么问题?

    知识图谱可以在广泛理解人类知识的基础上针对人类的需要快速准确作出解释乃至推理。如果用知识图谱来帮助人们解答问题,例如针对“怎么样才能进入空天院?”这个问题,可以通过知识图谱构建空天院涉及的技术、招聘要求、招聘网站等属性或关系,机器从而可以“告知”提问者应该具备的专业素养、求职途径等。又如针对“空天院为什么那么牛?”这个问题,可以利用知识图谱中与空天院相关的院士、国家奖项、主要科研成果等实体及其地位属性、重要性关系等进行阐释和印证。

    知识图谱的更多应用仍然在探索和明确中,当前,知识图谱在解决认知智能方面,发挥的作用日益明显,例如大数据精准分析(如舆情分析、商业情报分析)、智慧搜索(如搜索意图识别)、智能推荐(如搜索推荐、内容推荐)、自然人机交互(如问答系统、对话机器人)、决策支持(如链路分析、关系挖掘)。仍然以本文开头的人物之间的关系挖掘为例,针对金融行业寻找潜在客户业务这一典型应用场景,基于银行客户建立社交关系网络知识图谱,业务人员便能够根据各种社交通联行为或属性(如交往方式、频次、居住地等),对关注客户相关的主体(如亲属、朋友、同事、同学甚至陌生人等)进行挖掘,同时评估关系紧密度,从而发现潜藏在关系网络中的其他客户。

    总的来说,知识图谱的应用与它的特点是分不开的,知识图谱的特点是规模巨大、语义丰富、质量精良、结构友好。知识图谱强调对各类概念下的实体的覆盖,同时通过大量的语义建模帮助机器更准确地理解和解释现实世界中的语义关系,此外依托多源大数据的高质量知识图谱能够实现对事实的交叉验证,相对于文本形式的知识表示而言,结构化的知识图谱更容易发挥机器认知的特性。

    知识获取与传承是人类社会的根本目标,而知识图谱俨然已成为大数据时代人类社会知识表达和承载的重要方式。相信在不久的未来,类似于“互联网+”的“知识图谱+”将能够把更多更复杂的业务场景和知识赋能机器,衍生出更多的应用。

    ——————

    [1] 实体(Entity),也被称为对象(Object)或实例(Instance);

    [2] 概念(Concept),也被称为类别(Type)、类(Category、Class)。

    以上内容由苏州研究院地理空间信息系统研究室付啟明提供。

    版权声明

    本文仅代表作者观点。
    本文系作者授权发表,未经许可,不得转载。

    发表评论