随着数据资源类型的丰富与大模型技术的发展,能够处理多源异构数据的多模态知识图谱(multimodal knowledge graph,MMKG)以出色的数据处理与管理能力而被广泛关注。结合领域需求与特性,对多模态知识图谱 构建技术及其在军事领域的应用展开总体概述。基于传统文本知识图谱的相关概念,对多模态知识图谱的基本概 念、研究现状进行梳理,分析总结了多模态信息抽取、多模态实体链接、多模态表示学习三个多模态知识图谱构建的 关键技术,以及大模型技术在多模态知识图谱构建过程中的应用,探讨了多模态知识图谱在军事领域中的应用场 景。最后结合大模型热点和军事需求,对多模态知识图谱构建技术的发展前景及军事应用进行总结与展望。
19世纪,德国理学家赫尔姆霍茨在生物学领域提出 了模态(modality)这一概念,特指生物凭借感知器官与 经验来接收信息的通道。在工程领域,模态是指在雷 达、红外线、加速度计、电磁波等多种通道内传输的文 字、图片、语音、视频等信息类型。多模态是指将多种模 态数据在计算机内进行融合交流、协同作用的状态[1] 。 2012年,Google公司提出知识图谱(knowledge graph, KG)的概念[2] 。知识图谱旨在描述客观世界的概念、实 体、事件及其之间的关系[3] ,本质上它是以实体、属性等 为节点,以实体、属性之间的语义关系为边而形成的语 义网络图,实体、关系、属性在早期知识图谱中都是以文 本形式存在。随着海量多源异构数据的剧增以及传播 媒介中信息载体的变化,视觉、听觉等模态信息逐渐取 代文本模态信息成为信息传播的主要载体,社会各领域对知识图谱的需求已经不再满足于单一的文本符号表 示,开始提出将文本、视觉、听觉等不同模态的信息融合 在一起来增强知识表达的需求,但由于多模态数据之间 存在异构性,多模态数据并没有得到很好地处理和利用。 在 2022 年 OpenAI 推出 ChatGPT 自然语言处理模 型之后,OpenAI相继推出了GPT-4 Turbo多模态数据处 理模型、Sora文本转视频模型[4] 、Voice Engine语音生成 模型等多个包含大语言模型(large language model,LLM) 和多模态大语言模型(multimodal large language model, MLLM)的生成式大模型,实现了从自然语言处理向多 模态数据处理的巨大跨越,但因生成内容缺乏事实真实 性和可靠性,使得大模型面临着人工智能幻觉、专业领 域实用性差等重大挑战。知识图谱具备准确、专业的知 识库,对事实性、专业性的知识处理具有非常高的准确 性和可靠性,可以用来弥补大模型存在的弊端,但当前 知识图谱专注于处理单一模态数据,缺乏对多模态数据 的处理能力,因而多模态数据之间的隐含关系并没有得 到有效利用,无法有效完成信息融合、推理等工作。 随着阿里巴巴集团新零售多模态知识图谱 AliMe MKG[5] 、M2 ConceptBase[6] 等多模态知识图谱的开发与应 用,多模态知识图谱因拥有类型和数量更为全面、准确 的知识库和强大的多模态数据处理能力而被广泛研究, 其能够消除多模态数据之间存在的异构性,并根据不同 模态的数据关联挖掘隐含信息,实现知识融合、推理等 热门应用。因此,在知识图谱的基础上,研究者们展开 了对多模态知识图谱的构建和应用的研究。Zhu等人[7] 综述了多模态知识图谱的构建工作、在处理特定问题时 的优势、在技术与实际层面的应用以及发展前景和挑 战,分析了多模态知识图谱结构和应用中不同解决方案 的优缺点。Peng 等人[8] 综述了现有多模态知识图谱构 建原理的优缺点,创新性地提出将实体重命名为节点, 重命名后节点一词包含实体、属性和概念三个范围,使 得指代更加准确,但该综述更多的是举例论证一些理 论,缺乏对关键构建技术的总结分析。Chen等人[9] 对多 模态知识图谱的发展、构建技术以及在推荐系统、生物 医学等方面的应用实例进行了全面的综述,着重讨论了 多模态知识图谱构建的关键技术。陈烨等人[10] 综述了 多模态知识图谱的构建方法和技术,以及在推荐系统、 人机交互等方面的应用,归纳了基于属性和基于实体的 两种构建方法的主要思路,但缺乏对现有构建技术的对 比分析。陈佳云等人[11] 首次对多模态知识图谱在农业 领域的研究展开综述,并对农业多模态知识图谱在农业 智能问答、病虫害识别等方面的应用展开详细介绍,但 对于多模态知识图谱的构建技术并没有进行深入调研 与分析。 军队信息化与智能化不断发展,军事领域涌现出大 量以地理信息、目标定位为代表的结构化数据,和以视 频、图像、音频以及文本为代表的非结构化数据,甚至还 包括人类指挥人员和参谋人员的指挥艺术、作战风格等 隐性认知知识,这些数据呈现要素维度多、来源范围广、 术语专业性强、更新迭代慢、可移植性与交互性差、欺诈 性等特点,以人工为主的数据处理模式和单一文本模态 知识图谱难以有效应对,满足不了军队信息化、智能化 发展的需求。随着深度学习和大模型技术的发展与成 熟,涉及多模态数据处理的信息获取、信息融合、推理预 测等技术得到创新突破,军事数据呈现的弊端逐步被解 决,多模态知识图谱逐渐成为应对军事领域存在的多重 挑战的重要途径,并取得了一定的成效。 通过上文分析发现,现有多模态知识图谱类综述缺 乏对大模型技术在多模态知识图谱构建过程中的运用 进行梳理与总结,并且文章聚焦于通用领域的应用,少 有文章系统梳理多模态知识图谱在军事领域的应用实 例、挑战以及发展前景等。因此,本文拟从技术和应用 视角出发,在现有多模态知识图谱构建技术的基础上, 创新地综述大模型技术在多模态知识图谱构建过程中 的运用以及多模态知识图谱在军事各领域的应用实例 和发展前景。