首页
产品中心
因朵服务
部署方案
案例展示
新闻动态
关于我们
新闻动态

NEWS

您的位置 :首页 > 新闻动态

基于档案数字资源的多模态知识图谱构建研究——以高校档案馆馆藏为例

时间: 2025-04-14 09:09:49 浏览量:175
字号:
分享到:

在数字人文方兴未艾、新兴技术迅猛发展、档案数字转型走向纵深的背景下,社会各界对档案资源的深度开发与利用需求与日俱增。高校档案馆作为学校档案工作的业务主管部门,收集保管学校在招生、教学、科研、管理等活动中形成的有保存价值的各种文本、图片、音频、视频等不同模态的历史记录并提供利用。然而,在档案数据库建设过程中,不同模态的数字资源通常按其所属门类分别组织,缺乏跨模态的关联,存在“模态孤岛”现象。主要表现为内容覆盖性不全、资源多样性欠缺、档案关联与语义性不足、利用智慧性不够、检索深度与灵活性不强等,难以进行资源的全局利用。亟需开展基于多模态档案数据及其关联的深层次挖掘与智慧化档案服务研究。

本研究以高校馆藏跨模态、多类别的档案数字资源为对象,探索运用知识挖掘、语义推理等技术深度重构档案资源组织形态。在传统知识图谱的基础上,增加图片、音频、视频等多种模态数据以丰富符号知识表达,从组织机构、学者、学科、科研、专业、学生、教师、课程、活动、专题等不同视角维度,构建多模态档案知识图谱,使用语义化技术实现多模态档案数据的高维挖掘与关联,深度重构档案数字资源建设路径,为提升档案开发水平和改善档案资源服务手段提供参考。

多模态档案数字资源

档案数字资源,一般包含原生电子档案和数字复制件,描述内容、背景、结构和管理过程的元数据,以及档案数据化成果等,具有文本、图片、音频、视频等多种模态形式。如何直观地表达、有效地抽取这些档案数字资源中的实体概念及其关系,并实现融合开发与智慧利用,是一个有挑战性的问题。

知识图谱作为一种结构化的知识表达方式,本质上是一个以实体概念为节点、以概念之间的各种语义关系为边界的大规模语义网络,能够对知识进行高效、全面、准确地表达和处理,是大数据时代研究和利用知识的有力工具。不同于目前火热的生成式人工智能技术,知识图谱这种以结构化数据作为对象的语义智能,具有天然的准确与真实性,而不用担心其语义“幻觉”。

多模态知识图谱相较于传统的知识图谱,实现了对多种模态实体的支持,可以对多种模态实体间的多层次语义关系进行关联,能够很好地应用于多元数据的组织、分析与关联。国内外关于该技术的发展与应用研究已经有了一定的积累。以 IMGpedia、MMKG、Richpedia等为代表的多模态知识图谱系统已经验证了对多模态类型数据组织关联的可行性和先进性。

《“十四五”全国档案事业发展规划》提出,积极探索知识管理、人工智能、数字人文等技术在档案资源深层加工和利用中的应用。多模态档案知识图谱的构建与智慧化服务研究正是对此要求的回应,是进一步优化馆藏资源结构、利用好档案资源的有效方法。其融合不同模态的档案资源,采用类自然语言或特定查询语言的接口,提供多模态数据的可视化展示和交互式分析功能,以直观和易理解的方式,形成档案资源的全面视角,实现档案服务的智慧化。同时,具有细粒度内容、多维度语义关联的优势,对于深层次的数据挖掘与知识发现,以及创新利用有着重要应用价值。

多模态档案知识图谱构建

从档案数据的基本特征出发,建立融合实体与属性模型的多模态档案知识图谱MMAKG(Multi- Modal Archive KnowledgeGraph,MMAKG)框架。其中,实体是基本单元,代表现实世界中的对象,如地点、人物、事件、主题、责任者及组织机构等元数据著录项等。关系是连接不同实体的纽带,表示实体间的各种相互作用和联系。属性是对实体的描述和补充,提供了关于实体的详细信息。

MMAKG构建的首要任务是跨模态建模,将不同模态的数据在符号层面上统一到同一个共享的表示空间中。通过对多模态档案实体及其关系进行抽取与链接,可以形成关系网络,并将不同模态实体之间的关联关系呈现出来,提高了知识图谱的连通性和一致性,使知识之间的联系更加清晰可见。

文书、照片、录音、录像等不同门类的档案元数据,已有特定的国家或行业标准加以规范,通常以半结构化或结构化形式存储,可用以界定档案实体概念及其关系。但因档案元数据涉及面广,使得多模态数据的关系十分庞杂,从知识的利用角度,存在长尾现象。同时,在多模态数据的融合中,又进一步引入了大量潜在的关系。加之在实际应用中,大部分的显式语义关联仅存在于低阶的核心关系中。因此,多模态档案关系的选取大为必要。

有效地确定跨模态建模过程中各实体之间的必要关系,使知识图谱既能够准确地反映档案资源的关联和语义,又不会导致语义膨胀,需从两个方面进行解决。

一是解决跨模态必要关系的选取。首先充分利用档案资源的元数据信息,通过计算关系的权重、关系的频率等,识别出档案资源中最重要和关键的关系。其次分析已有的多模态数据,利用图片、音频或视频内容分析、音频特征提取等手段,探索其中潜在的关系,并根据节点中心性、网络连通性等方法选取多模态数据中的必要关系。

二是解决复杂关系的分解。关系分解是指将复杂的关系拆解成更加简单、易于理解和建模的子关系,以便于降低MMAKG的复杂度,提高可解释性,并且使其更容易进行检索和推理。例如,可将“家庭关系”分解为“父子关系”“母子关系”等子关系。通过建立关系的分类与关联图谱,利用图神经网络或者传统的图算法进行分析,实现复杂关系的分解。

知识图谱的核心要素在于实体与关系,实体的正确且唯一指代,是保证MMAKG可用性的前提。对于高校档案资源而言,存在着众多学术名词与缩略词,这些实体往往一词多义。如,NPL在经济学中代表不良债权(Non-Performing Loan),但该词也是国家物理研究所(National Physical Laboratory)的简称。除了一词多义,还存在不同表达形式对应同一实体的情形。如,中山大学本部与南校区均指称中山大学南校园。因此,需要针对档案数据的领域特征,建立与之匹配的实体消歧与对齐方法。

档案实体消歧是根据上下文信息把具有歧义的命名指称映射到其真实的实体概念上,消除一词多义(一个指称对应多个实体)的现象,并在MMAKG中生成对应的唯一节点,从而消除重复,减少冗余信息,提升多模态知识图谱质量。

档案实体对齐则通过对两个或者多个不同表达的实体是否为指向真实世界中同一个对象进行判断,如果多个概念表征同一个实体,则在这些实体之间构建对齐关系。目的是消除不同的数据源中由语言、技术标准等因素而产生的实体信息之间的差异性,丰富知识表示,提高知识图谱连通性,以便跨知识图谱的知识共享和交互。

多模态数据的融合

当一个模态信息中对某个实体的描述不够全面时,可以利用另一种模态的信息进行弥补充实,即为跨模态信息融合。多模态档案知识图谱的重要意义正在于将不同模态的数据融合到同一空间,以充分挖掘不同模态数据之间的关联和互补性。通过将不同模态的档案信息关联起来,提供更加丰富和深层次的信息,有利于增强档案资源的语义完整性,获取更全面的信息视角,为档案智慧化利用奠定基础。

多模态档案知识图谱三元组的融合问题可分解为实体融合、属性融合、关系融合3个子问题。从文本实体出发,遍历节点的邻接关系与邻接节点,在这一过程中,可考虑对文本数据利用规范元数据进行导航,通过元数据引导多模态数据的融合。对于非结构化的多模态数据,比如将图片融合到对应的人物实体,则还需要同时建立多模态数据特征提取、跨模态相似性计算与匹配等算法,从而完成实体、属性与关系的融合。

同时,多模态档案数据融合的边界与顺序问题也需要明确,这也涉及融合的粒度问题。粗粒度的融合是将整个模态信息作为对象来进行融合对齐,如,整张图像对应一个实体。而精细化融合是将模态内部的子对象层面进行融合,粒度大小的选取与多模态数据融合的边界密切相关。多模态知识图谱的构建将通过先从单一节点进行纵向高阶生成,再横向穷举单一节点的所有关系的方式产生。

要注意的是,大规模多模态数据的融合过程可能会因实体、关系、属性、时态、事件等匹配错误,或因实体、属性消歧及关系分解与语义理解不足,而产生逻辑谬误、前后矛盾、事实错乱等问题。同时,多模态数据融合中的信息冗余与重叠,还会导致信息不一致甚至出现冲突等情形。因此,MMAKG必须针对这些现象建立相应的检测与修正机制,确保档案知识的真实性。可从以下两个方面实施。

一是采取依存级语义蕴含的一致性检测。利用知识图谱中的有向边关系,构造语义依存弧,通过对融合生成中的每个依存弧的语义关系进行自动推理,主动识别三元组中知识或事实的不一致性,并准确定位且修正其不一致部分。

二是面向档案事实的正确性检测与验证。因档案资源的特殊性,利用自动化方法和人工校对相结合的方式来处理数据的正确性问题,通过随机遍历,对高维关系下的实体及其关联进行人工核对与验证。同时,对于有问题的数据进行校准并做出标注,从而为神经网络、深度学习等人工智能自动处理方法提供训练语料数据。

(本文系国家档案局科技项目“多模态档案知识图谱构建与智慧化利用研究——以高校档案馆馆藏为例”〔2024-X-006〕阶段性研究成果)