多模态信息提取的发展研究-中国期刊网

首页 > 《中国科技信息》 > 2023年5期 > 多模态信息提取的发展研究

（整期优先）网络出版时间：2023-08-09

作者: 王韬

建筑科学 >建筑技术科学

打印

同系列资源

/ 3

多模态信息提取的发展研究

王韬

西南电子技术研究所四川成都 610000

摘要：现代社会中，信息量越来越庞大，不同媒介形成了各自的信息平台。如何从这些平台中有效地提取出有用的信息，已经成为一个重要的话题。在信息提取领域，多模态信息提取是一个备受关注的领域。多模态信息提取技术旨在将多种类型的信息，如文本、图像、音频和视频等，结合起来，形成有关于问题的全方位理解，并将这些信息转化为结构化的数据形式，使得人工智能可以通过这些信息来执行任务。在过去的几十年中，多模态信息提取技术已经成为人工智能研究中的一个重要领域，并在计算机视觉、语音识别、自然语言处理、知识图谱等多个领域的应用中得到了广泛的应用。本文将从多个方面对多模态信息提取的发展进行研究和分析。

关键词：多模态信息抽取；大模型；深度学习；自然语言处理；

随着网络技术和计算机科学的发展，人们可以通过不同渠道获得各种各样的信息，包括文字、语音、图像、视频等。针对这种情况，多模态信息提取技术被提出来了。它旨在从多种来源的信息中提取出有用的信息，通过深度学习、自然语言处理、图像处理、数据挖掘等多种技术手段来帮助人们更快更准确地获得所需信息。在不同的应用场景中，多模态信息提取可以被使用，例如信息检索、机器翻译、自动问答、智能图像识别等。

一、多模态信息提取基本概念

（一）多模态数据的形式与特点

多模态数据可以从多个角度分类，如数据类型、数据来源、数据表达等。从数据类型的角度看，多模态数据可以分为以下几类：

（1）图像与文本

图像是一种直观的数据形式，它可以通过计算机处理最终被转化为数字形式。文本是一种复杂的符号系统，它是人类表达和传递信息的基本工具。图像和文本常常结合在一起形成多模态数据，例如图片注释、视频标题、用户评论等。

（2）语音与文本

语音是一种声音信号的形式，是人类用于表达和传递信息的主要工具之一。文本是人类用于书面表达和传递信息的一种符号系统。语音和文本常常结合在一起形成多模态数据，例如语音转写、字幕翻译、语音识别等。

（3）图像与语音

图像和语音可以通过结合来提供更加丰富的信息。例如，视频既包含图像，又包含了声音。通过同时分析图像和声音，可以获得更加全面、准确的信息。

从数据特点的角度来看，多模态数据具有以下几个特点：

（1）异构性

多模态数据通常来自于不同的源头，表达方式和结构也各异。例如从图像中提取特征和从文本中提取特征的方法都不同，因此在数据融合过程中需要注意特征的不同。

（2）冗余性

多模态数据通常包含大量的重复信息，例如视频中多次出现的场景或音频中多次重复的声音。因此，在信息提取过程中需要注意去除冗余信息，以确保提取的信息更加准确和有用。

（3）不确定性

多模态数据常常含有噪声和不确定性，例如图像中的模糊、文本中的歧义以及语音中的口音等。因此，在信息提取过程中要考虑到这些不确定性和干扰因素，以确保提取的信息更加准确和可靠。

（二）多模态信息抽取定义、特点和任务

多模态信息提取（Multimodal Information Extraction）是机器学习和自然语言处理研究的一个子领域，指的是从多种形式的非结构性数据如文本、图像、视频、音频等多种媒介中，动提取有用的信息和知识。多模态信息提取任务通常包括感知和理解多个模态数据以及将其结合起来实现更高级别的信息抽取。在许多现实生活中的应用场景，数据往往同时包含不同的媒介，例如识别图像中的物体和人物、识别视频中的行为和情感，以及从语音信号中识别语音内容等。

多模态信息提取的特点主要体现在以下几个方面：

（1）数据来源多样

多模态信息提取需要处理来自多个不同来源的数据，包括文本、图像、视频、音频等多个媒体类型。不同的媒体类型拥有各自的数据特征和表现形式，因此在数据预处理和特征提取方面需要考虑这些差异。

（2）多模态数据整合复杂

由于不同媒体类型的数据表现形式不同，多模态信息提取需要将来自多个模态的数据结合起来进行处理，以实现整体信息的提取。

（3）知识表征多样

多模态信息提取任务目标通常是提取出并表示出来有用的知识或信息，而这些信息可能涉及到多个维度，例如文本、图像、视频中的识别、分类、聚类、关联分析等。因此需要对其中的各种知识或信息进行多维度的表征。

（4）涉及多个领域

多模态信息提取的研究领域涉及到多个领域和技能，例如计算机视觉、自然语言处理、语音识别、机器学习、人机交互等，要想对多模态信息提取有深入了解和研究，需要有跨学科的知识和技能。

（5）应用领域广泛

多模态信息提取的研究成果可以应用于多个领域，如自然语言处理、智能搜索、智能图像识别、智能视频分析、情感分析、场景理解、机器人技术等领域。同时，它还可以被应用于自动语音识别、自动翻译、图像描述、视频标注等方面，以及人工智能、智能家居、智能交通等领域。

多模态信息提取的任务可以被划分为三个主要类别：

（1）多模态信息融合（Multimodal Fusion）

多模态信息融合是指将不同媒介的信息结合在一起，共同进行统计和处理，最终提取出有意义的信息。这需要对不同媒介之间的相关信息进行建模，并运用深度学习、传统监督式或无监督式机器学习等方法对数据进行处理和建模。例如，在视频中识别人脸和语言，通过融合听觉，视觉和语言特征，可以更准确地识别人物并理解他们所说的话。

（2）多模态事件识别（Multimodal Event Recognition）

多模态事件识别是指从多模态数据中识别出特定事件的过程，这可以用于许多应用场景包括安全监测、疾病诊断等。在此任务中，需要借助机器学习技术来识别和理解各种数据类型间的关系，结合处理视频、语音、文本等不同媒介的信息。例如，在识别一个音乐会的过程中，使用图像识别技术来识别出在舞台上和观众席上的人，使用语音分析技术来识别出音乐类型，并结合这些信息来理解整个音乐会。

（3）多模态知识抽取（Multimodal Knowledge Extraction）

多模态知识抽取是指从多模态数据中提取出有意义的知识，这些知识往往可以用于自然语言处理、机器翻译和语义网等应用中。例如，在多模态数据中提取出包含某些关键词的实体，建立图片的语义描述等。实现此任务的过程中需要利用一系列技术，例如通过深度学习提取出嵌入式特征表示，将多种属性的数据整合成可识别的形式等。

二、多模态信息提取的技术发展

多模态信息提取涉及多种媒体数据（例如图像、视频、语音、文字等）的集成和分析，以从这些数据中提取和推断出有意义的信息。这是一个颇受关注的研究领域，需要跨学科的知识，包括计算机视觉、自然语言处理、机器学习和人工智能等领域。在该领域发展的过程中，相关技术也经历了多个阶段的变革。

（1）早期的多模态信息提取

早在上世纪80年代，多模态信息提取就已经出现了。然而当时的技术受限，数据量和数据类型有限，因此方法和技术的发展受到极大的制约。而且因为计算机技术尚不成熟，多模态信息的数据集成难以实现，多模态特征的效率不高。

（2）统计机器学习

在2000年左右，随着计算技术和大数据技术的迅速发展，多模态信息提取的技术也得到了发展。此时，数据集成和特征提取成为了研究重点。特别是统计机器学习方法，如主成分分析和支持向量机等方法成为多模态信息提取的主流技术。这些方法可以对多种数据进行集成，得到更加复杂和多维的特征。

（3）深度学习

近年来，随着深度学习技术的发展和应用，多模态信息提取的技术取得了显著的进步。主要的改变是深度神经网络的应用。神经网络可以通过自主学习，自动地提取输入数据的特征，从而实现了对多模态数据信息的更细致的提取。深度学习技术的发展使得多模态信息的特征提取和数据集成变得更加容易和有效。此时深度学习的变革推动了多模态信息提取的新一轮技术进步。

（4）增强学习

近年来，增强学习逐渐被应用于多模态信息提取。增强学习技术可以通过纯粹的在线学习和实践来提高模型的性能。增强学习技术可以将多模态信息提取与自适应控制系统相结合，进一步增强了系统的智能性和适应性。增强学习的应用推动了多模态信息提取的技术发展进入了新的时代。

三、利用大模型进行多模态信息提取

随着深度神经网络架构的发展，大型模型已成为实现新一代自然语言处理和视觉问答系统的重要组成部分。大型模型的成功得益于在训练期间对大量数据的利用，可以包含数十亿个参数，并在各类自然语言处理和视觉任务上达到了顶尖的性能。也因此，大型模型在多模态信息提取中也被广泛研究和应用。

（1）让特征提取更快更准

在多模态信息提取中，需要同时处理多个数据源，例如文本、图片、音频等。这些数据源具有不同的特征表达方式，需要分别进行处理，然后再进行融合。如果使用传统的机器学习方法，需要手动设计特征提取方法，其复杂度非常高，并且不同的应用场景需要设计不同的特征提取方法。而大模型则可以自动提取有用的特征，从而减少了特征工程的复杂度。以最近比较流行的语言模型BERT为例，它可以对输入的文本进行编码，得到每个单词的向量表示，这些向量表示也可以用于下游任务的处理。在多模态信息提取中，如果需要处理的数据源包含文本，可以使用BERT等大模型自动提取文本特征，从而让特征提取更快更准。

（2）实现多模态信息融合

在多模态信息提取中，需要将不同的数据源进行融合，从而得到更准确的分析结果。例如，在视听识别任务中，需要将视频和音频两个数据源融合在一起，从而识别出视频中的语音信息。而大模型可以帮助实现多模态信息融合。以跨模态语音识别为例，需要将语音信号和视频信号进行融合，从而提高语音识别的准确率。此时可以使用多模态模型，例如VGGish+CNN-BiLSTM-CTC模型，其中VGGish是一个用于提取音频特征的模型，CNN-BiLSTM-CTC模型是一个用于处理文本的模型，通过将两个模型的输出进行融合，可以有效提高跨模态语音识别的准确率。

（3）实现更高的准确率

在多模态信息提取中，需要同时处理多个数据源，需要处理的数据量很大，传统的机器学习方法往往很难处理大量数据并且同时保证准确率。而大模型因为可以自动提取特征和实现多模态信息融合，可以更好地处理大量数据，并且提高准确率。以自然语言处理中的情感分析为例，需要将文本数据转化为情感标签，从而判断文本的情感色彩。而大模型可以通过大量无标注数据的学习，学习到更丰富的语义信息，从而提高情感分析的准确率。

四、多模态信息提取的应用

多模态信息提取技术在许多领域中得到了广泛应用，包括：情感分析、自然语言生成、信息检索、语音识别、人机交互等等。

（1）情感分析

在社交媒体等应用场景中，人们常常会发表一些言辞来表达自己的情感。情感分析能够自动地分析这些言辞，并且判断它是正面的，还是负面的，或者是中性的。多模态信息提取可以将不同来源的信息融合起来，对文本、图像和视频等内容进行情感分析。

（2）自然语言生成

自然语言生成是一种能够根据输入的信息和语境自动产生文章、对话和摘要等自然语言的技术。多模态信息提取在自然语言生成中起到关键的作用，通过不同的数据源，抓取更为丰富的信息，并融合起来生成更为准确的语言表达。

（3）信息检索

信息检索是指利用计算机技术从大规模的文本、图片和视频资料中自动提取指定的信息。多模态信息提取可以实现文本、图片和视频等各种类型的信息检索。

（4）语音识别

语音识别是将语音信号转化为文本的一项技术。多模态信息提取可以将其他类型的信息，比如文本、图像和视频等，与语音信号结合起来，提高语音识别的准确率和鲁棒性。

（5）人机交互

多模态信息提取在人机交互领域也有着广泛的应用。通过使用语音、图像、传感器等多种数据源，可以更好地实现人机交互的功能，比如自动驾驶、语音交互和手势识别等。

五、多模态信息提取挑战与展望

虽然多模态信息提取可以帮助我们更全面、准确地了解问题，但是它也面临着一系列挑战和未来展望。

（一）挑战

（1）数据齐全性的不确定性

多模态数据涉及了不同领域和多个数据源的信息，这些数据的统一、标准化是一个比较大的挑战。因为不同领域数据的标准化和匹配需要进行较大的工作量和时间成本。

（2）数据量的不匹配性

多个数据源的数据量可能会有所不同，因此处理大量数据的效率问题一直困扰着多模态信息提取的研究者。

（3）数据的异构性

不同数据源的数据不仅形式上存在差异，而且在语言、内容和结构方面也可能存在差异。

（4）模型复杂性

由于多模态数据可能包含多个模态，例如图像、文本、语音等，在建立模型时，模型的复杂度也将大大增加。

（二）展望

（1）实践中的应用更加深入

多模态信息提取将在各种实际应用场景中发挥关键作用，例如机器翻译、自动问答、情感分析和视频识别等领域，我们将看到越来越多的实际案例确证这一点。

（2）多模态数据应用的增加

随着各种传感器技术、智能硬件设备和大规模数据的出现，促使了多模态数据相关领域的繁荣发展，也将为多模态信息提取带来更多的机会和挑战。

（3）新技术的涌现

人工智能技术如深度学习、卷积神经网络、强化学习等技术将会继续在多模态信息提取领域进行应用和优化，也许还有前沿技术的涌现使得多模态信息提取变成更准确、高效、可靠和智能化的方向发展。

六、结束语

多模态信息提取是人工智能领域的重要分支，在实践和研究中面临着诸多挑战，但其在各种实际应用场景中也被广泛使用。未来，随着技术的发展和数据资源的增加，多模态信息提取将变得更加方便、高效和智能。

参考文献：

[1]吴友政.多模态信息处理前沿综述：应用、融合和预训练[J].中文信息学报.2022(05)

[2]景丽.融合知识图谱和多模态的文本分类研究.计算机工程与应用[J].2023(02)

[3]李港乐.基于深度学习的多模态情感分析算法研究[D].兰州理工大学.2022

[4]钱真.视频多模态信息处理的关键技术研究[D].哈尔滨工程大学.2012

[5]任泽裕.多模态数据融合综述[J].计算机工程与应用.2021(18)

同系列内容

查看全部

来源期刊

中国科技信息

2023年5期

多模态信息提取的发展研究

多模态信息提取的发展研究

来源期刊

相关推荐

同分类资源更多

相关关键词

多模态信息提取的发展研究

多模态信息提取的发展研究

来源期刊

相关推荐

同分类资源 更多

相关关键词

同分类资源更多