基于深度学习的智慧图书馆移动视觉搜索服务模型及其技术框架研究-中国期刊网

首页 > 《科学与技术》 > 2022年12期 > 基于深度学习的智慧图书馆移动视觉搜索服务模型及其技术框架研究

（整期优先）网络出版时间：2022-09-28

作者: 吉珊珊

建筑科学 >建筑技术科学

打印

同系列资源

/ 3

基于深度学习的智慧图书馆移动视觉搜索服务模型及其技术框架研究

吉珊珊

（东莞职业技术学院人工智能学院，广东东莞，523808）

摘要：在大数据时代，智慧图书馆提出了新的发展要求。用户需要精确智能的检索工具, 而移动视觉搜索技术能够满足用户以视觉资源数据为中心的检索需求。本项目在分析国内外基于深度学习的视觉资源识别技术的研究基础之上, 构建了基于深度学习的智慧图书馆移动视觉搜索服务模式模型, 并设计了模型的工作流程将深度学习融入智慧图书馆移动视觉搜索系统中, 可以整合多源异构视觉数据、贴合用户个性化偏好以及提高移动视觉搜索系统性能，促进智慧图书馆数字化、网络化和智能化发展。

关键字：视觉搜索；深度学习；移动视觉

1、国内外研究现状、水平

自2009年David M Chen等在首届移动视觉搜索研讨会首次提出移动视觉搜索概念以来，国内外研究机构和学者对移动视觉搜索技术及其应用进行了研究，取得了一些显著成果。移动视觉搜索的应用已经出现在了电子商务、移动识别、地标搜索、印刷品查询等领域，Google、亚马逊、淘宝、京东等公司也都开展了应用尝试，建立了具有代表性的移动视觉搜索应用系统，提升了用户在移动网络环境下的搜索体验。而智慧图书馆的兴起和发展为移动视觉搜索在图书情报领域的应用开拓了新的研究方向，引起了许多学者的关注。

2、存在问题

尽管移动视觉搜索技术已经得到了深入的研究和应用，但是纵观现有研究，仍然存在以下问题：

首先，现有移动视觉搜索系统中使用的检索方法都存在一定不足，无法满足数字时代下的资源检索需求。现有移动视觉搜索系统中使用的检索方法大致可以分为基于文本和基于视觉资源内容两种方法。然而，基于文本的检索方法会由于视觉资源标签标注的不准确导致检索结果的准确率比较低；而基于视觉资源内容的检索方法则受外界因素的影响比较大，视觉资源采集环境或拍摄设备会影响检索结果。

此外，作为一个新的研究方向和应用领域，智慧图书馆对移动视觉搜索技术提出了更高的要求，以文献借阅为中心的图书馆传统馆藏服务模式逐渐无法满足读者的个性化需求。同时，智慧图书馆提供的信息资源也不再仅仅局限于文本形式的数据，而是包括了图像、视频、3D模型等在内的多种视觉载体类型，以文本搜索为主的信息资源获取方式已经不适用于视觉资源的检索利用。传统的基于关键词标注的信息检索模式成本高昂、效率较低，无法适用于大数据环境下的视觉对象检索。

3、基于深度学习的智慧图书馆移动视觉搜索服务模型构建与功能模块设定

本论文基于深度学习，构建了一个智慧图书馆移动视觉搜索服务模式模型。在该模型中，将用户的视觉检索对象作为输入数据，并利用深度学习模型提取智慧图书馆各类学术资源特征，生成特征向量，同时通过融入用户情境信息和反馈数据，实现个性、准确、交互的智慧图书馆移动视觉搜索服务。基于深度学习的智慧图书馆移动视觉搜索服务模式模型分为系统离线学习和用户在线检索两个阶段。

在系统离线学习阶段，主要是为整个搜索系统做好数据准备工作，包括提取视觉资源库中的数据特征、分析文本资源库中的文本语义、计算情境数据库中的情境信息以及获取用户知识库中的个性化需求特征。

在用户在线检索阶段，使用移动视觉搜索系统进行视觉资源检索需要将自己的检索意图通过具体的视觉检索表达方式提交给移动视觉搜索系统，良好明确的表达方式可以有效降低检索的难度，获得满意的检索结果。根据视觉资源的不同类型，检索表达的构成方式可以分为基于图像检索、基于视频检索和基于3D模型检索等，将不同的检索表达构成方式存储于视觉检索对象库中，根据待检索视觉对象数据类型采用不同的检索表达方式。

4、智慧图书馆移动视觉搜索深度学习神经网络工作流程研究

本论文通过4个子流程实现智慧图书馆移动视觉搜索深度学习神经网络工作，分别是数据获取及数据预处理、生成用户特征向量和视觉检索数据图集、通过深度学习训练网络输出视觉单词向量、通过计算相似度得到视觉检索推荐列表子流程。

1）数据获取及数据预处理

首先，获取检索所需的相关数据，包括视觉检索数据和用户历史行为数据，其中，视觉检索数据用于生成视觉检索数据图集，用户历史行为数据则用于生成用户特征向量。其次，对数据进行预处理从而实现对数据进行清洗，检查数据的一致性，过滤无用干扰信息。最后，整理数据，获取用户的ID信息，生成用户索引和视觉检索数据索引。

2）生成用户特征向量和视觉检索数据图集

首先，统计用户的有效点击行为信息，同时搭建并训练深度学习神经网络模型，将用户的检索行为记录作为模型输入得到用户的分布式特征向量表示，用于描述用户的特征信息，计算得到的用户特征向量是低维且非稀疏的，便于以此作为视觉检索推荐的数据依据。其次，建立视觉检索图集。在这个过程中，需要对视觉检索数据则根据数据类型进行不同处理。其中，对于图像类数据要为每个图片匹配其准确的语义文本表示；对于视频类数据，则通过镜头分割、关键帧提取、镜头聚类3步获得其视频图像集；对于3D模型类数据，则需要将模型进行体素化，并采用旋转、尺度变化、水平翻转、随机抠取等方法对3D模型进行数据扩充，得到相应的3D模型体素图像数据集。

通过上述过程，将处理后的图像集作为深度学习训练网络的输入，有利于视觉检索数据特征的学习和训练分类。

3）借助深度学习神经网络训练生成视觉单词向量

该子流程的功能是从视觉数据图像集中提取各种类型视觉数据的特征向量并进行识别，具体包含图像类数据、视屏类数据、3D模型体素图像数据。

对于图像类数据，利用卷积神经网络作为视觉模型，首先准备图像的深度学习训练集，根据图片语义文本内容对建立的卷积神经网络进行训练得到图像分类模型，然后利用训练好的模型对测试集中的图像进行特征提取，将图像像素向量作为卷积神经网络的输入数据；然后，对卷积特征图像作最大池采样获得池化后的特征图像，如果下一层为卷积层则继续进行卷积计算，否则执行全连接运算；最后，经过全连接层计算得到图像特征输出。

对于视频图像集，首先使用卷积神经网络提取其人物、动作和上下文环境3个通道的特征向量图，其中，卷积神经网络采用多层串联结构，上一层的输出作为下一层的输入，其参数值在训练过程识别率稳定后即为最终的参数，各个卷积神经网络层都包括若干个卷积层和池化层，卷积层对输入的视频图像集进行卷积，池化层对卷积后的二维矩阵执行池化操作，最终得到视频图像集的向量化语义描述。

对于3D模型体素图像数据集，则采用3D卷积神经网络进行特征提取，相比于应用于2D图像的卷积神经网络，3D卷积神经网络对3D数据进行卷积计算并输出另外一个3D数据，其网络结构由卷积层、池化层、整合层、全连接层和分类层组成。在池化层，对3D数据进行最大值池化操作；在整合层，对卷积层和池化层提取的特征图进行向量化，把多维向量变为一维列向量。在全连接层，将整合层得到的特征向量作为输入，通过全连接将3D模型的特征表示映射到样本标记空间中。最后，使用分类层将多分类的输出数值转化为相对概率，最终得到3D模型的特征向量。

4）得到视觉资源检索推荐列表

在完成深度学习神经网络模型的训练之后，便可以将检索用户特征向量和目标视觉资源单词向量信息输入到深度学习神经网络模型中，通过训练好的深度学习神经网络模型得到用户对目标视觉资源的预测评分值，最后按照评分值的大小顺序进行排列，将评分较高的前N个视觉资源信息生成推荐列表并推送给检索用户。

5、创新点

首先，区别于传统移动视觉搜索系统研究中主要使用基于文本和基于视觉资源内容的检索方法。本项目分利用深度学习可以对输入数据按层次进行抽象，获取数据的深层次表示特征，并通过对多源异构数据的自动特征学习，将不同数据在最初空间的表征映射到一个相同的隐空间，从而获得数据的统一表征这一特性。并且，将深度学习引入到智慧图书馆移动视觉搜索系统中，能够对多源异构视觉数据进行有效地特征提取和分类操作，并通过构建相适应的服务模式提高智慧图书馆视觉资源的利用率，为读者提供以视觉资源为中心的个性化知识体系。

其次，本论文考虑了多源异构数据的处理，包含图像类数据、视频数据和3D模型数据，贴切与数据信息时代数据的多源异质性和丰富性，更能满足智慧图书馆的建设要求和读者需求，弥补了现有研究大多仅考虑单一数据处理的不足，有效促进了智慧图书馆的建设与发展，同时拓展了移动视觉搜索和深度学习在数字领域中的应用。

6、视觉搜索对国家和我省经济社会发展的重大意义；

近几年，各行各业在加速进行数字化转型的进程中，数字化的应用也在不同的领域发挥着越来越重要作用，为行业及用户提供便捷、有效的服务，对于全球经济发展而言数字化经济是主要的发展内容。

移动视觉搜索 ( Mobile Visual Search，MVS)具有获取、处理、分析与展示视觉对象大数据资源的一体化信息检索能力，为实现智慧图书馆泛在、高效、智能的知识服务体系提供了可行的方法。博物馆、图书馆信息内容的多形式、多角度的展示及文化场景多维度的沉浸式体验，都需要通过数字化的应用来进行服务体验的升级。移动视觉搜索 ( Mobile Visual Search，MVS)有效将传统图书馆与数字化技术结合，实现图书馆的数字化转型。作为文化和教育事业的重要载体，智慧图书馆无疑将促进数字化经济的发展，渗透至高校、企业、政府等机构和人民的日常生活中。

此外，本论文将MVS应用于智慧图书馆中，集中在移动视觉对象的数据标准、紧凑视觉特征描述符的表示、提取和处理等方面，有效的拓宽了MVS方法的应用和科学研究领域，这说明MVS可以应用于更多的领域，促进社会、经济、文化、生态多个方面的创新应用与发展。由此可知，基于深度学习的智慧图书馆移动视觉搜索体系对于国家经济、社会发展具有重大意义。

作者简介：吉珊珊(1985-)，女，广东梅州人，研究生、讲师、网络工程师研究方向：计算机教育

[课题项目] 东莞职业技术学院2021年创新创业专项――基于“专业+”的高职院校创新创业教育发展的人才培养路径探究（编号：2021E03）；东莞职业技术学院2021年校级质量工程项目

――以学生为中心的OBE-BOPPPS 教学模式探索——以“Python程序设计”课程为例(JQXM202217)；广东省普通高校重点领域专项（编号：2021ZDZX1146）；2021年广东省科技创新战略专项资金（“攀登计划”专项资金）（pdjh2021a0944）；东莞职业技术学院国家双高计划电子信息工程技术专业群专项经费资助项目（项目编号：ZXF017）

同系列内容

查看全部

来源期刊

科学与技术

2022年12期

基于深度学习的智慧图书馆移动视觉搜索服务模型及其技术框架研究

基于深度学习的智慧图书馆移动视觉搜索服务模型及其技术框架研究

来源期刊

相关推荐

同分类资源更多

相关关键词

基于深度学习的智慧图书馆移动视觉搜索服务模型及其技术框架研究

基于深度学习的智慧图书馆移动视觉搜索服务模型及其技术框架研究

来源期刊

相关推荐

同分类资源 更多

相关关键词

同分类资源更多