量子计算机视觉技术在金融领域应用探析

2024-03-25  来源: 《银行家》2024年第3期

作者:吴永飞 赵勇江 王彦博

 

导语:量子计算机视觉技术是量子计算领域的一个新兴技术方向,旨在通过量子计算的特性解决现有计算机视觉任务的技术难点。本文针对金融领域合同文本识别场景,探索将金融合同文本识别中的金融数据OCR模型进行量子化改进,构建量子混合模型,并通过数据实验的方式验证该技术在小样本学习中的先进性与可行性,以期为量子计算机视觉技术在金融行业的落地应用提供新思路和新方法。

 

数字经济时代呼唤量子信息科技

 

在当前数字经济的时代背景下,以经典计算为算力支撑,以人工智能等一系列技术为算法驱动的智能经营模式已日渐成熟,并在以商业银行为代表的金融行业中发挥着举足轻重的作用。然而,日益增长的金融需求、海量数据的输入、多种模态数据融合、数据质量缺陷等问题也对经典人工智能技术提出了一系列挑战,对金融行业的数字化转型和智能化升级提出了更高要求。

 

利用量子计算的并行处理及高维度表达能力可获得量子加速及高维映射,以较低的数据成本提取最优网络框架和维度,提高网络的准确性、泛化性和鲁棒性等性能,这为数字经济时代全社会的数字化转型、智能化升级提供了量子信息科技方案。量子计算目前处于产业蓬勃发展的早期阶段,已在金融行业众多应用场景中表现出良好的应用潜力。一方面,在金融市场的模拟分析场景,由于金融市场复杂度较高,且和量子系统一样表现出一定的随机性,利用量子计算来模拟金融市场已成为学界和业界高度关注的方向。另一方面,在自然语言处理(Natural Language Processing,NLP)的语义分析场景,量子计算可以使用量子编码与量子叠加态来表达语义歧义状态[1],从而有效模拟语义环境,大大提高自然语言处理技术的运算效率,并提升模型效果。除此之外,金融领域计算机识别(Computer Vision,CV)任务中也可以看到量子计算的身影,如在光学字符视觉(Optical Character Recognition,OCR)场景,现已有诸多中外学者对该场景进行研究。本文探索将量子计算机视觉(Quantum Computer Vision,QCV)技术在金融行业进行应用,针对银行合同文本识别场景提供量子信息科技解决方案,以期为QCV技术在金融行业的应用落地提供新思路和新方法。


量子计算机视觉技术的发展

 

在金融领域中图像是常用的信息载体,将量子计算引入计算机视觉图像识别、OCR等领域意义重大。神经网络是经典计算解决图像识别和OCR问题的重要手段,同样,量子计算也可以通过神经网络的方案解决金融领域的图像识别和OCR任务需求。现有的神经网络通常具有多层网络结构,其本质是从训练数据中提取高阶特征或者学习隐藏的映射关系。在计算机视觉领域使用的神经网络主要由几种基本结构组成,包括卷积层、池化层、全连接层等。

 

卷积层是利用内核来确定输入数据的特征和模式。量子卷积层与经典卷积层逻辑模式类似,区别在于量子卷积层以量子电路门来进行定义。基本的量子卷积层由一系列两个成对量子位酉算子(Unitary Operator)组成,为了让量子卷积神经网络跨越整个希尔伯特(Hilbert)空间,量子卷积神经网络中每个单元包含15个参数。后续将相邻的量子位耦合,并将第一和最后的量子位也通过酉门耦合[2]。具体形式如图1所示。

 

 

 

量子池化层的目的是在减少量子比特数量的同时,降低整个电路的计算成本。量子池化层电路有将两个量子比特的信息“组合”成一个量子比特的效果,可以将维度为N的量子比特电路降为N/2[2],具体形式如图2所示。

 

 

 

在经典神经网络中,全连接是指由第N层的每个神经元和第N-1层的每个神经元都相连的结构,而此结构组成在量子电路中也相同,全连接是每个神经元计算的矩阵加合。其中,量子神经元是将量子神经网络的该层输入编码值与权重值分别送入量子计算基态上,称为输入量子态与权重量子态,然后将包含权重量子态数值的受控幺正门作用在这些输入量子态上,最终输入和权重相互作用的结果被写入由输入与权重量子态及辅助量子比特所组成的系统状态本征值相位上,最后通过量子相位估计得到量子神经网络神经元的输出[3],相关原理示意如图3所示。

 

 

 

量子计算机视觉技术在银行合同文本识别场景的应用研究

 

数字经济时代下,随着智能化、信息化技术的快速发展,计算机视觉技术在金融领域发挥着越来越重要的作用。以商业银行为例,计算机视觉技术已在诸多场景落地应用,并呈现出巨大的应用潜力。例如:第一,在银行卡相关领域,针对银行卡号识别问题,通过快速、准确地识别持卡人的卡号可在支付环境下实现银行卡的准确绑定;第二,在现金相关场景,计算机视觉技术可助力假币识别和新旧钞票清分的效率提升;第三,在票据相关场景,计算机视觉技术的应用不仅可以快速实现票面数据的录入,而且可以进一步对票面要素合法性进行验证;第四,在身份识别相关领域,计算机视觉可以辅助提升个人客户与对公客户的证照和印鉴识别的准确性,加快验证和验印进程;第五,在财务报销相关场景,计算机视觉可以助力实现对大量发票的快速录入,极大降低人工成本;第六,在合同文本相关场景,计算机视觉技术不仅可以实现对最终合同文本的准确提取,而且可以对合同文本中交易金额、交易时间等手写关键数据进行识别。综上,充分利用计算机视觉技术对商业银行各条线进行科技赋能和数字化转型,可有效提高工作效率、降低人工成本,进而对整个金融领域带来降成本、提质量、增效率、拓市场、防风险、保合规等价值收益。

 

本文以商业银行合同文本识别场景为切入点开展应用研究。商业银行的日常经营中存在大量合同文本,记录着银行和客户间交易规定的各项权利与义务,在必要时是定纷止争的重要法律依据。随着数字化转型发展,电子合同的应用日益广泛;银行历史上留存有大量纸质合同,即使是当前亦仍有大量合同通过纸质方式由客户签署。因此,高效、准确地识别合同中的金额、签署日期等关键数字以及相关文本信息,对于银行而言具有重要意义。本文在经典算法的基础上引进量子算法,尝试利用量子混合模型对金融行业合同文本中的数字信息进行识别,探究量子神经网络尤其在小样本学习环境下对合同文本识别精度的提升能力,以期解决经典识别技术存在的问题与难点。

 

本文选用包含0至9的十个阿拉伯数字的数据集,每类数字有500个样本,数据集中的数字提取于各类合同。本文尝试搭建两种不同方式的混合模型:一种是“量子卷积层+经典全连接层结构”(Quantum Convolution Neural Networks + Full Connection,QCNN+FC),另一种是“经典卷积层+量子全连接层结构”(Convolution Neural Networks + Quantum Full Connection,CNN+QFC),并对这两种模型进行测试评估,验证其性能效果并与经典网络结构进行对比。具体测试评估方式为:选用数据集中的数字0至9;训练集每个数字分别选50张、100张、300张图像,以模拟真实环境中训练数据不足的小样本学习情况,图像尺寸设为32×32px;测试集每个数字为90张图像,图像尺寸同样为32×32px;训练轮数均为epoch=5,优化器选择Adam。

 

基于量子卷积和经典全连接组成的混合模型由经典卷积层、量子卷积层和经典全连接层组成。该模型中量子卷积结构运用PennyLane量子电路库,在4个量子比特的模拟量子计算机上搭建而成。PennyLane是一个用于量子机器学习的跨平台Python库。混合模型具体形式为:输入图像先经过经典卷积提取图像特征,再将特征送入量子电路,在量子电路里先经过Hadamard门将信息编码为量子叠加态,然后通过纠缠模块门操作,最后经过测量得到量子电路输出,再输出给经典全连接网络层[4]。该模型具体结构如图4所示。

 

 

 

基于经典卷积和量子全连接组成的混合模型包含两个经典卷积层、两个经典池化层、一个经典全连接层和一个量子全连接层(Quantum Full Connection,QFC)。其中,量子全连接层QFC的输入|φ,1〉是n+1位量子比特的状态,输出是经过一系列U(θ)变换最终得到的一个量子比特在三维中Y轴的观察Yn+1。训练过程中,模型通过不断对最后一个量子比特的Yn+1进行观测,与真实样本标签计算损失,来对网络进行优化,修正神经网络中的θ参数,并且根据θ参数调整每个酉算子不断进行迭代并更新以达到训练的目的[5]。该模型量子全连接结构最终搭建是基于PennyLane量子模型工具库,在8个量子比特模拟量子机上搭建而成。

 

对比测试模型使用经典CNN网络结构和经典全连接结构对数据集中的数字进行识别。本文中经典模型包含两个卷积层、两个池化层、两个全连接层。其中,所有卷积层的所有卷积核均为3×3,池化方法为最大池化,激活函数为ReLU;经典全连接结构每一层能够将m个元素的输入向量映射为n个元素的输出向量[6] ;输入图像经过两次卷积、池化后输出特征图,特征图在展平后进入到全连接层,经过两个全连接层后输出结果。

 

本文使用经典和两种量子混合模型,分别对50、100和300张图像训练样本集进行训练,得到9个模型, 并用测试样本进行测试,最终模型效果如表1所示。可以看出,量子混合模型与经典模型在输入图像尺寸上一致,在模型参数上大小也基本相似,说明量子混合结构所耗费的计算资源与经典结构相似。在训练集为50、100、300张图像时,经典模型的测试集准确率均低于两种混合量子模型,说明在小样本学习场景下,含有量子计算的模型精度优于经典模型。如图5所示,两种量子混合模型和经典模型相比,损失下降的速度更快,说明含有量子计算的模型其训练的收敛速度优于经典模型。

 

 

 


综上,在小样本学习场景且训练轮数较少时,量子混合模型精度优于经典模型。量子混合模型的收敛速度优于经典模型,这是由于量子网络与经典网络主要差异点之一是每个量子比特门电路的组成为多项式形式的波函数叠加,而多比特量子门可以产生量子纠缠现象, 从而使得线路具有非线性表达能力;量子电路运行时随着量子比特数量的增加,其总体计算过程与参数会呈现指数级别的增长,这使得相对于经典网络而言,量子网络结构在处理复杂维度的问题时往往表现出更强的拟合能力[7]。总体而言,量子混合模型能够对小样本学习数字信息进行有效识别且具有一定优势,这为发展金融领域小样本学习计算机视觉技术提供了新的思路。

 

结语

 

近年来,随着国内外各科研团队、研究机构以及科技企业的大力投入,量子机器学习相关算法蓬勃发展并取得一系列重要成果。然而,量子计算视觉相关算法在金融行业落地应用仍较为鲜见。本文探索运用量子计算机视觉技术对小样本学习场景下金融合同文本相关数据进行识别,并提出了优于经典计算机视觉算法精度的解决方案,为量子计算机视觉技术在金融领域的实际应用提出了新路径。

 

鉴于当前量子计算机视觉技术的行业应用尚处于发展的初期阶段,机遇与挑战并存,未来存在广阔的探讨空间,例如对量子神经网络结构与经典网络结构的融合改进做进一步探索,使量子神经网络融合到更加复杂的模型结构中,让量子网络优势可以更快地在具体场景中落地。可以预见,随着量子科技在国内的快速发展,量子模型结构的表现形式也将会更加全面与多样[8],有望在以计算机视觉为代表的一系列领域中有所建树,为数字经济时代金融科技发展提供新动能。

 

(本文受北京市科技计划《量子金融云平台关键技术研发及示范应用》项目支持,项目编号为Z231100001323001。)

 

(龙盈智达﹝北京﹞科技有限公司的陈生、袁敏、巨春武、杨璇、徐奇对本文亦有贡献。)


【参考文献】

 

[1]龙桂鲁.量子计算机的研发进展与未来展望[J].人民论坛·学术前沿,2021(7): 44-56.

 

[2] Open-Source Quantum Development. QISKIT[EB/ OL].[2023-2-3]

 

[3] 喻莹,杨扬,董才林,等.基于多分类器集成的手写体金融汉字识别[J].计算机工程与应用,2007,(15):212-214.

 

[4] Henderson Maxwell, Samriddhi Shakya, Shashindra Pradhan,et al.Cook. “Quanvolutional Neural Networks: Powering Image Recognition with Quantum Circuits.”[J] Quantum Machine Intelligence 2020,2(1):1-9.

 

[5] Farhi E. Neven H. Classification with Quantum Neural Networks on Near Term Processors. Preprint at https://arxiv.org/abs/1802.06002 (2018).

 

[6] Andrea Mari, Thomas R. Bromley, Josh Izaac,et al.Transfer Learning in Hybrid Classical-quantum Neural Networks. arXiv:1912.08278 (2019).

 

[7] Ville Bergholm, Josh Izaac, Maria Schuld,et al.PennyLane: Automatic differentiation of Hybrid Quantum-classical Computations. arXiv preprintarXiv:1811.04968, 2018.

 

[8] 刘轶男,杨巍,魏凡.量子计算发展与应用动向研究[J].中国电子科学研究院学报, 2022(2): 141-148.

 

(作者单位:华夏银行股份有限公司,龙盈智达﹝北京﹞科技有限公司)

 

责任编辑:张志敏