未来智讯 > 神经网络论文 > 基于卷积神经网络的文献主动分类切磋

基于卷积神经网络的文献主动分类切磋

发布时间:2019-01-22 01:06:01 文章来源:未来智讯    
    基于卷积神经网络的文献主动分类切磋作者:未知   摘 要: 人造智能技艺的繁盛成长,驱动着文献主动分类由基于准则的分类向基于机械进修的偏向成长。文章在对深度进修概述的根本上,将卷积神经网络引入到了文献主动分类,构建了基于落款、关头词的多条理卷积神经网络模子,使之可以凭据文献的落款和关头词主动给出中图分类号。议决在TensorFlow平台上的深度进修模子,行使《全国报刊索引》约170万笔记录进行模子训练,并对7000多篇待加工的文�I做中图法分类展望,其在出产环境下一级分类正确率为75.39%,四级正确率为57.61%。当置信度为0.9时,一级准确率为43.98%,错误率为1.96%,四级准确率为25.66%,四级错误率为5.11%。表明该模子有着较低的错误率,可为《全国报刊索引》分类流程的半主动化供给辅助,解决存在的编目职员紧缺、加工质量和效果降落等问题。
  关头词: 人造智能;智能藏书楼;深度进修;卷积神经网络;TensorFlow;主动分类
  中图分类号TP18;G254.11 文献标识码:A DOI:10.11968/tsyqb.1003-6938.2017119
  Abstract With the rapid development of artificial intelligence, the automatic classification of literature is changing from the rule-based to the machine learning. After an outline of deep learning, the paper introduced convolution neural network into the automatic classification, constructing a multi-level model based on the title and the key words and thus CLC is given automatically. Through the deep learning model in TensorFlow, about 1700000 records of National Newspaper Index were used to make model train. More than 7000literature were processed with the model and the result is: under the production condition, the accuracy of the first classification is 75.39%; the accuracy of the fourth classification is 57.61. When the confidence is 0.9, the correct rate of the first classification is 43.98%, error rate is 1.96%; correct rate of the fourth classification is 25.66%, the error rate is 5.11%.This shows that the model can be used to help realize the semi-automatic in the classification of National Newspaper Index and other problems.
  Key words artificial intelligence; smart library; deep learning; convolution neural network; TensorFlow; automatic classification
  1 引言:藏书楼与文献主动分类
  文献的标引编目加工是藏书楼严重的交易事情之一,其事情量大,专业性强,又是必要多人协作的综合性事情,有本身的特点和纪律,首要选取手工分类的体式格局。在常识爆炸的时代,必要对数目巨大、内容纷乱、体例多样的文献进行正确的归类、标引,对事情职员的要求很高;另一方面,因为编目外包和藏书楼学专业教诲的转型,资深标引编目职员日趋削减,信息加工质量和效果都呈降落趋向。
  20世纪50、60年月在H .P .Luhn、Maron等人的推动下,藏书楼界一直在索求文献主动分类的要领。国内有关切磋肇始于上世纪80年月初[1]。近年来跟着人造智能技艺的繁盛成长,文献主动分类由基于准则的分类转向基于机械进修的分类,旨在提高文献的分准率。
  1.1 基于准则的分类要领
  基于准则的分类要领首要包罗基于辞书发的分类要领,即构建主题词与分类号的对比关系表,扫描并找出文章所蕴含的主题词进而谋略文献的类归属性;基于专家体系的主动分类要领,即构建专家体系联合推理机兑现文献分类[1]。此类要领的一方面构建分类主题词表,但因为在常识爆炸确当下,各学科成长迅猛文献内容、体例多样使得词表的编制滞后于科学的成长,使得其对付蕴含新词的文献无法分类;另一方面常常必要人造依学科成长的环境不息调解分类准则。
  1.2 基于机械进修的分类要领
  文献分类过程本色是编目职员依据文献落款、关头词和摘要联合其对中图分类法的领会授予一其中图分类号的过程(少数环境下必要通读全文)。换言之,等于编目职员议决培训进修中图分类法构建响应的分类系统,行使培训进修的成果对文献进行加工,并在实践中不息完善本身的分类系统。把上述过程泛化,行使已编目的文献构建落款、关头词和摘要的常识库,提取响应的特性数据进行进修,这就是基于机械进修的分类要领。
  基于机械进修的分类要领其基本过程首要包罗:构建语料库、文本建模、特性选择、特性扩展、选择并兑现分类算法五个枢纽。常用的要领有朴实贝叶斯法、KNN、决议计划树法、中心向量法、支撑向量机以及近两年崛起的人造神经网络的分类要领等。基于神经网络的分类要领虽在小规训练集上与其他传统的机械进修分类要领平起平坐,但跟着数据集和网络规模的增大,其本能远超于传统的机械进修要领,可以更益处理海量数据(见图1)。   本文实验将卷积神经网络引入到文献主动分类切磋中,构建基于落款、关头词的多条理卷积神经网络网络模子,使之可以凭据文献的落款和关头词主动给出中图分类号,以解决编目职员紧缺,加工质量和效果降落的问题,并在现实出产情况下表明该模子的正确性和公道性。
  2 深度进修与TensorFlow
  跟着第三次人造智能海潮的崛起,机械进修作为一种�稻萃诰虻姆椒ū还惴河τ糜诶�圾邮件检测、定向客户的产物推荐、商品展望等范畴。近年来,受益于谋略机在通用谋略范畴谋略本能的持续升迁和海量数据的便捷猎取,深度进修作为一种特殊的机械进修范式在图像辨认、语音辨认、机械翻译、文天职类等范畴得到庞大胜利,依附从输入数据中判别“哪些是特性值”,无需人造干涉干与的才力,其在医疗诊断、艺术创作、医疗诊断、主动驾驶等加倍纷乱的范畴也有突破性的进展,并已起点应用于现实事情中。
  2.1 深度神经网络
  深度进修神经网络是人造神经网络的扩展,人造神经网络是基于模仿大脑皮层的神经网络布局和功能而提议的谋略模子(见图2),人造神经元细胞可凭据输入旌旗灯号pi的刺激触发输出a,大量的人造神经元细胞依必然的准则(即权重wi)联贯在一同形成一个大规模并行谋略网络,即人造神经网络。
  相较于其他机械进修要领,深度进修在模仿人脑神经元间的联贯、对外界刺激的感知和传导的同时,选取让各层预先进修的体式格局,设立对窥察数据(或称训练数据、输入)和标签(或称输出)之间的结合分布。进修从浅层按序起点,上一层进修得出的数据会作为下一层的输入数据,由浅层的低级特性逐渐进修到深层的高级特性。如在进修什么是狗时,第一层是一个概况、下一层是眼、鼻子的形状,在下一层是脸上的其他细节。以此类推,是一个从全局到部分再到细节特性的进修过程,每一层都在分段进修,进修过程中的错误也能够在每一层获得响应处置,这使得其具有自我进修息争决问题的才力,该模子最早由多伦多大学的Hitton传授于2006年提议――一种名为深度置信网络(Deep Belief Net,DBN)[9],在2012年的ImageNet图像辨认大赛中以低于第二名10%的错误率而崭露锋芒[10],之后LeCun、Mikolov等人则提议卷积神经网络和轮回神经网络,对深度进修进行优化和扩展。
  2.2 深度进修框架
  为了更好、更利便高效使用机械进修算法,平日必要必然的软件平台支撑,如Caffe、Theano、Torch、CNTK、Tensorflow等。
  Tensorflow是google于2015推出的一种供机械进修所使用的行使数据流图进行谋略的库套件,遵照Apache2.0和谈。相对付其他几个神经网谋略框架而言,Tensorflow属于个中的后起之秀,它支撑多种机械进修常用的开辟说话(如C++、Python、Cuda),支撑几近全部类型的深度进修算法的开辟(如 CNN、RNN、LSTM 等),能在多种硬件情况(CPU、GPU、TPU手机、云)下很好地行使各自的优点和特点运行,并可以进行网络分布式进修。因为其具有繁多长处,如谋略速率快、摆设轻易、轻捷性强、可扩展等,有学者在github上公布了关于Caffe,Theano、Torch、CNTK、Tensorflow本能比力的文章,从网络模子才力、接口、模子摆设、本能,架构和跨平台方面临其进行比力剖析并做响应评分(满分为5分)[11](见表1),比力可见,Tensorflow无论是单项照旧综合评分都比力高。
  Google是TensorFlow 的最大用户和推动者,在google的强力推广下,许多高校、科研机构和第三公司已起点使用Tensorflow,例如google行使该平台对其主动翻译服务进行了体系进级,翻译质量比畴昔有较着升迁;在google邮件体系中,用sequence-to-sequence[12]模子来主动设立文本摘要,并对邮件语境展望可能的答复;对视网膜影像数据进行训练,已能胜利展望影像是否有糖尿病引起的视网膜病变[13];在AutoDraw[14]中开辟“展望”功能,能够凭据题目和用户画出的局部元素料到并继续完成一幅绘画作品; Google Now则议决适当的数据反馈(RNN,反馈神经网络)来领会音频旌旗灯号,进而兑现语音辨认、语音搜罗、语音情绪剖析等[15]。这些科研应用也给深度进修在其他行业中的应用供给了参照。
  3 基于卷积神经网络的《全国报刊索引》文献分类模子
  《全国报刊索引》近4年汗青数据约为170万条,蕴含落款、关头词、分类号、摘要、作者、出书社、全文等文献信息。一方面因为文献落款与内容有着较高的相符率[1] ,且落款是一个有限长度、布局紧凑、可以表达自力意思的短句,这使得卷积神经网络能够用于文献的分类;另一方面从摘要中提取准确关头词存在必然坚苦,以是本文采用落款+关头词作为网络模子训练的训练集,文献对应的中图法分类号作为网络模子的输出。
  3.1 文献分类体系模子设计
  基于深度进修的报刊索引文天职类基本思惟是将已分好类的文献落款和关头词经切词后组成二维词向量作为神经网络的输入,分类号作为输出,议决多层神经网络训练后,对新的文献分类进行展望。本文所用数据中,中图分类法一级类目38个、四级类目9668个,为了贬低训练成本,本文模子选取粗、细分类的分层分类布局(见图3),先大类分类,随后在大类分类的根本大将其进行四级分类;展望也是云云。
  分类体系选取模子预训练和模子展望构成。个中,预训练是议决对现有文献分类的了局搭建深层神经网络的深度进修模子并进行数据训练,包罗数据预处置和机械进修两局部;模子展望则是对未知文献进行分类了局展望(见图4)。
  3.2 数据预处置
  因为神经网络的正确率对付受训练数据影响较大,故数据预处置是整个体系的第一步也是最为关头的一步,蕴含分词、词向量转换以及输出标签的自力热编码(one-hot code)。   3.2.1 分词
  分词则是将天然说话转换为一组词语的表达,与英文依空格切词各异,中文分词分为句子切分,对输入的中文文档进行预处置,获得单其中文短句的聚集;原子切分,对输入的中文短句进行原子切分,并凭据所得的原子系列设立初始的切分词图;堆砌词语,基于原子系列,从各异视角离别进行中文词语辨认,并将各自的堆砌了局增加到切分图;分词优选,基于上一阶段的堆砌路径和各路径的几率,谋略得出最可能的堆砌路径,作为最终的分词了局,并输出最后了局,四个程序。本文接纳的做法如下:起首对全部文献的关头词做词频统计,并构建分词用主题词表;基于前缀辞书兑现高效的词图扫描,联合主题词表天生句子中汉字全部可能成词环境所组成的有向无环图;其次运用动态规合算法查找最也许率路径, 并找出基于词频的最大切分组合;对付未登录词,选取隐马尔可夫模子(Hidden Markov Model,HMM)[24]模子做汉字成词处置。
  3.2.2 词向量
  正如前文所提到的,深度进修本色是数值谋略,以是必要词向量转换将天然说话转换成可谋略的数学表达,即将一个词转换成必然空间向量下的几率表达即p=(w(t)│(w(t-n+1),…,w(t-1)),个中w(t)为句子中第t个词在文本中的向量表达。word vector则表现由该文献落款和关头词构成的词向量组(见图5)。
  个中,label表现文献所对应的分类号选取自力热编码体例,将分类号映射为N维空间向量(N为总分类个数),当某一个维度上的值为1,其它位为0时表现该表现其所对应的分类号,即label=((1 0 … 0 0));词向量wv=(wv11 wv12 … wv1j … wv1m)表现该文献的中一个词。
  词向量分为静态(static)和非静态(non-static)体式格局两种,静态体式格局选取预训练的词向量,训练过程不更新词向量,在数据量不大的环境下使用静态体式格局能够获得不错的效率;非静态体式格局则是在训练过程中更新词向量,训练过程中调解词向量,能加快拘谨。词向量训练模子有许多如skip-gram、CBOW[20-22]、C&W[23]模子等,本文选取静态体式格局,使用skip-gram模子,联合文献的落款、关头词和摘要的分词了局作为词向量的训练集,构建静态词向量。
  3.3 卷积神经网络分类模子的剖析与设计
  议决Yoon kim的切磋证明,有限长度、布局紧凑、可以表达自力意思的句子能够使用卷积神经网络进行分类[18,25,26],在其切磋的根本上,本文提议将文献的落款、关头词作为训练集,并搭建多层卷积神经网络用于文献分类的训练和展望。
  卷积神经网络(convolutional neural network, CNN)[27]顾名思义,将卷积滤波与神经网络两个思惟联合起来与通俗神经网络的区别在于,卷积神经网络蕴含了一个由卷积层和子采样层组成的特性抽取器。在卷积神经网络的卷积层中,一个神经元只与局部邻层神经元联贯。在CNN的一个卷积层中,平日蕴含若干个特性平面(feature maps),每个特性平面由一些矩形摆列的的神经元构成,统一特性平面的神经元共享权值,这里共享的权值便是卷积核。卷积核一般以随机少量矩阵的体例初始化,在网络的训练过程中卷积核将进修获得公道的权值。共享权值(卷积核)带来的直接益处是削减网络各层之间的联贯,同时又贬低了过拟合的危害。子采样也叫做池化(pooling),平日有均值子采样(average pooling)和最大值子采样(max pooling)两种体例。子采样能够看作一种特殊的卷积过程。卷积和子采样大大简化了模子纷乱度,削减了模子的参数。为此,我们能够得知卷积神经网络的基本布局(见图6),其由三局部组成。第一局部是输入层;第二局部由n个卷积层和池化层的组合构成;第三局部由一个全贯穿连接的多层感知分类器组成。
  在作者文献主动分类的神经网络布局中(见图7),输入层为20*20词向量,隐含层由卷积核为2*20和3个2*1的卷下层堆叠而成,输出层为全联贯层,联合softmax激活函数将提取的文本特性输出为各个分类上的几率分布。
  3.4 尝试了局与剖析
  尝试所用数据为上海藏书楼《全国报刊索引》2013-2016(或2014-2017年,作者确定年份)年170万余条题录将上述模子于TensorFlow平台长进行训练和调试,个中训练集为153万条,训练用验证集为17万条。模子训练集的正确率拘谨于67%,训练用验证集的正确率拘谨于69%摆布(见图8、9)。
  在出产情况中,模子展望了局的准确与否因此人造分类了局为参照尺度。对未知的7144条待加工数据做分级分类展望,并与人造分类了局做比力,测试后得知,一级正确率为75.39%,四级正确率为57.61%(见表2)。
  正如前文所提到神经网络的了局输出是为一个分类上的几率表达,当设输出阈值(置信度)为0.9时,虽模子一级准确率为43.98%,一级错误率为1.96%,四级输出准确率为25.66%,错误率为5.11%(见表3)。这证明对付测试集而言其展望了局在阈值为0.9时的输出了局有着较低的错误率,即拥有较高的可托度。
  3.4.1 训练集瞄准确率的影响
  受期刊收录稿件偏好影响,本文所使用的数据存在很大的不平衡性(见表4),大量的数据集结在D、F、G、R四个大类上,起码的Z大类惟有20个训练样本,因为神经网络的训练集不平衡性[28-31]导致模子展望正确率在必然层度下会有所降落,议决训练集平衡以得到最好了局;对付一些极端不平衡的数据,如T、Z大类,四年内合计数据不及100条的类目,无法做�颖揪�衡,则可将其标同一注为“未知”类目,当预为“未知”类目时,直接交由人造处置。
  3.4.2 分词瞄准确率的影响
  因为中文分词的特殊性,使得分词的分准率受词表影响较大,如“上海藏书楼”一词,在异国响应的主题词表时会被切割为“上海/藏书楼”,使得其在句中的意思是有所变化,影响训练时的特性提取,进而影响展望的正确性。因为并无主题词表,故对170万分文献中呈现的关头词做词频统计,为分词供给主题词表。经不完全测试,在有无词表的环境下,正确率相差约2%。   3.4.3 �证数据对了局的影响
  因为验证数据选取现实出产情况中的数据作为测试集,其数据聚集并不笼盖全部的分类项目,且存在数据不平衡问题,使得测试了局不具有统计学,但反映了其在现实出产情况下的使用环境,表明基于卷积神网络的文献主动分类在现实事情中的可行性。
  4 预测
  google的最新切磋成果证明,将谋略机视觉和说话模子议决CNN与RNN网络叠加进行归并训练,所获得的体系能够主动天生必然长度的文字文本[19]等。这些切磋成果很是适合应用于藏书楼内部交易的智能化上,如藏书楼藏资源的主动分类、主动摘要、主题提取、文章聚类、图片主动标引、图像辨认、交易展望和剖析等。
  本文在对深度进修的切磋根本上提议了基于深度进修的文献主动分类模子,将文献分类问题转化为基于神经网络的主动进修和展望的问题。议决对《全国报刊索引》170万条数据的模子训练以及7000多篇待加工的文献展望,表明此要领是可行的,且有较高的置信度,分词、词表、模子训练完全依靠于汗青数据但本文仅细分至四级类目,跟着分类的逐渐深入,落款与关头词并不克不及很好的体现出文献之间的差别。摘要是体现文献轻微差异的严重切入点,在接下来的切磋中,将会切磋若何从摘要中提文献信息,以升迁分类正确率和细分水平。
  参考文献:
  [1] 成颖,史九林.主动分类切磋近况与预测[J].谍报学报,1999,18(1):20-26.
  [2] 李湘东,阮涛,刘康.基于维基百科的多种类型文献主动分类切磋[J/OL].[2017-10-17].http://kns.cnki.net/kcms/detail/11.2856.G2.20171017.1501.012.html.
  [3] 张野,杨建林.基于KNN和SVM的中文文本主动分类切磋[J].谍报科学,2011,29(9):1313-1317.
  [4] Wei L,Wei B,Wang B,et al.Text Classification Using Support Vector Machine with Mixture of Kernel[J].Journal of Software Engineering and Applications,2012,5(12):55-58.
  [5] Hebb Donald.The Organization of Behavior a neuropsychological theory[M].New York:John Wiley,1949:100-136.
  [6] Liu M Q.Discrete-time delayed standard neural.Network and its application[J].Sci China,2006,49(2):137-154.
  [7] 王昊,严正,苏新宁.基于机械进修的中文书目主动分类切磋[J].中国藏书楼学报,2010,36(6):28-39.
  [8] 叶鹏.基于机械进修的中文期刊论文主动分类切磋[D].南京:南京大学,2013.
  [9] Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets[J].Neural computation,2006,18(7):1527-1554.
  [10] Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C].International Conference on Neural Information Processing Systems.Curran Associates Inc,2012:1097-1105.
  [11] Evaluation of Deep Learning Toolkits[EB/OL].[2017-10-17].https://github.com/zer0n/deepframeworks/blob/master/README.md.
  [12] Ilya Sutskever,Oriol Vinyals,Quoc V.Le.Sequence to sequence learning with neural networks[C].Advances in Neural Information Processing Systems 2014:3104-3112.
  [13] 谷歌 developers blog[EB/OL].[2017-10-17].https://developers.谷歌blog.com/2017/02/announcing-tensorflow-10.html.
  [14] Auto Draw[EB/OL].[2017-10-17].https://www.autodraw.com/.
  [15] Alex Graves,Abdel-rahman Mohamed,Geoffrey Hinton. Speech recognition with deep recurrent neural networks[C].International Conference on Acoustics,Speech and Signal Processing,2013:6645-6649.
  [16] Maron M E.On Relevance,Probabilistic Indexing and Information Retrieval[J].Journal of the Acm,1960,7(3):216-244.   [17] 刘佳宾,陈超,邵正荣,等.基于机械进修的科技文摘关头词主动提取要领[J].谋略机工程与应用,2007(14):170-172.
  [18] Yoon Kim.Convolutional Neural Networks for Sentence Classification[C].Empirical Methods in Natural Language Processing(EMNLP),2014:1746-1751.
  [19] A Picture is Worth Thousand Coherent[EB/OL].[2017-10-17].https://research.谷歌blog.com/2014/11/a-picture-is-worth-thousand-coherent.html.
  [20] Tomas Mikolov,Kai Chen,Greg Corrado,et al.Efficient Estimation of Word Representations in Vector Space[J].arXiv preprint,2013: arXiv:1301.3781.
  [21] Tomas Mikolov,Ilya Sutskever,Kai Chen,et al.Distributed Representations of Words and Phrases and their Compositionality[C].Advances in Neural Information Processing Systems,2013:3111-3119.
  [22] Yoav Goldberg,Omer Levy.word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method[J].arXiv preprint,2014:arXiv:1402.3722.
  [23] Collobert R,Weston J.A unified architecture for natural language processing:deep neural networks with multitask learning[C].International Conference.DBLP,2008:160-167.
  [24] Kevin P.Murphy,Mark A.Paskin.Linear Time Inference in Hierarchical HMMs[C].Proceedings of Neural Information Processing Systems,2001:833-840.
  [25] Nal Kalchbrenner,Edward Grefenstette,Phil Blunsom.A convolutional neural network for modelling sentences[J].arXiv preprint.2014: arXiv:1404.2188.
  [26] Ying Wen,Weinan Zhang,Rui Luo,et al.Learning text representation using recurrent convolutional neural network with highway layers[J].arXiv preprint,2016: arXiv:1606.06905.
  [27] LeCun,Yann.LeNet-5,convolutional neural networks[EB/OL].[2017-10-17].http://yann.lecun.com/exdb/lenet/.
  [28] Paulina Hensman,David Masko.The impact of imbalanced training data for convolutional neural networks[EB/OL].[2017-10-17].https://www.kth.se/social/files/588617ebf2765401cfcc478c/PHensmanDMasko_dkand15.pdf.
  [29] Palodeto V,Terenzi H,Marques J L B.Training neural networks for protein secondary structure prediction: the effects of imbalanced data set[C].Intelligent Computing,International Conference on Emerging Intelligent Computing Technology and Applications.Springer-Verlag,2009:258-265.
  [30] Chandonia J M,Karplus M.The importance of larger data sets for protein secondary structure prediction with neural networks.[J].Protein Science,2010,5(4):768-774.
  [31] Pulgar F J,Rivera A J,Charte F,et al.On the Impact of Imbalanced Data in?Convolutional Neural Networks Performance[C].International Conference on Hybrid Artificial Intelligence Systems.Springer,Cham,2017:220-232.
  作者�介:郭利敏,男,上海藏书楼体系网络部工程师。
转载请注明来源。原文地址:https://www.7428.cn/page/2019/0122/80354/
 与本篇相关的热门内容: