未来智讯 > 神经网络论文 > 基于卷积和轮回神经网络模子融合的股票开盘价展望切磋

基于卷积和轮回神经网络模子融合的股票开盘价展望切磋

发布时间:2020-04-05 01:06:01 文章来源:未来智讯    
    基于卷积和轮回神经网络模子融合的股票开盘价展望切磋作者:未知  摘要:本文提议了一种行使股票价格和有关新闻数据,基于卷积和轮回神经网络模子融合的股票开盘价展望切磋要领。针对股票开盘价展望的问题,思虑到股票有关信息的时序性以及新闻影响的持续性特点后,起首使用向量表现要领将新闻数据转换成向量,再行使卷积神经网络模子提掏出股票有关的新闻文本特性,同时使用轮回神经网络模子对股票价格数据进行训练,最终将新闻特性向量和价格训练后获得的向量归并,获得股票信息的低维向量表现并输入到深度神经网络中,行使深度神经网络对股票开盘价进行展望。本文尝试中使用的数据是美股道琼斯指数与有关新闻,尝试了局证明,本文所提议的要领在股票开盘价展望上具有较着的优厚性。
  关头词:股票开盘价展望;卷积神经网络;轮回神经网络;深度进修
  0引言
  金融市场是国度金融系统的严重局部,对付一、二级市场的参预者来说股票价格的剖析展望是其做出准确判别与决意的严重参考,是以展望其价格也让大量的专家学者为之入神。在全球化的股票市场中,市场的行情与国度经济大情况、功令律例、企业经营环境、投资者信念、新闻舆情等都有所联系,股市行情具有高度的颠簸性与不确定性,使其成为金融与谋略机范畴切磋中的一浩劫题。
  因为公司报表、报刊和舆论媒体等文本信息的急剧增进与堆集,可用于剖析的数据样本也在逐步雄厚,数据数目也在不息地添加。在股票价格的展望中,若何使用文本数据来让模子的表示获得升迁,在近些年的股市展望中一直是存眷的热门。本钱市场有关的数据信息平日能够反响股票价格颠簸,而且数据信息剖析比拟传统的K线剖析更具有广度和深度。同时,跟着AI范畴的持续成长,机械进修和深度进修等人造智能技艺在繁多切磋范畴和现实场景中获得了普遍的应用,天然说话处置范畴也由于深度进修的崛起获得了成长和前进,这些技艺上的突破均使得股票展望模子的设立有了更大的上起飞间。
  在过往的切磋中,线性回归、遗传算法、SVM、决议计划树这些机械进修算法以及深度进修网络模子都被大量用在股票展望的切磋之中。在文献中作者将多种机械进修算法与卷积神经网络(CNN)在股票展望中的表示进行了比力,表明了卷积神经网络模子在股票展望上的正确率优于传统的机械进修算法。而在文献中,作者行使tensorflow框架搭建了多层神经网络(MLP)来对股票的价格进行展望,最后议决与传统的BP神经网络要领对照,讲明了体面的神经网络布局有利于提高网络模子展望的正确率,同时还能有用削减展望耗时。
  基于深度进修在股票展望中的良好表示和轮回神经网络在序列数据展望中的特殊性,本文提议了一种基于卷积和轮回神经网络模子融合的股票开盘价展望切磋要领。在股票的数据采用方面蕴含了汗青价格和有关新闻,新闻的特性提取用到了word2vec和CNN要领。在训练模子上,因为股票价格是时间序列数据,具有时序性,同时新闻对股价的影响具有持续性,以是本文选取的训练模子是卷积神经网络和轮回神经网络。
  1有关技艺
  1.1Word2Vector
  在神经网络等机械进修和深度进修模子中,无法直接处置字符串类型的数据,是以必要将其转换为纯数字信息。在转换过程中,应尽可能保持数据原始信息。
  Word2Vector与One-hot近似,是一种将文本数据转换为矢量的模子,普遍用于天然说话处置(NLP)中。One-hot对文本中的全部单词进行计数,然后对付每个词汇表编号,为每个单词创建N维向量。向量的每个维度代表一个单词,是以对应的数字位置中的维度值为1.其它维度均为0。虽然此要领保持原始单词信息,但在文本数目多的环境下维度太高,并且不克不及反映两个词之间的关系。例如,猫和小猫较着比猫和珊瑚更接近,但其却在单词向量表现中无法获得体现。比拟于One-hot的编码体式格局,Word2Vector议决进修文本,使用单词向量来表现单词的语义信息,议决将单词向量“嵌入空间”(嵌入便是将原始单词地点的空间映射到新空间),到达语义相似的单词之间距离接近的目的。如许便能够贬低维度并反映单词和单词之间的关系。
  在Word2Vector要领中,首要有Skip-Gram和CBOW两种模子。从直观上领会,CBOW的做法是,将一个词地点的上下文中的詞作为输入,而词自己作为输出。Skip-Gram的做法和CBOW恰好相背,其将一个词地点的上下文中的词作为输出,而词自己作为输入。具体环境如图1所示。
  1.2卷积神经网络(CNN)
  卷积神经网络(CNN)在谋略机视觉范畴取得了极大的进展,与此同时,CNN起点应用于天然说话处置(Natural Language Processing)的种种义务,也逐步在天然说话处置范畴据有了严重的身分。
  之以是用CNN来进行天然说话处置的事情,是由于其解决了传统词袋模子和赓续词袋模子句子中词语的挨次被忽视、训练参数很是大的问题。在图像中卷积核平日是对图像的一小块区域进行谋略,而在文本中,一句话所组成的词向量作为输入。每一行代表一个词的词向量,以是在处置文本时,卷积核平日笼盖上下几行的词,以是此时卷积核的宽度与输入的宽度不异。议决如许的体式格局,就可以捕获到多个赓续词之间的特性,而且可以在统一类特性谋略时共享权重。
  1.3轮回神经网络
  轮回神经网络(RNN)提议后,被普遍用于剖析展望序列数据,但颠末大大都学者切磋发现,跟着时间的推移RNN模子会存在健忘之前状况信息的问题,之后便提议了是非期印象轮回神经网络(LSTM)。LSTM是一种时间递归的神经网络,因为其特殊的模子布局,使得LSTM具有适合处置和展望时间序列中央隔和延迟较长的严重事务的特征。LSTM的网络布局接纳把握门的机制,其焦点布局是由3个门组成,离别是遗忘门、输入门和输出门。LSTM的关头在于运行在上方的细胞状况,这是其能保持印象的缘故。具体布局如图2所示。
  LSTM模子的谋略原理如下:
         获得了新的细胞状况之后,就能够进行输出门值的谋略,公式如下:
  2模子构建
  本文所使用的模子是基于CNN和LSTM的融合模子。由于股票汗青业务信息具有时序性,是属于时间序列数据,同时有关新闻对股票价格的影响具有持续性。综合思虑以上几点,本文选取CNN和LSTM作为训练数据的首要模子。模子框架如图3所示。
  2.1输入层
  该模子的输入层由两局部构成:每天的新闻题目(News),以及畴昔赓续T天的业务信息(Price)。
  2.2隐层
  模子的隐层分为2局部:起首将洗濯后的新闻题目进行词向量嵌入,将获得的新闻数据输入到CNN模子中并进行2次卷积和池化的操作,之后颠末Flatten层压平,再进行全联贯的谋略,从而获得新闻数据的特性向量。同时,另一边的LSTM模子领受股票价格的数据,履历3个潜藏层的谋略之后把数据输入到全联贯层,最后获得价格的特性向量。最终,将两个模子获得的特性向量进行归并输入到新的全联贯网络模子中,并使用Dropout要领来防止模子呈现过拟合问题,
  2.3输出层
  由于本文切磋的指标是股票逐日的开盘价格,属于回归问题,以是最终网络模子的输出了局为一维向量,
  3尝试
  3.1数据集
  本文所选用的数据是美股道琼斯指数和有关新闻的数据集,包罗从2008年8月8日到2016年7月1日近八年的股票业务信息和有关新闻数据,个中新闻数据共有73609条。尝试中将股票的数据按照业务时间排序,个中前70%的股票数据作为训练集,后30%的数据作为测试集。
  3.2模子兑现
  本尝试在Windows体系情况下,使用Python3.6作为编程说话,开辟东西使用JetBrains PyCharm和Anaconda3.运用Keras构建网络模子布局,底层应用Tensorflow框架。尝试有关参数配置见表1。
  3.3尝试流程
  使用卷积和轮回神经网络融合模子进行股票开盘价展望的尝试具体如下:
  (1)对新闻文本进行预处置操作,如:分词、去除停用词等:
  (2)应用Word2Vec模子天生16维度的向量矩阵(词向量嵌入);
  (3)将向量输入到CNN模子中,进行特性提取操作:
  (4)将股票价格数据输入到LSTM模子中,进行特性提取操作:
  (5)将新闻特性向量和价格特性向量进行归并;
  (6)行使深度神经网络训练归并后的向量;
  (7)天生股票开盘价的真正值和展望值之间的对照图像,谋略出模子展望的偏差值。
  3.4尝试了局
  (1)起首进行的是仅用股票价格数据作为独一输入特性的尝试。其尝试数据、训练集、测试集划分体式格局和全部的尝试参数都与之后进行的尝试不异。本尝试首要是索求单一的股票价格数据输入到LSTM模子中的展望表示环境。具体了局如图4所示。
  从图4的了局能够直寓目出:模子的展望值和真正值存在必然的差距,并非十分抱负,展望值广泛低于真正值:
  (2)其次便是本文所提议的要领:行使股票价格和有关新闻数据,基于深度进修的股票开盘价展望。本尝试首要是索求在增加有关新闻的环境下,LSTM模子的展望环境是否优于单一的价格展望。具体了局如图5所示,
  由尝试了局能够看出,行使股票价格和有关新闻的数据进行股票开盘价展望时,模子的精准度获得了很地面升迁。个中RMSE与MAE离别削减了近60和65不等,MAPE也有所降落,讲明本文的要领对股票开盘价的展望正确度更高。是以能够讲明,股票汗青业务信息和有关新闻同时决意了股票的开盘价格。在模子谋略纷乱度上,CNN和LSTM网络选取权重共享的体式格局,大大削减了网络中必要进修的参数个数,使其谋略纷乱度也随之降落。
  4告终语
  对付股票投资者来说,若是可以知道将来的大盘价格和走势,就能为其股票选择供给有意义的参考价值。本文提议了一种行使股票价格和有关新闻数据,基于深度进修的股票开盘价展望要领。议决对股票有关新闻进行处置并行使卷积神经网络模子对新闻特性进行提取,充分行使所猎取的數据信息,最终再将新闻特性和价格特性进行归并、拼接,配合对股票的开盘价进行展望。议决与单一的价格作为输入进行展望的尝试进行剖析和比力,表明本文所提议的股票开盘价展望要领有较着的优厚性。
  在往后的事情中,还会思虑到以下几个方面的改良:起首本文用到的数据是美股道琼斯指数和有关新闻数据,道琼斯指数是大盘指数,往后会思虑用各支股票的数据进行进修和训练并进行开盘价的展望:其次,本文的重点是对新闻特性进行建模,下一阶段实验融入更多金融专业常识对股价做特性提取与谋略,让NLP技艺和金融市场更好地跟尾起来。
转载请注明来源。原文地址:https://www.7428.cn/page/2020/0405/87307/
 与本篇相关的热门内容: