未来智讯 > 神经网络论文 > 基于神经网络的出书选题展望模子

基于神经网络的出书选题展望模子

发布时间:2019-03-30 01:06:01 文章来源:未来智讯    
    基于shenjingwangluodechushuxuantizhan望mo子作者:未知 近nian来跟着tushufamaishujujing管的规范化信息化tushu选ti筹谋职员面临书城近期发mai排xing榜发卖月报yi及开卷图书调cha讲演》等繁多报biao对其进xing深度切磋与定量剖析得dao的了ju无疑极有价zhi也是将来图书shi场调查切磋的趋向。图书选tizuowei图书chu书的最初枢纽,历来被出书dan元所崇尚。图书选ti筹谋的基ben流程包罗信息筛选选题设计选�}论zheng、选题优化等,图书发卖shu据可以直观反响市场纪律与用户积zan倾向,对选题筹谋有注重要的影响。但出书dan元duifu确定图书选题种别以及确定印shua量显得力有未逮。
  鉴于图书市场具有短期的颠簸性与中持久的周期性、发卖shu目庞da与发卖品种众多并cun等特dian,gei出书dan元选题筹谋带来很da坚苦。凭据图书市场短期颠簸性特点,tiyi了使用gai良shenjingwangluo模子zhan望图书印刷量,可为出书单元确定ge地区的指定图书选题印刷量供给参考。
  一、基于神经网luo模子的发卖zhan望剖析
  人造神经网络的思惟源自fang效生物学神经网络,当今地球shang全部生命体的大脑均由神经网络构成。当代神经网络项目平日有几千个到几百万个神经单元he上百万个联贯,这几个数目级虽然远不如人脑纷乱,但yi经接近蠕虫的谋略才力。
  (一)神经网络算法简介
  反向传布BP(Back Propagation)进修算法的前馈型神经网络简称BP神经网络(BPNN)。BP神经网络首要特点是旌旗灯号从shu入cengyijue隐含层直至shu出层整个过程保留前向传递,依次颠末隐含ceng个中隐含层可能有多层,议决zhu层神经元hou,最终从输出层输入迷经网络处zhi了局。个中,上一层神经元的了局只影响下一层神经元的操作。若是输出层的输出值达不到预期指标,则神经网络转入偏差的反向传布过程,凭据展望偏差不息调解神经网络的权值,再进行旌旗灯号的前向传递,重复迭代,使神经网络的输出值不息迫近指标输出值。神经网络的拓扑布局如图1-1所示:
  由图1-2可知,整个神经网络展望流程fen为三个首要局部:第一局部为数据的洗筹备阶duan;第二局部为训练集训练阶段,议决验证添加作者与内rong热度模子jiao通俗模子得到更好的热门事务展望效率,当RMSE基本稳定时,最后确定展望模子;第三局部为测试集展望阶段,将测试集数据装载入展望模子进行展望。
  1. 数据筹备阶段
  起首,将图书发卖数juyushuhao实名申领体系数据议决ISBN码进行联系,解决图书发卖数据、作者信息残破等wen题,然后an地区进行分组。个中对分类项选取独热编码处置,将分离特性取值按必然的映射准则,扩展至欧式kongjian,zai欧式空间中分离特性的某个取值就对应一个点。在机械进修算法中,会比力频仍的谋略特性之间距离或相si度,在具体的过程中常用的距离或相si度谋略恰是基于欧式空间。完成以上程序即完成数据筹备阶段。
  2. 确定展望模子
  议决展望模子重复的训练,直至RMSE趋于不变值。议决比对展望值与现实值,提议了选取微博热sou数据对作者加权的改良方案,议决网络爬取热搜信息,引入作者热度因子,进而改良展望模子。议决对改良模子进行重复迭代,经对照剖析后,改良后的模子对热点事务展望才力显著提高,进而最后确定基于神经网络的图书选题展望模子。
  3. 展望短期内图书销量
  议决改良的展望模子,按地区划分对选题印刷量进行展望,利于出书单元事情职员公道确定各地区印刷量,最后将展望了局长期化至数据库。
  (三)数据洗濯
  以《开卷图书发卖讲演》(213-216)为例,该数据笼盖全国2000余家实体书店门市,20余家自力网店及天猫书城,具有优良的赓续性、代表性he完整性。选取2012-2013赓续2年的图书零卖市场逐月观测数据作为训练集,2014-2015年为测试集。tong时,分数据选取书号实名申领数据,书号实名申领体系作weizhong国图书出书的根本性建设,涵盖全国局限内刊行的图书选题全bushu据,具有权势巨子性。
  起首,将图书发卖数据与书号实名申领体系数据议决ISBN码进行联系,选取书号体系数据弥补等措施,解决如发卖数据、作者信息残破等数据问题;手动洗濯局部出书体式格局、地区等填写不规范或数据残破问题;保持规范和有用的数据,如书名、作者、售价、时间、销量、中图分类1级、中图分类2级、中图分类3级、选题类型、说话种别、装订类型(平装、精装等)、页数、字数、内容简介、内容类型(新书、重印、重版)、版次、印次、读者对象、地域、出书体式格局(常规出书、合作出书、引进出书等)、作者产量频度、出书单元产量频度等字段;然后按地区分组,选取独热编码来处置分离型特性。
  (四)确定展望模子及改良
  模子议决8000次训练,RMSE基本趋于不变值,测试集展望了局均已输出,如图1-3所示:
  展望yang例的展望值与现实值如图1-4所示,能gou看出展望偏差局限基本在可接guanju限之内。
  议决剖析可知上述模子对付近似“诺奖事务”的热点、热门事务无法做到正确展望,缘故在于图书发卖数据与书号实名申领体系数据无法联系热门时势tong时不存在反响作者的热点目标。综上所述,模子改良上需添加对付作者热度的权值信息与选题内容的权值信息,议决比对是否含youre搜、作者信息加权,而对付选题内容加权来说,议决对选题内容分词后,判别否蕴含热搜词语来对选题内容加权。
  对付新浪微博热搜词与热搜名人信息的汇集,议决选取网络爬取的体例,议决Jsoup框架将两局部数据zhongde排名、关头词、搜罗指数等信息按必然频率进行爬取,解析处置后留存至数据库中,为发卖数据的作者加权及选题内容加权作为数据支持。   添加作者热duyu内容热度两个维度,模fang热搜数据议决将一条数据修改为热搜作者或将图书选题内容简介中添加微博热搜词信息。
  对模子进行改良后,以固定频率爬取新浪微博热搜数据,选取模仿体式格局以及对照汗青数据的体式格局能够较着提高展望正确度。如图1-5所示:
  跟着“诺贝尔奖授奖”揭晓时ke的远去,虚构类榜单的“莫言热”也逐步降温,只是在2013年1月的榜单中莫言依然是入榜品种数最多的作者,《蛙》再次留任榜单首位;同样跟着网络赓续剧《盗墓条记》的热bo和同名片子《盗墓条记》的上映,南派三叔的《盗墓条记》和《藏海花》等均表示出强势的发卖高潮,本次采用莫言的代表作品《蛙》以及南派三叔代表作品《盗墓条记》作为展望样例。
  起首,我们以前三个月的数据为根本,展望下一个月的发卖数目,并与现实发卖数目进行比力。从上图看出,展望误差基本在可控局限之内,证明添加了作者热度与选题热度的神经网络展望要领,对热门事务带来的图书印刷量激增的情景具有较好的展望拟合效率。
  二、chang试了局及应用
  凭据展望数据,用户可议决在选题展望公家号中输入“map”,将各选题的展望了局以各省、自治区、直辖市、出格行政区的体例亮相。本次展望选tixuan定中图分类法小孩类,蕴含二级分类卡通/漫画/绘本、shaoer英语、shaoer国粹经典、少儿艺术、少儿文学、少儿科普baike、低幼发蒙、幼儿园教材、卡片挂图、游戏益智、青少年生理自zhu11个子类,三级分类少儿卡通、少儿英语、少儿国粹经典、少儿美术、少儿艺术综合、少儿游戏、少儿绘本、幼儿yuanxi席用书、少儿卡片、少儿小说、少儿漫画、少儿科普百科、少儿挂图、连环画、少儿文学名著、低幼发蒙、芳华漫画、少儿文学其他、少儿手工、少儿音乐、少儿故事、幼儿教材、青少年生理自助共23个子类。
  展望的图书销量按各省、自治区、直辖市、出格行政区以颜se深浅区分,颜色越深表现发卖量越大;议决左下角标尺能够调度印量单元值,给出更为直观的亮相,公道放置各异地区的图书印刷量,能够削减不用要的人、财、物的损耗,同样在削减运输成本与库存积存及发卖提供方面具有庞大上风。
  议决shuang击舆图中的省、自治区、直辖市、出格行政区,能够进来选题展望详情页面,亮相该地区下一个月的印量展望信息,为出书单元事情职员指定下一个月的发卖筹划供给决议计划参考。
  议决以上剖析,从数据层面保险了选题展望的靠得住性,对印刷数目给出直观亮相,并在地区上赐与出书单元较为正确的印刷量展望,为出书单元印刷量确定与地区投放供给了科学依据。由此,使用以上要领能够设立一整套以图书发卖数据整合当前热点、热门信息为根本的图书选题展望应用体系,为图书出书行业进行更大规模的数据剖析应用奠基基�A。
  以上运用神经网络的要领,基于图书发卖数据、书号实名申领体系数据及新浪微博热搜数据,选取数据发juede剖析要领,展望出各地区下图书的印刷量信息,进而为出书单元供给各地区的选题发卖分配等事情奠基了优良的根本,为兑现出书单元收入最大化供给了优良的保险。
转载请注明来源。原文地址:https://www.7428.cn/page/2019/0330/86621/
 与本篇相关的热门内容: