未来智讯 > 大数据论文 > 大数据时代的经济学思索数据驱动范式

大数据时代的经济学思索数据驱动范式

发布时间:2019-01-22 01:06:01 文章来源:未来智讯    
    大数据时代的经济学思索:数据驱动范式作者:未知   [摘要]经济学切磋选取的首要模式是模子驱动范式,推动着经济学的成长。可是21世纪以来,数据量爆炸式增进,模子驱动范式难以餍足经济学成长的必要,数据驱动范式应运而生,且具有十分壮大的上风,将主导将来的经济学成长。
  [关头词]大数据;经济学;数据驱动范式
  跟着科学技艺的成长的前进,科学切磋中的数据在数目和种类上都在不息激增,几近每个范畴都在履历数据爆炸。对付经济学切磋来说,切磋者也应当变化传统切磋范式,对数据驱动范式进行切磋以顺应大数据时代的急剧成长。
  一、大数据时代的光降
  20世纪80年月初期,大数据登上汗青的舞台,阿尔文・托夫勒称之为“第三次海潮的华彩乐章”。跟着科学技艺的不息前进、数据的严重性提高,大数据时代终于光降。进来90年月中期,信息财产界和学术界起点进行大数据的切磋,大量有价值的成果涌现出来。直至进来21世纪,达到了数据大爆炸时代,2011年全球数据量高达1.82ZB(1ZB=2B),2012年全球纸质印刷质料仅承载不到200PB(1PB=2B)的数据量,2013年仅一天的数据量就必要1.88亿张DVD光盘才气包容。跟着大数据时代的光降,大数据爆炸式增进使得列国将大数据上升到国度级战略切磋。我国对大数据技艺成长时间较晚,直到2012年学术各界才起点了切磋高潮。整体来说,大数据具有六大特性:(1)数据量庞大,大数据计量单元已酿成ZB(2)和EB(2)。(2)价值庞大。大数据颠末切确剖析后具有普遍的应用局限。(3)数据类型多样,包罗布局化、半布局化和非布局化数据等。(4)处置速率快。施展大数据的最大应用价值必要将实时大量的大数据切确急剧的进行剖析。(5)流通轻捷,大数据轻捷的业务体式格局将会成为业务量最大的商品。(6)正确性,因为大数据的庞大样本量,颠末剖析处置获得的了局具有较高的真正性和正确性。大数据时代的光降,给经济学切磋带来了思索和挑衅,经济学切磋范式也产生了变化。
  二、数据驱动范式的崛起
  (一)数据驱动范式的上风
  起首是切磋范式由“样本-整体”转折为“样本=整体”。在经济学统计切磋范畴,使用样本揣度整体是一个严重的原则。以往的模子驱动范式采样的随机性难以兑现,不克不及进行奇异值剖析也不适合查考子种别环境。而大数据配景下的数据驱动切磋范式可以幸免这些问题,在数据采集、处置和剖析技艺上都有庞大的前进,样本即整体,可直接对数据进行剖析,不必要思虑抽样要领和模子设计的缺陷。其次是不必要切磋假定。数据驱动范式切磋不必要假定数据务必相符正态分布等,也不必要假定因变量和自变量之间的关系。从数据原本出发,直接寻觅数据之间的关系并发现个中的纪律,加以归纳形成切磋结论。模子驱动切磋流程为“假如一验证”,而数据驱动切磋流程则是“发现一归纳”。最终是检讨要领科学,数据驱动切磋选取交织验证要领,将数据分为两类,训练集用来建模,测试集用来检讨,本色上便是行使数据自己进行检讨,了局的科学性和正确性获得大大提高。
  (二)数据驱动范式与模子驱动范式的经济学切磋案例剖析
  在宏观经济剖析中,经济增进的“三驾马车”包罗投资、积攒和净出口,议决从《中国统计年鉴》中猎取有关数据,这些数据形成经济增进数据集。以前人构建的中国经济增进问题切磋模子为例,起首对经济增进数据集行使数据驱动范式进行随机丛林模仿。随机丛林算法首要是天生相互自力分布的多个随机向量θ1,θ2…,θk,以训练集为根本,设立树h(x,θi),个中i=1,2…,k。议决这个过程的多次反复天生多个互相自力的树,由这些树来决意最后了局。这种算法的偏差在于树的分类精度,还有树之间的有关性和强度,树的分类精度越大、有关性越小、强度越大,则了局偏差越小,反之偏差则大。随机丛林算法还能器量变量的严重性,从切磋了局看,以均方偏差的平均递减排序依次为投资、积攒和净出口,这个挨次同样代表了变量的严重性,这与我国今朝宏观经济的运行趋向一律。
  为检讨数据驱动范式随机丛林算法的正确性,选取模子驱动范式多元线性回归模仿对上述经济增进数据集进行剖析,用GDP、CON、INV和NEX代表国内出产总值、积攒、投资和净出口的增进率,设立多元线性回归模子如下:
  从该模子的假如检讨来看,拟合效率较好。各个自变量的参数稚嫩预计假如检讨显著程度均在0.01或者0.1,F检讨也议决了显著程度0.01的检讨,决意系数R2也跨越了0.9。从自变量的系数可以看出,积攒(CON)是我国经济增进的严重支持气力,但我国宏观经济政策因此投资为导向的,这与现实不符,讲明了这个多元线性回归模子的剖析了局有可能是禁绝确的,必要进行检讨。模子最严重的应用是进行展望,而展望的正确性必要使用交织检讨进行评价。而交织检讨应用原数据进行评价比假如检讨更科学,在上述案例中,随机丛林算法的模仿效率比多元线性回归模子要好的多,颠末4折交织检讨,随机丛林算法的测试集平均尺度化均方偏差为0.253,展望精度很是高,而多元线性回归模子测试集的平均NMSE则为4.378,了局还不足均值展望。是以结论是议决了T检讨和F检讨的多元线性回归模子仍然对付中国经济增进的剖析是禁绝确的,照旧必要由随机丛林算法来进行剖析。
  三、科技立异数据集的随机丛林模仿
  随机丛林模仿算法可以有用征服多元线性回归模子的不及,升迁数据的驱动才力,对推动经济学的厘革,具有严重作用。在对科技立异数据集进行随机模仿的过程中发现,轨制因素是影响科技立异数据集驱动力的关头。人力资源和物力资源也是影响科技立异数据集的严重因素,固定物力对科技立异数据集的作用最不较着。切磋了局证明,回归模子的驱动范式和随机丛林模仿算法的驱动范式各不不异。单纯从模子的角度来说,包罗多元线性回归模子和岭回归模子在内的回归模子,可以加倍直观了然的展现出科技立异数据集的驱动力,同时,岭回归模子的驱动要大于多元线性回归模子的驱动力,可以更为正确的揭示科技立异数据集各变量之间的关系。缘故是由多重共线对多元线性方程具有必然影响。而随机丛林模仿算法未能设立同一的模子,对科技立异数据集驱动力的评价选取最优化算法,参照各个变量间的相互关系,得到测算了局。从对数据的要求来说,科技立异数据集与经济增进数据集具有相似性,在科技增进数据集结,多元线性回归模子的假如数目过多。以至于无法餍足全部的假如。同时,因为多元线性回归模子受多重共线性的影响较大,倒霉于数据的拟合,是以,不得不依赖岭回归模子征服多元线性回归模子的坏处,但议决设立岭回归模子的体式格局,设定处罚系数,也会在必然水平上贬低模子测定的正确性。议决选取随机丛林模仿算法,不必要对数据进行假如,大大减低了应用前提的限定,升迁了算法的顺应性。从展望的正确性来看,多元线性回归算法、岭回归算法和随机丛林模仿算法的正确性都很高,个中一多元线性回归算法的正确率最高。缘故是多元线性回归模子的决意系数高于其它两种算法。若是仅仅是为了兑现对数据的展望,则能够忽视多重共线性,选择多元线性回归模子。基于此,笔者以为,应凭据数据集的使用目的选择科学公道的算法。例如,在切磋各变量之间的关系时,可选取岭回归算法和随机丛林算法对数据进行拟归并求得了局。若是仅仅是为了兑现对数据的展望,那么则应扫除多重共线性对多元回归模子的影响,选取多元回归模子对数据进行展望。议决以上切磋发现,行使多元回归模子对数据进行展望,正确率较高,岭回归模子可以征服多元线性回归模子的坏处,随机丛林算法在数据集的拟合上较为稳健。是以,应联合现实环境,对三种要领进行公道运用。
  四、�Y语
  模子驱动和数据驱动两种范式之间的关系近似于牛顿力学、相对论和量子力学的关系,模子驱动范式在数据信息不发财的时代为经济学的切磋做出了不行忽略的进献,而现今在大数据爆炸式增进的时代,数据驱动范式行使模式驱动范式的切磋理论和成果成长麻利,二者配合推动经济思惟和理论的前进。
转载请注明来源。原文地址:https://www.7428.cn/page/2019/0122/80298/
 与本篇相关的热门内容: