未来智讯 > 大数据论文 > 大数据发掘中的数据分类算法技艺切磋

大数据发掘中的数据分类算法技艺切磋

发布时间:2019-01-22 01:06:01 文章来源:未来智讯    
    大数据发掘中的数据分类算法技艺切磋作者:未知   摘要:近年来,跟着我国经济的持续不变增进以及国内国际情况的不变,在为科学技艺缔造优良的成长空间的同时,也有用的推动了科学技艺尤其是谋略机技艺的成长和立异。在如许的配景之下,若何行使数据的分类算法,对有关的电子数据进行处置,成为了相关部门以及职员亟待解决的问题。本文基于此,剖析了几种处置数据分类算法,并评论辩论若何在大数发掘的配景下,行使数据分类算法技艺对相关的数据进行分类处置。
  关头词:大数据发掘 数据分类算法 技艺切磋
  中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2016)09-0127-01
  当前,在经济成长以及数字化办公的配景之下,越来越多的行业都在现实的经管枢纽中引入了大数据发掘的观念。真相上,这种环境的呈现为谋略机财产的成长带来了机缘,也为其制造了挑衅。为了更好的面临时代成长的趋向,对有关的数据进行有用的分类处置,有关的范畴内逐步增强了对付数据分类算法技艺的进修和运用。今朝,常用的数据分类类型包罗:包罗决议计划树类、Bayes 类等,对此笔者进行有关具有的阐释。
  1 数据发掘以及分类算法的寄义
  所谓的数据发掘指的是在浩渺如烟的数据中之攫取有效的、价值比高的常识数据的过程,真相上,数据发掘是数据库技艺成长的一定了局。因为数据发掘适应了科技成长的需求,由于其在运用的过程中,涉及到诸如是零卖、金融、医疗、通信等诸多范畴之中。
  而分类算法指的则是议决对已知种别的数据进行剖析,并对个中的分类纪律进行归纳,并以此为根本,对新的数据种别进行展望。真相上,分类算法是一个将未知样天职到几个已存在类的过程,而这个过程的兑现首要蕴含两个方面:一因此已知的训练数据集为依托,构建用于描绘预定的数据类集或观念集的新模子,二是在新构建的模子的根本上,对未知的数据进行分类,继而推动了数据的公道处置。
  2 数据发掘的首要分类算法
  因为在数据发掘配景下,必要针对数据的具体环境,接纳各异的分类算法进行有关的分类处置,基于此,就使得现存的数据分类算法存在多种,它们的呈现可以有用的推动数据的分类处置,继而推动了谋略机技艺的成长。关于数据分类算法的种类,笔者做了有关的归纳,具体内容如下。
  2.1 决议计划树分类算法
  所谓的决议计划树分类法,又被称之为贪婪算法。该种算法接纳的是由上而下的分治体式格局,其最大的长处在于其可以在混乱无章的事例、数据中推导出以决议计划树为表示体例的分类纪律。真相上,这种分类算法是在实例的根本长进行有关的数据归类以及处置。因为其在现实的运用过程中对噪声数据的处置具有优良的雄壮性,因而其逐步成为各范畴在对数据分类处置的过程中,所接纳的最为广泛的算法。
  在决议计划树算法的构建过程中,其每一个节点所表现的则是某一个属性的测试,而分制代表的便是数据测试输出。而在对未知的数据样本进行剖析的过程中,接纳的每每是将样本的属性值与决议计划树比拟较的要领。为了加倍直观的明白到决议计划树算法的形成、操作过程,笔者进行了有关的算法流程图的绘制,具体的内容见图1。
  真相上,决议计划树算法的传统模式为C4.5算法,该种算法具有准则简略,利便操作的长处,可是跟着近年来谋略机技艺的不息遍及和运用,使得必要处置的数据逐步增多,而C4.5算法只可处置内存量较小的数据,在对多量量数据进行分类处置的过程中时常会呈现对算法运行受阻而无法继续运行的状态。而这种环境也就导致了C4.5算法无法顺应现阶段的数据分类处置的必要,逐步退出了的数据分类处置事情枢纽中。
  但跟着有关职员联合时代成长的必要,使得C4.5算法在原有的根本之上得到了改进和突破,并推动了以C4.5算法为母本的SLIQ算法以及SPRINT算法的降生。改进后的决议计划树算法顺应了大数据发掘的必要,推动了数据的分类与处置事情的有序进行。
  2.2 Bayes分类算法
  Bayes分类算法因此几率统计学的有关理论常识为根本而降生的,虽然这种算法在现实的数据分类处置的过程中得到了较为普遍的运用,可是其也存在着诸多的弱点。
  2.3 CBA分类数据算法
  CBA分类数据算法因此联系准则为根本的数据算法。这种算法的实施每每必要依托于数据机关分类器。今朝,CBA算法在运行的过程中首要依靠于Apriori算法技艺的使用,这种技艺的长处就在于可以将潜在的数据联系准则外面化,从而为利便了对付数据的总结收拾整顿。
  真相上,CBA分类数据算法也存在着诸多的弱点,好比由于数据分类是轻易呈现缝隙,继而导致了有关的优化作用难以施展出来,并最后贬低了该种算法的运行效果。
  3 结语
  近年来,跟着谋略机技艺的成长,使得大数据发掘逐步成为时代成长的潮水,在如许的配景之下,若何推动数据分类算法的运用成为了亟待解决的问题。本文笔者从大数据发掘以及数据分类算法的界说入手,对数据分类算法的种类、成长以及有关的优弱点进行了响应的剖析,笔者以为,在现实事情中对付数据分类算法的选择,每每必要依据数据剖析速率、可扩展性和了局的正确性等参数,继而选择出响应的数据分类算法。
  参考文献
  [1]李玲俐.数据发掘平分类算法综述[J].重庆师范大学学报(天然科学版),2011(4):44-47.
  [2]饶琛.大数据发掘中的数据分类算法技艺切磋[J].电子技艺与软件工程,2015(14):204.
转载请注明来源。原文地址:https://www.7428.cn/page/2019/0122/80300/
 与本篇相关的热门内容: