未来智讯 > 大数据论文 > 大数据与数据挖掘

大数据与数据挖掘

发布时间:2019-01-10 01:06:01 文章来源:未来智讯    
    大数据与数据挖掘作者: 张婧   摘 要 本文从大数据与数据挖掘的观念入手,阐述了大数据与数据挖掘的来源、方法及技能体系。并从数据和使用工具方面对照了大数据与数据挖掘的异同,最终总结归纳了大数据时代数据挖掘的发展趋势及重要意义。
  关键词 大数据 数据挖掘 数据分析
  中图分类号:TP391. 7 文献标识码:A
  1引言
  自2012年3月奥巴公布了美国《大数据研讨和发展打算》以来,大数据如浪潮般席卷着全世界,冲刷着地球的各个角落。从政府到商业科技、教育、医疗、经济、人文还有社会的其他各个领域都无时不能看到大数据的影子。于是各个领域各个专家起初如火如荼地讨论研讨大数据的相关理论及技能。数据由数据挖掘时代过渡到大数据时代。
  2数据挖掘
  数据挖掘起初于上世纪70年代,履历了电子邮件时代、信息发布时代、电子商务时代、全程电子商务时代,是指从海量的、不完整的、模糊的实际应用数据中提取隐含在其中的人们事先不知道的但又可能有用的信息和知识的过程。通俗地讲,数据挖掘便是利用各种分析方法和工具,对数据库中积累的大最繁杂的历史数据进行分析、总结与整合的事务,以发现数据内部的信息和关系的过程,提供企业管理层在进行决策时的参考依据。
  数据挖掘一般履历如图1所示:数据筹备-数据挖掘-知识发现与表示的三个过程。成熟的数据挖掘经典算法有决策树算法、聚类算法、神经网络算法、遗传算法等。
  3大数据
  大数据是指数据量特别大、数据类别特别复杂的数据集,这些数据集无法用传统的数据库进行存储,管理和处理,其具有Volume(数据量大),Velocity(数据处理速度快)、Variety(数据具有多样性)和Value(数据价值密度低)的4V特点。大数据是继云计算、物联网之后数据行业又一大颠覆性的技能革命。大数据时代的到来颠覆了工业界、学术界对传统数据的认知,同时也引起了数据获取、存储、分析、挖掘以及可视化等技能的变革。
  根据大数据处理的生命周期,大数据的技能体系有大数据的采集与预处理、大数据存储与管理、大数据计算模式与系统、大数据分析与挖掘、大数据分析与挖掘、大数据可视化分析及大数据隐私与平安等几个方面,如图2所示。
  4大数据与数据挖掘的关系
  大数据与数据挖掘既有不同之处,又可彼此关联。
  4.1 数据挖掘与大数据的相同点
  都有以海量数据为基础,通过某种或几种工具或算法,挖掘出供人们利用的知识发现和规律,供人们使用,为人们服务。在挖掘知识表示及规律方面,它们用的方法是大同小异的。
  4.2大数据与数据挖掘的不同点
  在数据方面:数据挖掘一般基于某个或几个数据库中的数据,数据规模相对较小,基本以为MB处理单位;数据类型种类单一,往往是一种或少数几种,而且以结构化数据为主;因为数据挖掘往往使用的是常规数据库,因此先有模式再有数据;数据仅作为处理对象。而大数据数据规模很大,以GB,甚至TB、PB为基本处理单位;数据种类繁多,而这些数据中又包含着结构化、半结构化以及非结构化的数据,而且占据着越来越多的份额;大数据时代很多情况下很难预先确定模式,模式惟有在数据出现之后才能确定,且模式随着数据量的增长处于不时的演变之中;大数据时代的数据将作为一种资源来辅助解决其他诸多领域的问题;而且大数据由于其数据量太大因此还要考虑存储数据的问题。
  在处理工具方面:数据挖掘一般应用一种工具或少数几种工具就能够处理得到发现的知识并加以应用,也便是所谓的One size fits all;大数据时代不可能存在一种工具就能解决问题,得出有用的结论,即No size fits all。
  5归纳
  总之,大数据时代的数据利用云存储已渐成一个趋势,数据挖掘是其关键的一环,大数据的分析处理能够把海量数据分成几块利用数据挖掘技能进行挖掘,也能够将数据挖掘技能加以整合,研发出更高效、更正确的平台或算法对大数据直接进行挖掘,得出蕴含在海量数据中的规律或商机,如此才能让大数据真正切实地为人们服务。因此数据挖掘在大数据时代的数据分析和挖掘过程中具有重要的意义。
  参考文献
  [1] HU H,WEN Y G,CHUA T S,LI X L.Toward scalable system for big data analyties:a technology tutorial[J].IEEE Access,2014(2):652-687.
  [2] 冯登国,张敏.李昊大数据平安与隐私保护[J].计算机学报,2014.
  [3] 孟小峰.慈祥大数据管理:观念技能与挑战[J].计算机研讨与发展,2013.
转载请注明来源。原文地址:https://www.7428.cn/page/2019/0110/78611/
 与本篇相关的热门内容: