未来智库 > 物联网论文 > 基于Apriori算法的物联网数据挖掘研究

基于Apriori算法的物联网数据挖掘研究

发布时间:2018-07-12 01:11:00 文章来源:未来智库    
    【关键词】Apriori算法 物联网 数据挖掘
    随着物联网用户的不断增多,从而加速了各种数据的海量增长,加大了物联网数据处理功能的压力,加大了用户从物联网中提取有用信息的难度。因此,物联网海量数据挖掘成为一个研究热点,而积极应用数据挖掘技术中的Apriori算法能够有效提高物联网的数据处理功能,满足用户对有效价值信息的快速提取,保障物联网商业服务的质量。
    1 物联网数据挖掘流程
    物联网数据挖掘处理功能需要在Hadoop平台和Map/Reduce模式基础上进行,对此需要划分2个不同层面的操作流程。
    1.1 Hadoop平台的具体操作流程
    (1)对物联网中的RFID数据进行过滤、转换、合并的处理,并在分布式系统HDFS中保存PML文件形式的数据。同时,可采取副本策略来处理PML文件,在同一机构的不同节点或不同机构的某一节点上保存PML文件中的2-3个副本,进而可实现对存储、处理、节点失效问题的有效解决。
    (2)在执行任务过程中,创建和管理控制是Master(主控程序)的主要工作,当Worker处于空闲状态时会接收到有关的分配任务,需与Map/Reduce互相合作实现操作处理,处理的最终结果由Master来归并,同时将反馈结果传送给用户。
    1.2 Map/Reduce的具体操作流程
    (1)根据参数在Map/Reduce思想指导下对输入文件进行分割处理,使其细化为M块(16-64M大小范围)。
    (2)Master、Worker、Map操作(M个)、Reduce操作(R个)是构成执行程序的主要部分,其中Map/Reduce的处理任务会由Master将其分配给空闲的Worker。
    (3)在处理Map任务时,Worker会读取处理中的数据,并向Map函数传送,而后产生中间结果在内存中缓存且定时向本地硬盘传送。此外,依据分区函数将中间结果分割为R块区,利用Master将本地硬盘接收到的数据位置信息传送给Reduce函数。
    (4)Reduce Worker根据Master所传送的文件信息采用远程读取方式来操作,以在本地文件中找到对应的文件,对文件的中间key进行有序排列,并利用远程发送信息给具体执行的Reduce。
    (5)Reduce Worker依据key排序后的中间数据向Reduce函数传送与key对应的中间结果集,而最后的结果需采取最终输出文件来进行编写。
    (6)当Map、Reduce的任务全部完成之后,MapReduce将回归到用户程序的调用点处,同时以Master对用户程序进行激活。
    2 基于Apriori算法的物联网数据挖掘
    2.1 Apriori数据挖掘原理和操作流程
    Apriori是提升物联网数据挖掘功能的一种最有效算法,其原理是在K项集中以逐层搜索迭代的方式来探索。具体的操作流程包括:
    (1)扫描数据集以生成频繁1-项集L1。
    (2)通过L1来探索频繁项集L2,采用不断迭代的方式来持续探索,直至频繁项集是空集。
    2.2 K次循环搜索后的数据挖掘流程
    当已完成了K次循环搜索时,还需要进行2个数据挖掘的操作流程:
    (1)在LK-1生成CK(候选集)之后,开展JOIN操作。
    (2)支持度统计和剪枝的操作依据Apriori性质来进行,而后使得CK生成LK(频繁集)。为提高物联网数据挖掘的效率,节省系统的时间和内存消耗,在Apriori算法基础上还需要借鉴和移植云计算平台的分布式并行计算性质。如此以实现Hadoop架构的建立,在扫描数据库查找频繁项集中得到的并联规则需要存储在Hadoop架构中。同时,为取得各个计算节点上的局部频繁项集,各个DataNode节点需要经历并行操作的扫描处理,并使用 Master来统计和确定实际全局的支持度、频繁项集。
    2.3 Apriori算法Map/Reduce化的处理流程
    上述提及基于Apriori算法的物联网数据挖掘需借助于Map/Reduce模式,其数据挖掘功能的实现还应Map/Reduce化Apriori算法。主要的处理流程包括:
    (1)用户提出挖掘服务的请求,且由用户来设置Apriori所需的数据,如最小支持度、置信度。
    (2)当Master接收到请求后,通过NameNode来进行PML文件的申请,而后逐步完成访问空闲节点列表、向空闲的DataNode分配任务、调度和并行处理各个DataNode需要的存储节点算法。
    (3)运用Map函数来处理每个DataNode的对映射、新键值对,以CnK(用1表示每一个CnK的支持度)来表示所产生的一个局部候选频繁K项集。
    (4)通过Reduce函数来实现调用计算,对每个DataNode节点上相同候选项集的支持度进行累加,以产生一个实际的支持度,将其与最小支持度(用户申请时所设置)进行比较,进而用LnK表示所生成的局部频繁K项集的集合。
    (5)对所有的处理结果进行合并,从而实现全局频繁K项集LK的生成。
    3 结论
    综上所述,根据物联网数据的特点,以及物联网海量数据挖掘问题的存在情况。我们积极将Apriori算法应用于物流网数据挖掘,这对于提高物联网海量数据挖掘功能和效率有较大的作用及意义,而物流网数据挖掘问题也能得到有效的解决。
    参考文献
    [1]程翔.浅谈物联网安全和隐私问题[J].科技信息,2011(16):256-256,258.
    [2]彭春燕.基于物联网的安全架构[J].网络安全技术与应用,2011(5):13-14.
    作者简介
    罗海洋(1976-),男,广东省海丰县人。硕士在读。现为广东汕尾职业技术学院计算机讲师。研究方向为数据库技术、数据挖掘。
    作者单位
    汕尾职业技术学院 广东省汕尾市 516600
转载请注明来源。原文地址:https://www.7428.cn/vipzj21703/
 与本篇相关的热门内容: