未来智库 > 云计算论文 > 【一种基于云计算数据挖掘平台架构的设计与实现】
    【 摘 要 】 随着网络技术的飞速发展,不仅给人们生产和生活提供更多有价值的信息,而且又能提升人类从大量数据中发现有价值信息的能力。现阶段,数据挖掘技术已广泛应用在各行各业当中,并且已取得了较好成果。本文主要针对基于云计算的数据挖掘平台架构设计与实现进行了深入探究和分析。
       【 关键词 】 云计算;数据挖掘;平台架构;设计和实现;探究
       1 引言
       近年来,随着科学技术的飞速发展,大量的数据被存储到计算机等存储介质当中。通常情况下,所存储的数据多是复杂的、数据量较大的等。因此,难以通过人工而直接获得。尤其是在科研或是商业发展领域中,需要对海量的数据进行分析,从而找出更多有价值的信息。为解决上述问题,很多研究人员聚集在一起,研究出一种新型的数据挖掘技术。
       近来,由于计算机技术、云计算技术的飞速发展,大量的数据都存储到了网络当中,而这些海量的、复杂式的数据信息给数据挖掘系统的实现带来很多的难题,如数据相对复杂,现有的计算能力难以达到技术要求,而可以借助云计算数据挖掘技术可提升处理复杂数据的能力。
       2 云计算数据挖掘系统架构设计的分析
       2.1 目标系统模型
       在云计算环境下,构建目标系统为各种终端用户提供高透明化的界面服务,并且在此基础上也提供了开放式的接口支持。这样一来,用户不仅能够通过终端访问用户访问来使用系统,也或是利用其它应用程序调用开放式接口间接式的应用系统服务。不管遇到上述哪一种情形,用户都无需对系统实现而担心其存储能力,只需考虑要选择何种算法进行处理,最后通过任务形式部署给系统获得所需的挖掘结果。除此之外,云计算环境下的数据挖据平台中得模块都是利用用户界面和开放式接口提供服务的。其中,由开放式接口提供的服务均为外部可见服务。而当涉及到高级权限使用功能时,可通过用户界面直接调用开放式接口服务功能。
       2.2 功能层次框架设计
       2.2.1算法层
       该层主要是利用下一层所提供的统一数据源来调用相关算法及对接口进行合理的管理。由于不同算法的执行顺序和得到的结果有所不同而分开的。例如数据清洗算法服务,它是针对具有噪声数据的数据及在应用数据挖掘算法前需要进行接口服务调用,把清洗后的数据利用数据层再储存到云计算平台中,为后续数据挖掘工作提供更好的服务;数据挖掘调用服务,在应用该服务之前,将已清洗的及不需要清洗的数据利用数据挖掘技术统一对数据进行调用。
       2.2.2应用层
       和其它层相比,该层的抽象性较强,它是把海量数据挖掘涉及到的数据、算法等之间的内在关系描述成任务,同时提供提供应用调用服务和维护接口等。
       2.2.3用户层
       该层主要为用户提供身份验证和授权等功能。
       2.3 设计关键点
       2.3.1插件系统设计
       插件是结合相应的应用程序开发接口规范而实现的一种程序。其中,任何一个插件都是由三大部分构成的,即扩展点、业务逻辑、调用下层扩展点,并且这三者都是由相同的负责模块管理帮顶包跟各种服务所构成的。另外,每个绑定包涉及到一个服务说明接口与多个服务调用接口两种类型的接口。要求绑定包接口必须满足相关规范要求,若把插件防止到平台的某个特定目录下,能够识别和加载该动态。除此之外,算法实现不同于以往针对特定个数、排列数据而实现。它是在满足实现算法的基础上,利用抽象数据提供更多的兼容性。尽管这种算法实现存在很大的难度,但其算法的复用性有了显著提升。
       2.3.2开放接口设计
       通常情况下,开放接口主要被应用数据挖掘平台的开发使用。利用上述接口,开发者能够更好地利用数据挖掘平台提供的资源及数据服务。为实现开放接口高效性、直观性的目的,其平台接口主要应用的是表述性状态转移接口,英文缩写为:REST。该类接口的优势在于为无态型。也就是说,在同一个局域网中,浏览器中的缓冲装置可替代服务的重复调用。这样一来,不仅能够有效减轻服务器的运行负担,而且若用户量过多造成底层服务影响整个系统的运行,而此时可利用横向服务器数量的增加扩展线性的吞吐量。因此,利用云计算平台,能够为用户提供无穷大的数据吞吐能力,满足系统的性能要求。
       3 云计算数据挖掘平台架构的实现
       3.1 开发环境
       Google的云计算开发环境主要为App Engine。当遇到重载或是数据量非常的情形时,也能轻松构建安全的应用程序。这是因为此环境的优势在于可提供动态服务、自动扩展等。
       3.2 开发思想和技术
       3.2.1原型开发模型
       首先,需进行快速分析。在相关人员和用户的共同合作下,可准确确定出系统的需求,再结合原型的特征描述需求,来满足开发原型的需求。其次,原型的建构。在经过分析的基础上,结合需求快速建构一可行性较高的系统。在此情况下,需要有相应的软件工具提供可靠的技术支持,同时不考虑系统细节方面的具体要求。再次,原型的运行。此环节是为及时发现问题,从而快速消除问题的一个关键环节。最后,对原型的评价。原型运行的前提下,对原型的特性予以科学性的考核,对运行结果能否满足用户期望而进行分析。而针对该过程中存在的错误或是增添的新要求等,提供合理性的修改建议和意见。
       3.2.2基于WSGI规范的开发
       通过分析可知,在基于WSGI规范基础上的开发具有很多的优势。其根本目的是提升系统的可用性和实现跨平台性操作。因此,基于WSGI规范的实现远比传统的C/S模块使用简单的多。用户通过对浏览器来访问系统,同时增加了用户的终端的可选择性。此外,由于WSGI规范是在Python的语言环境下而实现的。而该种语言属于一种跨平台性开发语言。这样一来,不管是把已开发的系统放置到云计算平台上还是在本地开发应用都是极其方便的。 3.3 开发步骤
       3.3.1算法模块插件系统
       算法模块主要涉及到数据集清洗算法、数据挖掘算法、结果可视化算法等多种。而一个完整的执行过程必须在原始数据集的噪声及不规则数据的情况下借助数据集清洗算法把数据集统一进行整理。也或者是由异狗、分布式等数据源中转化而得到,再自动生成规则的数据集。将这些规则的数据集利用数据挖掘算法予以处理,进而获得数据挖掘结果信息,再经过可视化算法的处理,最终将数据信息传递给用户。其中,任何一个环节数据的调用都必须利用REST接口而实现,并且接口间的数据信息转换和传递都是采用XML格式。特别是近年来,由于数据挖掘平台各种算法模块插件的出现,这样一来,云计算平台下的数据挖掘平台所提供的功能也会逐步增多。
       3.3.2数据集访问模块
       该模块的实现和上述算法模块插件系统实现具有很多相同点。它也是通过插件方式进行维护和调用的。尤其是在访问数据集的过程中,其访问模块文件被索引处在被用户调用的状态。而和算法模块插件系统的不同之处是在调用数据集访问模块前,系统自动把数据机实例文件解析成若干个元数据组合及物理访问地址,最后把此类数据组合成字典类型结构的参数传递到数据机访问模块中。
       4 结束语
       总体来说,在云计算平台下的数据挖掘系统逐步趋于完善,增强了数据规约的功能,从而更好地解决异构数据访问的问题。同时在App Engin开发平台上,设计出一套更为完善的数据挖掘系统,提升了云计算和数据挖掘技术结合的可靠性与高效性。文章主要针对基于云计算的数据挖掘平台架构设计与实现予以深入的研究,并且对今后云计算环境下的数据挖掘系统的延伸发展予以展望,希望能够通过论述对读者产生一些积极影响。
       参考文献
       [1] 杨庆平.基于云计算的数据挖掘平台架构及其关键技术研究[J].中兴通讯技术,2013,19(1);122-123.
       [2] 黄章树.基于云计算服务模式的数据挖掘应用平台的构建[J].电信科学,2012,28(1);138-139.
       [3] 庄福振.基于云计算的大数据挖掘平台[J].中兴通讯技术,2013,19(4);130-131.
转载请注明来源。原文地址:https://www.7428.cn/vipzj14210/