未来智讯 > 大数据论文 > 谈论大数据Hadoop技术

谈论大数据Hadoop技术

发布时间:2019-04-26 06:14:52 文章来源:未来智讯    
摘要:随着移动互联网,物联网和共享经济的快速发展,互联网每天都会产生数万亿的数据。 这些海量数据称为大数据。 在这个大数据时代,数据资源对我们的生活产生了巨大影响,我们也有商业决策的前瞻性指导。 因此,大数据被视为财富,是衡量和计算价值的不可或缺的战略资源。 本文从大数据Hadoop技术,Hadoop的核心技术,生态系统以及Hadoop技术在教学中的应用等方面进行了探讨。
关键词:大数据; Hadoop的; HDFS; MapReduce
中图分类号:TP393文献标识码:A文章编号:1009-3044(2017)32-0010-02目前,中国以信息技术为主导的创新经济正在高速发展,尤其是网购 ,移动支付,共享自行车,微信通信等依托移动互联网和物联网技术,给人们的生活方式带来了深刻的变化。 整个互联网正在从IT(信息技术)时代向DT(数据技术)时代转变。 在这个DT时代,人们已经从被动数据观察者变为活跃的数据生成者,人们的日常在线购物信息,各种电子支付信息,共享自行车信息的使用,在微信中浏览朋友的信息等,将产生数万亿的数据 ,如何存储大量数据,如何传输,如何计算,如何分析,如何确保数据完整性以及一系列新的技术挑战,如安全性,已经出现。 但是,Hadoop技术代表了最新大数据处理所需的新技术和方法,代表了大数据分析和应用程序带来的新发明,新服务和新的开发机会。
1什么是Hadoop? Hadoop是Apache Foundation开发的开源分布式系统基础结构。 简而言之,它是一个免费的分布式操作系统。 我们之前使用的计算机系统都是安装在单独主机上的独立操作系统。 例如,我们熟悉微软的Windows操作系统和Apple的Mac OS。 分布式系统通过高速网络连接分布在不同地理位置,不同型号,不同硬件架构和不同容量的大量服务器主机,形成服务器集群。 分布式系统集成并管理集群中的所有硬件资源(CPU,硬盘,内存和网络带宽),形成具有极高计算能力,巨大存储容量和高速传输能力的系统。
Hadoop是一个基于Linux系统开发的大数据分布式系统。 只要它连接到网络,Hadoop就具有很高的可扩展性持续加入不同地理位置,模型和性能的服务器主机,以增加群集的计算,存储和网络带宽,以满足大数据的硬件要求。 此外,Hadoop也非常安全,因为分布式系统数据存储在不同的物理主机上,而Hadoop数据通常每个数据存储三个副本,并分布在不同的物理主机上,一旦其中一个数据被损坏,其余部分 正常数据将很快取代它,解决了数据完整性和安全性问题,为大数据提供了安全,高速,稳定的系统平台。
2大数据Hadoop两项核心技术Hadoop框架的核心技术是:HDFS和MapReduce。 HDFS为大数据提供数据存储文件系统; MapReduce提供了一种用于调度和管理大数据数据的算法。
HDFS(Hadoop分布式文件系统)它就像我们的Windows系统中使用的FAT和NTFS文件系统。 它是Hadoop文件格式系统。 在独立版本系统中,数据存储在物理硬盘上。 文件系统根据轨道和扇区划分硬盘,并将其划分为多个存储磁盘。 C盘和D盘呈现给用户。 但是,在Hadoop系统中,数据存储在集群的不同物理主机上,并向用户呈现网络路径形式,例如百度网络磁盘。 只要用户知道网络路径,用户就可以存储数据而无需担心数据存储在哪个主机上。 HDFS负责完成数据物理硬盘的格式化以及分发存储数据的物理主机的存储管理。
MapReduce是Hadoop系统中数据调度,传输和硬件资源管理的算法。 MapReduce采用“分而治之”的思想,即将大任务解决为几个小任务,然后将每个小任务分配到集群的不同节点,然后在不同的节点上完成各自的任务,然后放入 每个节点的中间结果被聚合和集成以完成最终的大任务以获得最终结果。 简单地说,MapReduce是“任务的分解和结果的总结”,极大地提高了Hadoop系统的效率。
3大数据生态系统Hadoop技术Hadoop是一个开源的分布式大数据系统,它形成一系列分布式软件集合,实现大数据的应用。 就像我们熟悉的Windows系统一样,我们需要Office软件来进行文字处理; PhotoShop用于图像处理; 用于数据库管理的MS SQL Server。 为了存储,分析和挖掘大数据,大公司在经过长期探索后已经在实践中形成了Hadoo。p是软件的核心集合,我们称之为Hadoop生态系统的大数据。 这里我们将逐一介绍:
Hive - Hadoop数据仓库工具。 Hive主要为大数据提供数据存储,并通过SQL语句将其转换为MapReduce任务,实现数据管理。
Sqoop - Hadoop数据转换工具。 Sqoop主要用于Hive和传统数据库(mysql,postgresql ......)之间的数据传输和转换。
Flume - Hadoop文件收集工具。 Flume主要用于网络上实时海量日志的采集,汇聚和传输。
Oozie - Hadoop任务调度工具。 Oozie主要用于大数据任务调度管理,就像Windows中的任务管理器一样。
ZooKeeper - Hadoop协调管理工具。 ZooKeeper主要用于协调和管理Hadoop生态系统软件的同步与协作,方便统一和简化大数据软件的管理。
Hue - Hadoop大数据Web开发管理工作。 Hue主要用于视觉显示,数据结果的呈现和通过Web界面管理大数据。 4大数据应用4.1企业中的Hadoop应用随着大数据技术的发展,国内外主要的互联网巨头纷纷加入,如雅虎,亚马逊,英特尔,IBM和Facebook, 国内阿里巴巴,百度和腾讯都有自己的Hadoop大数据项目。 以Hadoop技术为代表的大数据相对成熟。 因此,各大公司都招募了大量掌握Hadoop技术的专业人才。 经过市场调研,主要有三个方向:Hadoop运维工程师:可以构建Hadoop生态系统平台,掌握所有Hadoop框架系统的部署和调试,修改配置文件,维护Hadoop生态系统平台。
Hadoop数据工程师:了解Hadoop的工作原理,您可以独立编写MapReduce程序,用于大数据分析和数据挖掘。
Hadoop系统架构师:掌握Hadoop生态系统MapReduce程序的规划,部署,调试和独立编写 用于数据分析和数据挖掘,以支持决策和数据保证。
4.2 Hadoop在高职教育中的应用
高职学生,学习大数据Hadoop技术,主要面向Hadoop运维工程师Hadoop数据工程师和系统架构师是本科或研究生水平的学生。 根据Hadoop运维工程师的工作要求,结合高职学生的特点,开设相应的项目培训课程。 主要培训课程需要相应的培训环境。 根据全面调查,提出了以下培训计划:
构建和部署大数据Hadoop技术的培训环境是通过Linux上的虚拟化技术在集群服务器上进行分布式存储和计算的应用软件集合 系统。 因此,教学培训需要硬件和软件的支持。 该计划基于成本和培训效果。 根据大数据培训室计划。 它由36台学生机器和1台教师机器,一个电灯开关和一个10千兆位路由器组成。 硬件:Hadoop是一个分布式系统,需要虚拟技术来虚拟化多台计算机进行培训。 因此,硬件需要高性能计算机和高速千兆网络。 软件:Hadoop系统安装在Linux系统上,但考虑到教学的便利性,该解决方案在Windows上安装虚拟化软件(VMware),在VMware上安装Linux 64位操作系统(CentOS)。 6.4)作为教学和项目实验的基本环境。
培训课程:根据Hadoop运维工程师培养人才的定位,结合Hadoop生态系统,该计划提供8个培训计划,完成大数据Hadoop培训教学任务,每个培训计划分为五个部分 :项目知识储备,项目建议书,项目分析,项目准备和项目实施。 具体内容如下:
5总结大数据的发展Hadoop技术是新时代的发展趋势,也是信息技术的发展趋势,主要企业的主要技术是 也在追逐。 大数据Hadoop技术的未来是光明的。 因此,高职院校开设相应的课程,是为了满足市场的需求,提高学生的就业竞争力,解决大数据人才短缺的供需矛盾。
参考文献:
[1]李学龙,龚海刚。 大数据系统综述[J]。 中国科学:信息科学,2015(1)。
[2]程雪琪,严晓龙,王元卓,等。大数据系统及分析技术概述[J]。软件学报,2014(9)。
[3]陈继荣,乐家进。基于Hadoop生态系统的大数据解决方案概述[J]。计算机工程与科学,2013(10)。
[4]郝树奎。 Hadoop HDFS和MapReduce架构分析[J]。 邮电设计技术,2012(7)。
转载请注明来源。原文地址:https://www.7428.cn/page/2019/0426/86863/
 与本篇相关的热门内容: