未来智讯 > 新闻资讯 > 憋瞎扯,年夜数据没有是你想的那样
憋胡说,大数据没有是你想的那样
弟子党以及许多没安排过大数据启发的小搭档呢,皆对于大数据这么一个范畴感触否常否常的佳奇否常否常的奥秘,尔本日便否要揭穿给你们瞅。
作家:大蕉
没有源:别名喊大蕉的步调员
2018-09-26 10:53


     弟子党以及许多没安排过大数据启发的小搭档呢,皆对于大数据这么一个范畴感触否常否常的佳奇否常否常的奥秘,尔本日便否要揭穿给你们瞅。
    1、对于,尔们干大数据的也写平凡的 Java 代码,写平凡的 SQL。
    比方 Java API版的 Spark 步调,长得跟 Java8 的Stream API 一律一律的。
    JavaRDD lines = sc.textFile("data.txt");  
    JavaRDD lineLengths = lines.map(s -> s.length());  
    int totalLength = lineLengths.reduce((a, b) -> a + b); 
    再比方,简略一个 Hive 外。
    DROP TABLE pokes ;
    2、对于,Hadoop 、Spark 、Hive 的开动和呆板运维皆跟一个平凡的 Java 答用和数据库没什么辨别。
    比方开动hdfs
    bash ./start-dfs.sh
    比方开动yarn
    bash ./start-yarn.sh
    比方开动hive
    bash ./hive
    完事了,有啥奥秘的????没有便是配一堆全部体例皆有的摆设吗?
    3、对于没有始,不一门喊数据堆栈的本领。
    数据堆栈是一个会合了某个范畴内全部过程荡涤的团结的数据保存、领会的场所,并不一门喊数据堆栈的本领。
    在名战中,尔们平常会利用 Hive 没有卖数据堆栈的载体,在不大数据根本架构的雄司也会利用百般保守 DB 没有卖数据堆栈的载体,以是没有要再道什么你要进修数据堆栈 ok ? 要学 Hive 便道要学 Hive,要学数据处置便道要学数据处置。
    4、对于,尔们大数据便是去世写SQL的,但脑归道跟你们没有一律
    你们写 SQL 优先想功效,尔们写SQL优先想这他妈能没有能跑出没有。 你们写 SQL 不妨从来调从来调,尔们写 SQL 要想佳久才华一次,连呆板是什么跑的皆要想领会。 你们写 SQL 压根没有管数据漫衍,尔们写 SQL 第一件事便是他妈没有会数据歪斜吧? 你们写 SQL 用皆能直交写,尔们写 SQL 前要写一万个 SQL 干数据荡涤。
    5、对于,10倍,100倍,100万倍 的数据延长尔们便必要从来改计划,改改改。
    你的 SQL 在10倍量停能跑,在100万倍停,你大概要开销否常久否常久的念考和竭力本领根本跑出没有,比方一个大略的往沉统计。
    你的SQL count(1) group by 一停便出没有了。
    尔的即使写得跟你一律尔估量这辈子皆出没有没有结局了。
    没有评释了,大数据计数系列领会一停。
    大数据计数本理1+0=1这你皆没有会算(十)No.77
    6、Spark 很疾,但 Spark 也很缓
    Spark是清内存计算,但Spark也是批量计算,此中生存的短陷你们念考一停,对于比一停 FLink 这类清淌式计算。
    7、便使你有100T数据,你也没有是在干大数据。
    第一数据保存占用空间大没有代外便是大数据,第两便使你数据量级够念维没有对于你也没有是在干大数据。
    8、大数据跟呆板进修是一家,压根离没有启
    你大概永久也没有会领会 分而治之,统计学,概率论 在这二个学科的团结性和沉要性。
    9、对于没有始,你别觉得大数据惟有 Hadoop,大数据本领栈广和深得你简直没有可设想。
    关系观赏:
     
    2018年值得具有的十大大数据掘挖东西
     
    纷纷双杂的数据多多益善
     
    闻尔道,大数据必要学什么?
     
    

转载请注明来源。原文地址:https://www.7428.cn/page/2018/0927/35071/
 与本篇相关的热门内容: