1、大數(shù)據(jù)前沿知識及hadoop入門
2、hadoop部署進(jìn)階
3、大數(shù)據(jù)導(dǎo)入與存儲
4、Hbase理論與實戰(zhàn)
5、Spaer配置及使用場景
6、spark大數(shù)據(jù)分析原理
7、hadoop+spark大數(shù)據(jù)分析
第一階段:大數(shù)據(jù)前沿知識及hadoop入門,大數(shù)據(jù)前言知識的介紹,課程的介紹,Linux和unbuntu系統(tǒng)基礎(chǔ),hadoop的單機和偽分布模式的安裝配置。
第二階段:hadoop部署進(jìn)階。Hadoop集群模式搭建,hadoop分布式文件系統(tǒng)HDFS深入剖析。使用HDFS提供的api進(jìn)行HDFS文件操作。Mapreduce概念及思想。
第三階段:大數(shù)據(jù)導(dǎo)入與存儲。mysql數(shù)據(jù)庫基礎(chǔ)知識,hive的基本語法。hive的架構(gòu)及設(shè)計原理。hive部署安裝與案例。sqoop安裝及使用。sqoop組件導(dǎo)入到hive。
第四階段:Hbase理論與實戰(zhàn)。Hbase簡介。安裝與配置。hbase的數(shù)據(jù)存儲。項目實戰(zhàn)。
第五階段:Spaer配置及使用場景。scala基本語法。spark介紹及發(fā)展歷史,spark stant a lone模式部署。sparkRDD詳解。
第六階段:spark大數(shù)據(jù)分析原理。spark內(nèi)核,基本定義,spark任務(wù)調(diào)度。sparkstreaming實時流計算。sparkmllib機器學(xué)習(xí)。sparksql查詢。
第七階段:hadoop+spark大數(shù)據(jù)分析。實戰(zhàn)案例深入解析。hadoop+spark的大數(shù)據(jù)分析之分類。logistic回歸與主題推薦。