發布時間: 2019-10-17 11:02:42
本文主要為華為HCIE-Big Data-Data Mining V2.0考試大綱,其它認證項目的考試大綱可參考相應的培訓教材或通過華為公司網站獲取。華為企業大數據挖掘專家認證 HCIE-Big Data-Data Mining V2.0項目對應的考試、考試代碼、考試名稱、考試時長信息如下表所示:
?
考試大綱
考試內容
華為企業大數據挖掘專家認證HCIE-Big Data-Data Mining V2.0考試覆蓋:數據挖掘介紹、預備知識(數學基礎知識、Python基礎知識)、數據預處理、特征選擇與降維、有監督學習、無監督學習、模型評估與優化、數據挖掘綜合應用、Spark MLlib數據挖掘、華為云機器學習服務MLS、FusionInsight Miner、大數據架構和大數據治理、大數據挖掘。
知識點占比
?筆試 & 實驗 & 面試知識點
第一章 數據挖掘介紹
數據挖掘概述
數據挖掘流程
數據、屬性和度量
數據挖掘開發工具
數據挖掘學習路徑
第二章 預備知識
矩陣和線性代數
行列式
矩陣及其變換
矩陣分解
奇異值分解
特征值分解
線性變換
向量空間
概率論和數理統計
隨機事件及其概率
隨機變量及其分布
隨機向量及其分布
隨機變量的函數
隨機變量的數字特征
大數定律與中心極限定理
參數估計
假設檢驗
方差分析和回歸分析
信息熵與基尼系數
最優化
無約束最優化問題
梯度下降法
約束最優化問題
拉格朗日乘子法
Python語言基礎
什么是Python
Python基礎知識
Python中的數據類型
判斷與循環語句
函數和面向對象
常用標準庫
常用第三方庫
正則表達式
文件操作
數據采集與爬蟲
什么是爬蟲
爬蟲的作用及工作流程
爬蟲常用的工具
數據提取與存儲
常見的反爬機制和應對措施
爬蟲程序的實現
數據可視化
什么是數據可視化
數據可視化的作用及使用場景
數據可視化的常用工具
數據可視化的實現流程
第三章 數據預處理
數據抽取、轉換和加載
數據抽取、轉換和加載概述
數據抽取
數據轉換
數據加載
ETL和ELT介紹
數據清洗
不均衡數據處理
缺失值處理
異常值處理
特征處理
特征縮放
數值離散化
特征編碼
時間數值轉換
第四章 特征選擇與降維
特征選擇
特征選擇概述
Filter
Wrapper
Embedded
其他方法和特征擴增
降維
降維導入
SVD
PCA
LDA
LLE
第五章 有監督學習
有監督學習的預備知識
機器學習
機器學習分類
基本術語與概念
線性回歸
基本概念
誤差
正規方程
梯度下降
正則化
邏輯回歸
基本概念
目標函數
損失函數
優化方法
KNN
基本概念
KNN算法三要素
樸素貝葉斯
貝葉斯算法
樸素貝葉斯分類算法
樸素貝葉斯分類算法的優缺點
SVM
基本概念
線性分類
線性SVM
非線性分類
非線性SVM
決策樹
基本概念
ID3
C4.5
CART
集成算法
基本概念
結合策略
Bagging
隨機森林
Boosting
Adaboost
GBDT
XGboost
第六章 無監督學習
無監督學習
無監督學習概念與導入
聚類算法
聚類分析概念
基于原型聚類
K-Means算法
K-Mediods算法
基于層次聚類
Hierarchical Clustering算法
BIRCH算法
基于密度聚類
DBSCAN算法
關聯算法
Apriori算法
FP-growth算法
第七章 模型評估與優化
模型評估與優化預備知識
基本術語及概念
最優化模型
最優化模型的概述
凸優化
損失函數
最優化模型的分類
模型評估與選擇
模型評估概述
數據集拆分
回歸模型評估
分類模型評估
聚類模型評估
正則化
第八章 數據挖掘綜合應用
數據挖掘的流程
數據挖掘流程概述
分析需求
數據讀取
數據預處理
特征工程
特征選擇
模型選擇
模型評估
綜合應用的案例分析
第九章 Spark MLlib數據挖掘
Spark MLlib基礎入門
Spark MLlib簡介
Spark MLlib矩陣向量
Spark MLlib基礎統計分析
Basic Statistics 簡介
Summery statistic (匯總統計)
Correlations (相關系數)
Stratified sampling (分層抽樣)
Hypothesis Testing (假設檢驗)
Random data generation (隨機數生成)
Kernel density estimation (核密度估計)
Spark MLlib特征提取和轉換
TF-IDF
Word2Vec
StandardScaler,MinMaxScaler,MaxAbsScaler
Normalizer
ChiSqSelector
ElementwiseProduct
Spark MLlib分類與回歸
分類和回歸簡介
線性模型
決策樹模型
集成模型
樸素貝葉斯模型
Spark MLlib聚類與降維
聚類算法回顧
KMeans算法
Spark MLlib降維算法簡介
SVD算法
PCA算法
Spark MLlib關聯規則與推薦算法
關聯規則算法回顧
Spark MLlib中FP-Growth算法
Spark MLlib中PrefixSpan算法
協同過濾算法回顧
Spark MLlib中協同過濾算法
Spark MLlib評估矩陣
Spark MLlib模型評估
分類模型評估
回歸模型評估
第十章 華為云機器學習服務MLS
華為MLS服務介紹
申請華為MLS服務
創建華為MLS工作流
典型算法的應用
機器學習平臺FusionInsight Miner
第十一章 大數據架構和大數據治理
大數據架構
大數據架構概述
大數據架構在大數據中的重要性
大數據架構師所具備的能力
如何構建大數據架構平臺
大數據業務層通用架構
大數據治理
大數據治理概述
大數據治理建設背景和目標
企業數據規劃及治理模型
大數據治理案例
第十二章 大數據挖掘
數據挖掘背景
銀行客戶精準畫像案例
提升信用卡安全案例
城市環境質量分析挖掘案例
?