大數據培訓_數據挖掘中離群點檢測方法
1.大數據培訓課程中什么是離群點
在數據挖掘中, 什么是離群點,那么我們如何確定離群點,又使用什么方法要驗證離群點?
?
假定使用一個給定的統計過程來產生數據對象集。離群點是一個數據對象,它顯著不同于其他數據對象,好像她是被不同的機制產生的一樣。離群點不同于噪聲數據。噪聲是被觀測變量的隨機誤差或方差。一般而言,噪聲在數據分析中不是很令人感興趣的,但是離群點是有趣的。
離群點不同于噪聲數據。噪聲是被觀測變量的隨機誤差或方差。一般而言,噪聲在數據分析(包括離群點分析)中不是令人感興趣的。如在信用卡欺詐檢測,顧客的購買行為可以用一個隨機變量建模。一位顧客可能會產生某些看上去像“隨機誤差”或“方差”的噪聲交易,如買一份較豐盛的午餐,或比通常多要了一杯咖啡。這種交易不應該視為離群點,否則信用卡公司將因驗證太多的交易而付出沉重代價。因此,與許多其他數據分析和數據挖掘任務一樣,應該在離群點檢測前就刪除噪聲。
離群點檢測是有趣的,因為懷疑產生它們的機制不同于產生其他數據的機制。因此,在離群點檢測時,重要的是搞清楚為什么檢測到的離群點被某種其他機制產生。通常,在其余數據上做各種假設,并且證明檢測到的離群點顯著違反了這些假設。
2.大數據培訓中關于聚類的方法
離群點概念與簇概念高度相關?;诰垲惖姆椒ㄍㄟ^考察對象與簇之間的關系檢測離群點。直觀的,離群點是一個對象,它屬于小的偏遠簇,或不屬于任何簇。
這導致三種基于聚類的離群點檢測的一般方法。我們主要使用如下的方法進行離群點的檢測:考慮一個對象。
該對象屬于某個簇嗎?如果不,那么它就是離群點。
該對象與最近的簇之間距離遠嗎?如果遠,則他是離群點。
該對象是小簇或稀疏簇的一部分嗎?如果是,則該簇中的所有對象都是離群點。
3.大數據培訓中關于分類的方法
如果訓練數據具有類標號,則離群點檢測可以看做分類問題?;诜诸惖碾x群點檢測方法的一般思想是,訓練一個可以區分正常數據和離群點的分類模型。
考慮一個訓練數據集,它包含一些標記為正常,而其他標記為離群點的樣本,于是,可以在該訓練集上構建一個分類器??梢允褂萌我夥诸愃惴?。然而,這種方法對于離群點檢測效果不好, 因為訓練集是高度有偏的,也就是說,正常樣本的數量是遠遠大于離群點樣本的數量的。這種不平衡可能使得我們很難去構造一個準確的分類器。
為了解決這一難題,基于分類的離群點檢測,通常使用一類模型,也就是說,構架你一個金描述正常類的分類器,其余所有不屬于正常類的樣本都被視為離群點。