發布時間: 2023-03-01 13:43:33
機器學習是人工智能的一部分,顧名思義就是說讓機器進行學習。機器學習與傳統的編程不同,開發人員需要預測每一個潛在的條件進行編程,一個機器學習的解決方案可以有效地基于數據來適應輸出的結果。
一個機器學習的算法并沒有真正地編寫代碼,但它建立了一個關于真實世界的計算機模型,然后通過數據訓練模型。
那么機器學習是如何工作的?
我們可以通過一個垃圾郵件例子來進行說明。垃圾郵件過濾利用機器學習技術從數百萬的郵件中去識別分辨出哪些是垃圾郵件,在這其中就是使用到了統計學的知識。
例如,如果每100個電子郵件中的85個,其中包括“黃金地帶”和“學區房”這兩個詞的郵件被認為是垃圾郵件,我們可以說有85%的概率,確定它是垃圾郵件。并通過其它幾個指標(例如,從來沒給你發送過郵件的人)結合起來,利用數十億個電子郵件進行算法測試,隨著訓練次數不斷增加來提升準率。
事實上垃圾郵件過濾隨著不斷發展,其準確率也達到了一個非常高的水平,谷歌表示它現在能夠識別99.99%左右的郵件。
機器學習在我們的生活中的應用場景也是非常多,例如:
目標影響:主要針對Google和Facebook的目標廣告,基于個人興趣愛好,并通過Netflix推薦電影,還通過亞馬遜推薦購物;
信用評分:銀行使用收入數據,從你的居住地、你的年齡和婚姻狀況來預測你是否會拖欠貸款;
信用卡欺詐檢測:用于根據你之前一些可能的消費習慣,在線禁止具有欺詐行為的信用卡或借記卡的使用;
購物籃分析:根據數以百萬個類似顧客的消費習慣,用來預測你更可能使用哪些特殊優惠政策;
目前大多數機器學習是相當麻煩的,在下面的圖表中進行了說明:
在未來很可能機器學習將會被應用到幫助加快過程,特別是在數據收集和清洗領域,但主要步驟仍然存在以下方面:
定義問題:正如我在另一篇文章中所指出的那樣,機器學習總是從一個明確的問題和目標開始;
收集數據:適合的數據的數量和種類越多,機器學習模型就會變得越精確。這些數據可以來自電子表格、文本文件和數據庫,除了商業上可用的數據源之外;
準備數據:這包括數據的清理和解析。刪除或糾正異常值(失控的錯誤值);這經常占用總的時間和工作量的60%以上,然后將數據分成兩個不同的部分,即訓練數據和測試數據;
訓練模型:針對一組訓練數據—用于識別數據中的模式或相關性,或者用于做預測,同時使用重復的測試和誤差改進方法來逐步地提高模型的精度;
評估模型:通過比較結果與測試數據集的準確度來評估模型。重要的是不要對用于訓練系統的數據進行模型評估,以確保無偏差的和獨立的測試;
部署和改進:這可以涉及到嘗試完全不同的算法或者收集更多種類或更大數量的數據。例如,你可以通過使用房屋所有者提供的數據來預估今后的房屋升值空間,從而提高房價預測的準確度;
綜上所述,大多數機器學習過程實際上是循環的和連續的,因為更多的數據被添加或者情況會有所變化,因為世界從來不會靜止不動,并且總是有改進和提高的空間。
上一篇: 子網掩碼怎么計算
下一篇: 傳感器原理與應用