機器學(xué)習(xí)的概念最初是在20世紀50年代引入的,這是AI-時代的顯著特點。1950年,艾倫?圖靈發(fā)表了“計算機械與智能”論文,提出了一項著名的人工智能評估測試,我們明天稱之為圖靈測試。1959年,
Lee創(chuàng)造了“機器學(xué)習(xí)”這個術(shù)語。機器學(xué)習(xí)(ML)可以廣泛地定義為使用經(jīng)驗來改進性能或進行確切預(yù)測的估算方式。我們將機器學(xué)習(xí)定義為對重要數(shù)據(jù)執(zhí)行的一系列物理操作,以獲得有價值的看法。算法的研究是從實例和經(jīng)驗學(xué)校習(xí)而不是硬編碼規(guī)則。一般,有三種主要類型的機器學(xué)習(xí)問題:監(jiān)督,無人監(jiān)督和加強。
?
監(jiān)督的機器學(xué)習(xí)問題是我們想要依據(jù)一組示例進行預(yù)測的問題。
?
無監(jiān)督的機器學(xué)習(xí)問題是我們的數(shù)據(jù)沒有一組定義的類別集合的問題,而是我們正在找尋機器學(xué)習(xí)算法來幫助我們組織數(shù)據(jù)。
這意味著,有監(jiān)督的機器學(xué)習(xí)問題有一組我們想拿來預(yù)測未來的歷史數(shù)據(jù)點,無監(jiān)督的機器學(xué)習(xí)問題有一組數(shù)據(jù),我們正在找尋機器學(xué)習(xí)來幫助我們組織或理解。
?
加強包括系統(tǒng)必須完成的特定任務(wù)或目標。在整個過程中,它會收到反饋,便于了解所需的行為。諸如,系統(tǒng)在執(zhí)行動作時遇見錯誤或則為實現(xiàn)最有利的結(jié)果而獲得獎勵。因而,該程序才能通過加強訊號學(xué)習(xí)最有效的方式。
盡管數(shù)據(jù)庫(KDD)中的數(shù)據(jù)挖掘和知識發(fā)覺雖然只能解決數(shù)據(jù)科學(xué)的主要問題,但機器學(xué)習(xí)可以增強數(shù)據(jù)科學(xué)的業(yè)務(wù)效率。ML技術(shù)可以大致分為四個不同的區(qū)域:分類,降維,關(guān)聯(lián)學(xué)習(xí)和數(shù)字預(yù)測。應(yīng)用于文本的分類是文本分類的主題,其是從一組預(yù)定義的集合中手動將一組文檔分類為類別(或類或主題)的任務(wù)。文檔的直接分類用于信息檢索系統(tǒng)的文檔索引,文本過濾(包括避免電子電郵垃圾電郵),網(wǎng)頁分類和許多其他應(yīng)用程序。依據(jù)具體應(yīng)用機械效率的定義及簡單計算,分類也可用于文本的較小部份(段落,語句,詞組),喜歡文檔分割,主題跟蹤或詞組消歧。在機器學(xué)習(xí)方式中機械效率的定義及簡單計算,在應(yīng)用于排序看不見的文本之前,預(yù)先對以前分類的標記數(shù)據(jù)訓(xùn)練分類算法(分類器)。
可以在兩個層面上實現(xiàn)具有文本的降維技術(shù)的使用。通過辨識類似的集群來剖析文檔集合僅須要借助與文檔相像性測度相結(jié)合的已知降維算法。在文檔降維中可能會更具挑戰(zhàn)性,由于它須要預(yù)處理文本并將對象隔離到降維–句子,詞組或個別須要派生的構(gòu)造。
關(guān)聯(lián)學(xué)習(xí)本質(zhì)上是分類的概括,其致力捕獲數(shù)據(jù)集中的示例的任意特點(亦稱為屬性)之間的關(guān)系。從這個意義上講,分類僅捕獲指定類的一個特點的所有特點的關(guān)系。因為文檔表示的高維度,即相當(dāng)多的特點(其中許多可能不是特別有用的信息),因而將關(guān)聯(lián)學(xué)習(xí)直接應(yīng)用于文本是不可行的。借助從文本中提取的信息的關(guān)聯(lián)學(xué)習(xí)(比如,使用分類和/或降維)是一個不同的故事,可以形成許多有用的看法。
數(shù)字預(yù)測(在更廣泛的意義上亦稱為回歸)是分類的另一種概括,其中類特點不是離散的而是連續(xù)的。這些小的定義轉(zhuǎn)變造成分類和回歸算法的內(nèi)部存在巨大差別。但是,通過將預(yù)測的數(shù)字特點界定為有限數(shù)目的間隔,每位回歸算法也可以用于分類。相反的情況一般是不可能的。同樣,與關(guān)聯(lián)學(xué)習(xí)一樣,對文本進行回歸的簡單應(yīng)用并不是非常有用,不僅分類(非常是當(dāng)須要一種信念測度時,這也可以通過大多數(shù)分類算法來實現(xiàn))。
數(shù)據(jù)挖掘和十分流行的機器學(xué)習(xí)之間存在差別。但是,機器學(xué)習(xí)是關(guān)于創(chuàng)建算法以提取有價值的看法,它主要關(guān)注在動態(tài)變化的環(huán)境中的連續(xù)使用,并指出基于以前經(jīng)驗的算法的調(diào)整,再訓(xùn)練和更新。機器學(xué)習(xí)的目標是不斷適應(yīng)新數(shù)據(jù)并發(fā)覺新數(shù)據(jù)或規(guī)則。有時它可以在沒有人為指導(dǎo)和明確重新編程的情況下實現(xiàn)。
因為近來的一些理論和技術(shù)突破,機器學(xué)習(xí)是現(xiàn)今數(shù)據(jù)科學(xué)中最蓬勃發(fā)展的領(lǐng)域。她們通過機器進行自然語言處理,圖象辨識甚至生成新圖像,音樂和文本。機器學(xué)習(xí)一直是建立人工智能的主要“工具”。
要在應(yīng)用程序中使用機器學(xué)習(xí)甚至學(xué)習(xí)它,有兩種方式。首先,學(xué)習(xí)怎么使用充當(dāng)黑袋子的庫,也就是說,它們提供不同的功能。其次,要學(xué)習(xí)怎么編撰算法和查找系數(shù),擬合模型,找到優(yōu)化點等等,便于按照您的要求企劃應(yīng)用程序。并且,假如您只是想玩,這么有一些庫和應(yīng)用程序編程插口可以幫助您完成工作。
企業(yè)正在使用機器學(xué)習(xí)技術(shù)來剖析顧客的訂購歷史,并為上次訂購提供個性化的產(chǎn)品推薦。這些捕獲,剖析和使用顧客數(shù)據(jù)以提供個性化購物體驗的能力是銷售和營銷的未來。
在交通運輸領(lǐng)域,按照旅行歷史和各類路線的旅行模式,機器學(xué)習(xí)可以幫助運輸公司預(yù)測個別路線上可能出現(xiàn)的潛在問題,并建議顧客選擇不同的路線。運輸公司和貨運公司正在逐漸使用機器學(xué)習(xí)技術(shù)進行數(shù)據(jù)剖析和數(shù)據(jù)建模,以作出明智的決策,并幫助顧客在旅行時作出明智的決策。