機(jī)器學(xué)習(xí)(Machine Learning)根據(jù)已知數(shù)據(jù)來(lái)不斷學(xué)習(xí)和積累經(jīng)驗(yàn),然后總結(jié)出規(guī)律并嘗試預(yù)測(cè)未知數(shù)據(jù)的屬性,是一門(mén)綜合性非常強(qiáng)的多領(lǐng)域交叉學(xué)科,涉及線(xiàn)性代數(shù)、概率論、逼近論、凸分析、算法復(fù)雜度理論等多門(mén)學(xué)科。
目前機(jī)器學(xué)習(xí)已經(jīng)有了十分廣泛的應(yīng)用,例如數(shù)據(jù)挖掘、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、生物特征識(shí)別、搜索引擎、醫(yī)學(xué)診斷、檢測(cè)信用卡欺詐、證券市場(chǎng)分析、DNA序列測(cè)序、語(yǔ)音和手寫(xiě)識(shí)別、戰(zhàn)略游戲和機(jī)器人運(yùn)用。
總體上說(shuō),機(jī)器學(xué)習(xí)算法和問(wèn)題可以分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩大類(lèi)。
在有監(jiān)督學(xué)習(xí)中,數(shù)據(jù)帶有額外的屬性(例如每個(gè)樣本所屬的類(lèi)別),必須同時(shí)包含輸入和輸出(也就是特征和目標(biāo)),通過(guò)大量已知的數(shù)據(jù)不斷訓(xùn)練和減少錯(cuò)誤來(lái)提高認(rèn)知能力,最后根據(jù)積累的經(jīng)驗(yàn)去預(yù)測(cè)未知數(shù)據(jù)的屬性。分類(lèi)和回歸屬于經(jīng)典的有監(jiān)督學(xué)習(xí)算法。在分類(lèi)算法中,樣本屬于兩個(gè)或多個(gè)離散的類(lèi)別之一,我們根據(jù)已貼標(biāo)簽的樣本來(lái)學(xué)習(xí)如何預(yù)測(cè)未貼標(biāo)簽樣本所屬的類(lèi)別。如果預(yù)期的輸出是一個(gè)或多個(gè)連續(xù)變量,則分類(lèi)問(wèn)題變?yōu)榛貧w問(wèn)題。
在無(wú)監(jiān)督學(xué)習(xí)算法中,訓(xùn)練數(shù)據(jù)包含一組輸入向量而沒(méi)有任何相應(yīng)的目標(biāo)值。這類(lèi)算法的目標(biāo)可能是發(fā)現(xiàn)原始數(shù)據(jù)中相似樣本的組合(稱(chēng)作聚類(lèi)),或者確定數(shù)據(jù)的分布(稱(chēng)作密度估計(jì)),或者把數(shù)據(jù)從高維空間投影到二維或三維空間(稱(chēng)作降維)以便進(jìn)行可視化。
一般地,不會(huì)把給定的整個(gè)數(shù)據(jù)集都用來(lái)訓(xùn)練模型,而是將其分成訓(xùn)練集和測(cè)試集兩部分,模型使用訓(xùn)練集進(jìn)行訓(xùn)練(或?qū)W習(xí)),然后把測(cè)試集輸入訓(xùn)練好的模型并評(píng)估其表現(xiàn)。另外,大多數(shù)模型都有若干參數(shù)可以設(shè)置,例如支持向量機(jī)模型的gamma參數(shù),這些參數(shù)可以手動(dòng)設(shè)置,也可以使用網(wǎng)格搜索(grid search)和交叉驗(yàn)證(cross validation)尋找合適的值。
接下來(lái),我們一起了解一下機(jī)器學(xué)習(xí)中常見(jiàn)的幾個(gè)概念。
閱讀原文
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
