日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

《Python數據科學入門》之機器學習(第10章)

系統 1868 0

Python數據科學入門

Dmitry Zinoviev著
熊子源 譯


第10章 機器學習

監督學習 嘗試從具有標記的訓練數據集中推斷出預測函數,其中訓練數據集中的每一個樣本屬于哪類都是已知的。(線性回歸、邏輯回歸、隨機決策森林、樸素貝葉斯分類、支持向量機、線性判別分析、神經網絡)
無監督學習 嘗試在沒有標記的數據中找出隱藏的結構。(K均值、社區檢測、分層聚類、主成分分析)

第48單元 設計預測試驗

完成模型的建立、評估和驗證有一下四個步驟:

  1. 將輸入數據分成訓練集和測試集(一般占比為7:3);
  2. 僅使用訓練集構建數據模型;
  3. 將新模型應用于測試集;
  4. 評估模型質量(通過多方面的評價指標來評估,比如準確度等)。

模型評價指標可有四個方面:準確度、精確度、靈敏度(召回率)和特異性

TP 模型正確地預測了屬性為存在的項目數(真陽)
TN 模型正確地預測了屬性為不存在的項目數(真陰)
FP 模型錯誤地預測了屬性為存在的項目數(假陽)
FN 模型錯誤地預測了屬性為不存在的項目數(假陰)

準確度 是正確分類項目的比例:
《Python數據科學入門》之機器學習(第10章)_第1張圖片
精確度 是所有陽性分類中真陽所占的比例:
《Python數據科學入門》之機器學習(第10章)_第2張圖片
**靈敏度(召回率)**是在所有陽真實值中真陽所占的比例:
《Python數據科學入門》之機器學習(第10章)_第3張圖片
特異性 是在所有陰真實值中真陰所占的比例
《Python數據科學入門》之機器學習(第10章)_第4張圖片

第49單元 線性回歸擬合

普通最小二乘回歸(OLS)
訓練模型的過程是最小化加權殘差的平方和(SSR):
《Python數據科學入門》之機器學習(第10章)_第5張圖片
脊回歸
模型正則化:
在這里插入圖片描述
當α=0,脊回歸退化為OLS回歸。α越大,懲罰越大。
邏輯回歸
創建一個邏輯回歸對象:

            
              LogisticRegression()

            
          

其中包含一個最重要的參數C,參數C是正則化參數的倒數(脊回歸的α的倒數)。為了使分類的結果有意義,一般取值至少為20。

第50單元 用K均值聚類實現數據分組

K均值聚類按照下面的算法將樣本聚合成k個類:

  1. 隨機選擇k個初始矢量作為初始質心(矢量不需要時數據集中的樣本);
  2. 將每個樣本分配給它最接近的質心;
  3. 重新計算質心位置;
  4. 重復步驟(2)和(3),直到質心不再移動。

《Python數據科學入門》這本書中的主要內容也就概述完了。這本書每個章節后面都有三道習題,本人感覺挺有用的,大家可以自行學習。( "The more you know who you are and what you want,the less you let things upset you."--《Lost in Translation》


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦?。。?/p>

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 盐城市| 茶陵县| 即墨市| 金寨县| 新巴尔虎右旗| 平定县| 昌宁县| 靖边县| 元谋县| 通州区| 旬邑县| 岗巴县| 屯门区| 宜城市| 永年县| 吴旗县| 乌海市| 吴堡县| 高尔夫| 江津市| 河西区| 平阳县| 同心县| 西乡县| 平湖市| 寿光市| 都匀市| 观塘区| 无极县| 泽普县| 黑山县| 新和县| 肃宁县| 海安县| 土默特右旗| 大埔县| 长丰县| 邵武市| 绥滨县| 阿合奇县| 温宿县|