回歸是統計學中最有力的工具之一,機器學習監督學習算法分為分類算法和回歸算法兩種。回歸算法用于連續型分布預測,可以預測連續型數據而不僅僅是離散的類別標簽。
在機器學習領域,回歸分析應用非常廣泛,例如商品的銷量預測問題,交通流量預測問題、預測房價、未來的天氣情況等等。
回歸算法是一種比較常用的機器學習算法,用來建立“解釋”變量(自變量X)和觀測值(因變量Y)之間的關系;從機器學習的角度來講,用于構建一個算法模型(函數)來做屬性(X)與標簽(Y)之間的映射關系,在算法的學習過程中,試圖尋找一個函數 使得參數之間的關系擬合性最好。
回歸算法中算法(函數)的最終結果是一個連續的數據值,輸入值(屬性值)是一個d維度的屬性/數值向量
常用的回歸算法包括線性回歸、多項式回歸、決策樹回歸、Ridge 回歸、Lasso 回歸、ElasticNet 回歸等等。
在本文中,將介紹以下常見回歸算法,及其各自特點。
線性回歸
多項式回歸
支持向量機回歸
決策樹回歸
隨機森林回歸
LASSO 回歸
Ridge 回歸
ElasticNet 回歸
XGBoost 回歸
局部加權線性回歸
一、線性回歸
線性回歸通常是人們學習機器學習和數據科學的第一個算法。線性回歸是一種線性模型,它假設輸入變量 (X) 和單個輸出變量 (y) 之間存在線性關系。一般來說,有兩種情況:
單變量線性回歸:它對單個輸入變量(單個特征變量)和單個輸出變量之間的關系進行建模。
多變量線性回歸(也稱為多元線性回歸):它對多個輸入變量(多個特征變量)和單個輸出變量之間的關系進行建模。
關于線性回歸的幾個關鍵點:
快速且易于建模
當要建模的關系不是非常復雜并且您沒有大量數據時,它特別有用。
非常直觀的理解和解釋。
它對異常值非常敏感。
二、多項式回歸
當我們想要為非線性可分數據創建模型時,多項式回歸是最受歡迎的選擇之一。它類似于線性回歸,但使用變量 X 和 y 之間的關系來找到繪制適合數據點的曲線的最佳方法。
關于多項式回歸的幾個關鍵點:
能夠對非線性可分數據進行建模;線性回歸不能做到這一點。一般來說,它更加靈活,可以對一些相當復雜的關系進行建模。
完全控制特征變量的建模(要設置的指數)。
需要精心設計。需要一些數據知識才能選擇最佳指數。
如果指數選擇不當,則容易過度擬合。
三、支持向量機回歸
支持向量機在分類問題中是眾所周知的。SVM 在回歸中的使用稱為支持向量回歸(SVR)。Scikit-learn在 SVR()中內置了這種方法。
關于支持向量回歸的幾個關鍵點:
它對異常值具有魯棒性,并且在高維空間中有效
它具有出色的泛化能力(能夠正確適應新的、以前看不見的數據)
如果特征數量遠大于樣本數量,則容易過擬合
四、決策樹回歸
決策樹是一種用于分類和回歸的非參數監督學習方法。目標是創建一個模型,通過學習從數據特征推斷出的簡單決策規則來預測目標變量的值。一棵樹可以看作是一個分段常數近似。
關于決策樹的幾個關鍵點:
易于理解和解釋。樹可以可視化。
適用于分類值和連續值
使用 DT(即預測數據)的成本與用于訓練樹的數據點數量成對數
決策樹的預測既不平滑也不連續(如上圖所示為分段常數近似)
五、隨機森林回歸
隨機森林回歸基本上與決策樹回歸非常相似。它是一個元估計器,可以在數據集的各種子樣本上擬合多個決策樹,并使用平均來提高預測準確性和控制過擬合。
隨機森林回歸器在回歸中可能會或可能不會比決策樹表現更好(雖然它通常在分類中表現更好),因為樹構造算法本質上存在微妙的過擬合 - 欠擬合權衡。
關于隨機森林回歸的幾點:
減少決策樹中的過度擬合并提高準確性。
它也適用于分類值和連續值。
需要大量計算能力和資源,因為它適合許多決策樹來組合它們的輸出。
六、LASSO 回歸
LASSO 回歸是使用收縮的線性回歸的變體。收縮是將數據值收縮到中心點作為平均值的過程。這種類型的回歸非常適合顯示重度多重共線性(特征相互之間高度相關)的模型。
關于 Lasso 回歸的幾點:
它最常用于消除自動變量和選擇特征。
它非常適合顯示重度多重共線性(特征相互之間高度相關)的模型。
LASSO 回歸利用 L1 正則化
LASSO 回歸被認為比 Ridge 更好,因為它只選擇了一些特征并將其他特征的系數降低到零。
七、嶺回歸
嶺回歸(Ridge regression)與 LASSO 回歸非常相似,因為這兩種技術都使用了收縮。Ridge 和 LASSO 回歸都非常適合顯示重度多重共線性(特征相互之間高度相關)的模型。它們之間的主要區別在于 Ridge 使用 L2 正則化,這意味著沒有一個系數會像 LASSO 回歸中那樣變為零(而是接近零)。
關于嶺回歸的幾點:
它非常適合顯示重度多重共線性(特征相互之間高度相關)的模型。
嶺回歸使用 L2 正則化。貢獻較小的特征將具有接近于零的系數。
由于 L2 正則化的性質,嶺回歸被認為比 LASSO 更差。
八、ElasticNet 回歸
ElasticNet 是另一個使用 L1 和 L2 正則化訓練的線性回歸模型。它是 Lasso 和 Ridge 回歸技術的混合體,因此它也非常適合顯示重度多重共線性(特征相互之間高度相關)的模型。
在 Lasso 和 Ridge 之間進行權衡的一個實際優勢是它允許 Elastic-Net 在旋轉下繼承 Ridge 的一些穩定性。
九、XGBoost 回歸
XGBoost 是梯度提升算法的一種高效且有效的實現。梯度提升是指一類可用于分類或回歸問題的集成機器學習算法。
XGBoost 是一個開源庫,最初由 Chen Tianqi Chen 在其 2016 年題為“XGBoost: A Scalable Tree Boosting System”的論文中開發。該算法被設計為在計算上既高效又高效。
關于 XGBoost 的幾點:
XGBoost 在稀疏和非結構化數據上表現不佳。
該算法被設計為計算效率和高效,但是對于大型數據集的訓練時間仍然相當長。
它對異常值很敏感。
十、局部加權線性回歸
局部加權線性回歸(Local Weights Linear Regression)也是一種線性回歸。不同的是,普通線性回歸是全局線性回歸,使用全部的樣本計算回歸系數。而局部加權線性回歸,通過引入權值(核函數),在預測的時候,只使用與測試點相近的部分樣本來計算回歸系數。
優缺點 & 適用場景
優點就是通過核函數加權來預防欠擬合,缺點也很明顯K需要調試。當多元線性回歸過擬合的時候,可以嘗試高斯核局部加權來預防過擬合。
十一、貝葉斯嶺回歸
貝葉斯線性回歸(Bayesian linear regression)是使用統計學中貝葉斯推斷(Bayesian inference)方法求解的線性回歸(linear regression)模型。
貝葉斯線性回歸將線性模型的參數視為隨機變量(random variable),并通過模型參數(權重系數)的先驗(prior)計算其后驗(posterior)。貝葉斯線性回歸可以使用數值方法求解,在一定條件下,也可得到解析型式的后驗或其有關統計量。
貝葉斯線性回歸具有貝葉斯統計模型的基本性質,可以求解權重系數的概率密度函數,進行在線學習以及基于貝葉斯因子(Bayes factor)的模型假設檢驗。
優缺點 & 適用場景
貝葉斯回歸的優點就是對數據有自適應能力,可以重復利用數據并防止過擬合,因為我們在估計的過程中可以引入正則項,比如在貝葉斯線性回歸的基礎上引入L2正則就是貝葉斯嶺回歸。
缺點就是學習過程開銷太大。當特征數在10個以為,可以嘗試貝葉斯回歸。