-
事實上,兩者在計算量上有很大的不同,所以當面對乙個給定的問題時,人們可以根據問題的性質有選擇地選擇兩種方法中的一種。
具體來說,最。
小方塊的矩陣公式為 ,其中 a 是矩陣,b 是向量。 如果存在離散資料點,並且要擬合的方程大致類似於 ,則 a 是 的矩陣。
第 i 行中的資料點分別是 ,b 是值為 的向量。眾所周知,計算矩陣的逆函式非常耗時,而且反演也可能在數值上不穩定。
例如,幾乎不可能反轉希爾伯特矩陣)。因此,這樣的計算方法有時不值得提倡。
相比之下,梯度下降法雖然有一些缺點,迭代次數可能比較多,但計算量相對不是特別大。 而且,在最小二乘法問題上,收斂***。 因此,當涉及到大資料量時,梯度下降(實際上應該是其他更好的迭代方法)更值得使用。
-
事實上,兩者在計算量上有很大的不同,所以當面對乙個給定的問題時,人們可以根據問題的性質有選擇地選擇兩種方法中的一種。
具體來說,最小二乘法的矩陣公式是其中 a 是矩陣,b 是向量。 如果存在離散資料點,並且要擬合的方程大致類似於 ,則 a 是 的矩陣,分別是第 i 行中的資料點,b 是值為眾所周知,計算矩陣的逆函式非常耗時,並且還存在反演在數值上不穩定的情況(例如,幾乎不可能反轉希爾伯特矩陣)。
因此,這樣的計算方法有時不值得提倡。
相比之下,梯度下降法雖然有一些缺點,迭代次數可能比較多,但計算量相對不是特別大。 而且,在最小二乘法問題上,收斂***。 因此,當涉及到大資料量時,梯度下降(實際上應該是其他更好的迭代方法)更值得使用。
當然,梯度下降還有其他用途,例如其他極端問題。 此外,牛頓方法也是乙個很好的方法,迭代收斂速度比梯度下降法快,但計算成本也更高。
-
最小二乘法的目標是找到誤差的最小二乘法,它對應於兩種型別:線性和非線性。 線性最小二乘法的解是閉式的,即非線性最小二乘法沒有閉式,通常迭代求解。
迭代方法在每一步中逐漸接近未知量,可用於各種問題(包括最小二乘法),例如不是找到誤差的最小平方和,而是找到最小二乘法的和。
梯度下降是一種迭代方法,可用於求解最小二乘問題(線性和非線性)。 高斯-牛頓法是另一種常用於求解非線性最小二乘法的迭代方法(在某種程度上可以看作是標準的非線性最小二乘解)。
還有一種稱為 Levenberg-Marquardt 的迭代方法用於求解非線性最小二乘法問題,它結合了梯度下降和高斯-牛頓。 因此,如果最小二乘法是乙個優化問題,那麼梯度下降法是一種求解線性最小二乘法的方法,而高斯-牛頓和萊文伯格-馬夸特可以用來求解非線性最小二乘法。
詳情請參考維基百科(最小二乘法、梯度下降、高斯-牛頓演算法、levenberg-marquardt 演算法)。
機器學習的東西,這就是我們遇到這個問題的原因。 但正如其他人所指出的,這兩種方法沒有很強的可比性。 但是我在學校的時候也遇到過類似的問題。
當時,我的問題是,最小二乘法和梯度下降法的矩陣解在哪裡? 我想,事實上,兩者在計算量方面有很大不同,所以當面對給定的問題時,可以根據問題的性質有選擇地選擇兩種方法中的一種。
具體來說,最小二乘法的矩陣公式是其中 a 是矩陣,b 是向量。 如果您有離散資料點,並且想要擬合乙個大致類似於 的方程,則可能需要問這個問題。 <
-
例如,如果我想優化深度神經網路 (DNN) 的網路引數(換句話說,優化該網路的擬合結果對已知資料的正確性),是否可以使用最小二乘準則來衡量標準答案擬合結果的偏差程度? 還行。 同時,由於DNN模型本身的複雜性,我們無法像線性擬合那樣在理論和公式層面上找到近似形式的解,因此我們需要引入所謂的BP演算法(本質上是梯度下降法)來迭代求解引數。
但是( 雖然上面給出了最小二乘準則+梯度下降法串聯使用的例子,但實際模仿垂直清擬合效果肯定比較普遍,因為DNN系統等價於非纖維頭線性回歸,所以最小二乘法不好,但是邏輯回歸+最大似然=交叉熵準則交叉熵在DNN引數優化演算法中更有效、更廣泛。 當然,這是另乙個話題。 <>
-
通常,我們所說的狹義的最小二乘法是指矩陣形式的公式方法,它使用最小二乘準則(或最小二乘法)來求解赤字第一次拒絕下的線性擬合引數。 因此,這裡的最小二乘法應該叫最小二乘法或最小二乘法,小二乘法在百科全書條目中對應的英文就是最小二乘法。
在這裡,基於線性回歸,有兩個細節很重要:
首先,線性回歸模型假設這是最小二乘法的優越前提,否則不可能推導出最小二乘法是最佳(即最小方差)的無偏估計,請參考高斯-馬爾可夫定理。 特別是,當隨機雜訊服從正態分佈時,最小二乘法等於最大似然。 <>
最小二乘法(也稱為最小二乘法)是一種數學優化技術。 它通過最小化誤差的平方和來尋找資料的最佳函式匹配。 使用最小二乘法可以很容易地獲得未知資料,並且這些計算資料與實際資料之間的誤差平方和最小化。 >>>More