データは「理想的な線形モデル + ノイズ」によって生成されると考える。 観測される値 (y) = 真の値 (W^T * X) + ノイズ (ε) このノイズ (ε) は、測定誤差や考慮外の要因など、多数の小さな独立した要因の合計であると仮定する。 中心極限定理により、多数の独立な確率変数の和はガウス分布(正規分布)に従う。したがって、ノイズ ε はガウス分布に従うと仮定するのが自然。
あるモデル(重みW)が与えられたとき、特定のデータ点 (X, y) が観測される確率は、ちょうど ε = y - W^T * X となるようなノイズがガウス分布から生じる確率に等しい(尤度)。 データセット全体の観測確率(同時尤度)は、各データ点の確率の積で表される(独立性の仮定)。 最適なモデル W を見つけることは、このデータセット全体の観測確率(尤度)を最大化することと同じ(最尤推定)。 計算を容易にするため、確率の対数を取る(対数尤度)。対数を取っても最大値を与える W は変わらない。 対数尤度を最大化する計算を進めると、最終的に「二乗誤差の合計を最小化」するという、よく知られた最小二乗法の目的関数が現れる。 つまり、最小二乗法は、ノイズがガウス分布に従うという仮定のもとで、データの尤度を最大化した結果として自然に導かれる。