Regresja liniowa metodą najmniejszych kwadratów
Interaktywna demonstracja dopasowania linii prostej do wykresu punktowego za pomocą metody najmniejszych kwadratów.
Jeśli mamy zbiór danych składający się z wartości x i y, często chcemy określić, czy istnieje związek między tymi dwiema zmiennymi. Wykres punktowy może dać ci pojęcie, w jaki sposób x i y są ze sobą powiązane. Jeśli możesz narysować linię prostą, która przechodzi przez (lub przynajmniej w pobliżu) większość punktów danych, to x i y mają zależność liniową.
Najprostszym sposobem narysowania liniowej linii trendu jest zrobienie tego na oko, ale nie jest to zbyt dokładne. Zamiast tego używamy metody zwanej regresją liniową. Wymaga to sformułowania matematycznego wzoru, który dokładnie określi, w jakim stopniu linia trendu pasuje do danych. Podobnie jak w przypadku wszystkich wykresów funkcji liniowych, linia trendu będzie określona wzorem
\[ y = mx + c \]Gdzie \( m \) to współczynnik kierunkowy, a \( c \) to wyraz wolny równy rzędnej punktu przecięcia wykresu z osią y. Jeśli ponumerujemy nasze punkty danych, np. \( (x_1, y_1), (x_2, y_2) ... (x_n, y_n) \), to dla każdego z tych punktów możemy obliczyć, jak bardzo wartość linii trendu różni się od wartości rzeczywistej, a tę różnicę nazywamy błędem.
\[ y_n - (mx_n + c) \]Teraz z wielu powodów, które leżą nieco poza zakresem tego artykułu, tak naprawdę, będziemy zainteresowani błędem kwadratowym. O przyczynach możesz przeczytać tu (en).
\[ (y_n - (mx_n + c))^2 \]Obliczamy to dla wszystkich punktów danych, dodając wszystkie wyniki razem, co daje nam sumę kwadratów błędów w linii. Najlepszą linią trendu jest linia prosta, która ma tę sumę najmniejszą. Zamiast próbować wielu różnych linii trendów metodą prób i błędów, możemy użyć rachunku różniczkowego, aby znaleźć wartości \( m \) and \( c \) , które minimalizują sumę kwadratów błędów, co prowadzi do współczynnika kierunkowego
\[ m = \frac{\bar{x}\bar{y} - \bar{xy}}{(\bar{x})^2 - \bar{x^2}} \]Gdzie \( \bar{x}\bar{y} \) to średnia \(x\) pomnożona przez średnią \(y\), \( \bar{xy} \) jest średnią iloczynów x i y, \( \bar{x}^2 \) jest kwadratem średniej \(x\), a \(\bar{x^2}\) jest średnią \( x^2 \). Rzędna punktu przecięcia z osią y dana jest wzorem
\[ c = \bar{y} - m\bar{x} \]Powyższe demo pozwala wprowadzić listę punktów danych \( (x, y) \) (każdy nowy punkt powinien znajdować się w nowej linii, separatorem dziesiętnym jest kropka), a po naciśnięciu przycisku Oblicz, punkty te zostaną naniesione na wykres, pojawi się linia najlepszego dopasowania i podany zostanie jej współczynnik kierunkowy i rzędna punktu przecięcia z osią y. Dodatkowo obliczona i podana będzie liczba \( R^2 \), współczynnik determinacji, który jest miarą tego, jak bardzo zmiana y jest związana ze zmianą x. Jeśli wszystkie dane znajdują się na linii prostej, \( R^2 \) będzie miał wartość dokładnie 1. Jeśli jednak nie ma żadnej korelacji między x i y, a punkty danych są rozrzucone losowo, wtedy \( R^2 \) będzie bliski 0.