Regresja to jedna z najpopularniejszych metod analizy danych statystycznych, która znana jest od XVIII wieku. Metoda ta pozwala zbadać związek pomiędzy, minimalnie, dwiema ilościami zmiennych. Oczywiście im większa ilość zmiennych, tym bardziej wiarygodne dane.
Analiza regresji – czyli prognoza zmiennych.
Główną ideą regresji jest prognozowanie danych dla określonej zmiennej na podstawie innych zmiennych.
Wyobraźmy sobie, że jesteśmy na targowisku i na podstawie zmysłu wzroku i dotyku chcemy wybrać jak największą główkę kapusty. Widzimy, że na straganie znajduje się 5 sztuk. Już za pomocą wzroku możemy dokonać analizy danych na podstawie wyglądu kapusty. Następuje wstępna prognoza, która główka jest największa. Jeżeli dodatkowo weźmiemy każdą z główek do ręki, będziemy mogli, dzięki bardziej dokładnej analizie (miara wagi), określić zmienne dokładniej. Na tej podstawie dokonujemy analizy regresji, czyli statystyki między interesującymi nas zmiennymi.
Wracając do teorii, analiza regresji to po prostu dział statystyki, który zajmuje się modelami oraz metodami regresji. Model analizy regresji składa się z dwóch części:
- Budowa modelu regresyjnego.
Pierwszą częścią analizy jest budowa modelu, czyli funkcji regresji, która opisuje zależność naszej wartości oczekiwanej (to, co przewidujemy) od zmiennych objaśniających (cech). Funkcja może być algorytmem – takim jak na przykład drzewo decyzyjne (graficzna metoda wspomagania procesu decyzyjnego).
Model musi zostać zbudowany tak, aby jak najbardziej odpowiadał danym z próby.
- Stosowanie modelu regresyjnego.
Na podstawie danych objaśniających (cech) wyliczamy wartość oczekiwaną dla zmiennej objaśnianej (przewidywania).
Musimy jednak pamiętać, że model prognozy będzie zakładał błąd oszacowania swoich prognoz, co w praktyce pojawia się bardzo często. Modele regresyjne zakładają możliwość wystąpienia błędu. Ideą regresji jest zminimalizowanie błędu oszacowania do takiego stopnia, aby prognozy były przydatne. Czyli im mniejszy błąd oszacowania, tym bardziej wartościowe dane.
Najpopularniejsze modele regresji.
- Regresja liniowa.
W statystyce jest najprostszym wariantem regresji. Zakłada, że zależność pomiędzy zmienną objaśnianą, a objaśniającą jest zależnością liniową. Oznacza to, że jeśli jedna wartość wzrasta to druga również wzrasta (dodatnia korelacja) lub spada (ujemna korelacja). Zakładamy, że przy wzroście jednej zmiennej, wzrasta lub spada druga zmienna.
Na podstawie tego opisu możemy stworzyć przykład. Im większa zasobność portfela klienta (czyli im większe są jego zarobki miesięczne) tym większą sumę zostawia w sklepie. Czyli im wyższa wartość jednej zmiennej, tym większa tym samym drugiej – jest to przykład korelacji dodatniej. Zależność pomiędzy wielkością miesięcznego zarobku, a kwotą pozostawioną w sklepie nie jest idealna, bo może się zdarzyć, że taka osoba wyda mniej.
W analizie regresji liniowej zmienna zależna oraz predyktor (wzrost jednej zmiennej) muszą mieć postać ilościową. Nie mogą to być zmienne nominalne czy porządkowe – wtedy przestaje to być regresja liniowa.
- Regresja nieliniowa.
To metoda wyszukiwania nieliniowego modelu relacji pomiędzy zmienną zależną, a zbiorem zmiennych niezależnych. Model ten stosuje się w przypadkach, gdy zmiennych nie można jednoznacznie (albo chociaż z niewielkim oszacowanym błędem) przewidzieć w odniesieniu do drugiej zmiennej. Musimy wtedy zastosować specjalną metodę estymacji – właśnie w postaci regresji nieliniowej.
Obie zmienne, czyli zależne i niezależne, powinny być zmiennymi ilościowymi. Żeby wynik był ważny, należy określić funkcje dokładnie opisujące relację między zmiennymi. Istotne jest również określenie wartości początkowej.
Przykład tego modelu możemy zastosować wówczas, gdy chcielibyśmy estymować ilość zbiorów kapusty na podstawie czasu. Istnieje silna relacja pomiędzy ilością a czasem, jednak relacja ta będzie nieliniowa.
- Autoregresja.
Model zwykłej regresji statystycznej, w której zmienna objaśniana (zmienna, której wartości są estymowane przed model statystyczny), jest przyszłą wartością z szeregu. Natomiast zmienne objaśniające (zmienna, na podstawie której wylicza się zmienną objaśnianą) to wartości szeregu czasowego z przeszłości.
- Regresja logistyczna.
Model używany w przypadku, gdy zmienna zależna jest na skali dychotomicznej (rodzaj skali pomiarowej, gdy przyjmuje tylko dwie wartości). Zmienne niezależne w tej analizie mogą przyjąć charakter nominalny, przedziałowy, ilorazowy lub porządkowy. Gdy mowa o zmiennych nominalnych oraz porządkowych następuje ich przekodowanie w liczbę zmiennych zerojedynkowych. Zmienna może być taka samą lub o 1 mniejszą niż liczba kategorii w jej definicji. Czyli, gdy wartości zmiennej objaśnianej wskazują na wystąpienie lub brak wystąpienia pewnego zdarzenia, które chcemy prognozować, regresja logistyczna umożliwi na obliczenie jego prawdopodobieństwa –tzw. prawdopodobieństwem sukcesu.
Bardzo przydatnym narzędziem, który w idealny sposób obrazuje wizualną analizę danych na modelach regresji jest Tableau. Praktyczne porady oraz dashboardy możecie zobaczyć tutaj – https://newdatalabs.com/regresja-liniowa-w-tableau/.