Tableau Inspirations

Jak ułatwić pracę z danymi przy pomocy Tableau?

  • Aktualności
  • Wypróbuj Tableau
  • Weź udział w webinarium
  • Kontakt

Czym jest regresja?

22 czerwca 2021

Czym jest regresja?

Regresja to jedna z najpopularniejszych metod analizy danych statystycznych, która znana jest od XVIII wieku. Metoda ta pozwala zbadać związek pomiędzy, minimalnie, dwiema ilościami zmiennych. Oczywiście im większa ilość zmiennych, tym bardziej wiarygodne dane.

Analiza regresji – czyli prognoza zmiennych.

Główną ideą regresji jest prognozowanie danych dla określonej zmiennej na podstawie innych zmiennych.

Wyobraźmy sobie, że jesteśmy na targowisku i na podstawie zmysłu wzroku i dotyku chcemy wybrać jak największą główkę kapusty. Widzimy, że na straganie znajduje się 5 sztuk. Już za pomocą wzroku możemy dokonać analizy danych na podstawie wyglądu kapusty. Następuje wstępna prognoza, która główka jest największa. Jeżeli dodatkowo weźmiemy każdą z główek do ręki, będziemy mogli, dzięki bardziej dokładnej analizie (miara wagi), określić zmienne dokładniej. Na tej podstawie dokonujemy analizy regresji, czyli statystyki między interesującymi nas zmiennymi.

Wracając do teorii, analiza regresji to po prostu dział statystyki, który zajmuje się modelami oraz metodami regresji. Model analizy regresji składa się z dwóch części:

  1. Budowa modelu regresyjnego.

Pierwszą częścią analizy jest budowa modelu, czyli funkcji regresji, która opisuje zależność naszej wartości oczekiwanej (to, co przewidujemy) od zmiennych objaśniających (cech). Funkcja może być algorytmem – takim jak na przykład drzewo decyzyjne (graficzna metoda wspomagania procesu decyzyjnego).

Model musi zostać zbudowany tak, aby jak najbardziej odpowiadał danym z próby.

  1. Stosowanie modelu regresyjnego.

Na podstawie danych objaśniających (cech) wyliczamy wartość oczekiwaną dla zmiennej objaśnianej (przewidywania).

Musimy jednak pamiętać, że model prognozy będzie zakładał błąd oszacowania swoich prognoz, co w praktyce pojawia się bardzo często. Modele regresyjne zakładają możliwość wystąpienia błędu. Ideą regresji jest zminimalizowanie błędu oszacowania do takiego stopnia, aby prognozy były przydatne. Czyli im mniejszy błąd oszacowania, tym bardziej wartościowe dane.

Najpopularniejsze modele regresji.

  1. Regresja liniowa.

W statystyce jest najprostszym wariantem regresji. Zakłada, że zależność pomiędzy zmienną objaśnianą, a objaśniającą jest zależnością liniową. Oznacza to, że jeśli jedna wartość wzrasta to druga również wzrasta (dodatnia korelacja) lub spada (ujemna korelacja). Zakładamy, że przy wzroście jednej zmiennej, wzrasta lub spada druga zmienna.

Na podstawie tego opisu możemy stworzyć przykład. Im większa zasobność portfela klienta (czyli im większe są jego zarobki miesięczne) tym większą sumę zostawia w sklepie. Czyli im wyższa wartość jednej zmiennej, tym większa tym samym drugiej – jest to przykład korelacji dodatniej. Zależność pomiędzy wielkością miesięcznego zarobku, a kwotą pozostawioną w sklepie nie jest idealna, bo może się zdarzyć, że taka osoba wyda mniej.

W analizie regresji liniowej zmienna zależna oraz predyktor (wzrost jednej zmiennej) muszą mieć postać ilościową. Nie mogą to być zmienne nominalne czy porządkowe – wtedy przestaje to być regresja liniowa.

  1. Regresja nieliniowa.

To metoda wyszukiwania nieliniowego modelu relacji pomiędzy zmienną zależną, a zbiorem zmiennych niezależnych. Model ten stosuje się w przypadkach, gdy zmiennych nie można jednoznacznie (albo chociaż z niewielkim oszacowanym błędem) przewidzieć w odniesieniu do drugiej zmiennej. Musimy wtedy zastosować specjalną metodę estymacji – właśnie w postaci regresji nieliniowej.

Obie zmienne, czyli zależne i niezależne, powinny być zmiennymi ilościowymi. Żeby wynik był ważny, należy określić funkcje dokładnie opisujące relację między zmiennymi. Istotne jest również określenie wartości początkowej.

Przykład tego modelu możemy zastosować wówczas, gdy chcielibyśmy estymować ilość zbiorów kapusty na podstawie czasu. Istnieje silna relacja pomiędzy ilością a czasem, jednak relacja ta będzie nieliniowa.

  1. Autoregresja.

Model zwykłej regresji statystycznej, w której zmienna objaśniana (zmienna, której wartości są estymowane przed model statystyczny), jest przyszłą wartością z szeregu. Natomiast zmienne objaśniające (zmienna, na podstawie której wylicza się zmienną objaśnianą) to wartości szeregu czasowego z przeszłości.

  1. Regresja logistyczna.

Model używany w przypadku, gdy zmienna zależna jest na skali dychotomicznej (rodzaj skali pomiarowej, gdy przyjmuje tylko dwie wartości). Zmienne niezależne w tej analizie mogą przyjąć charakter nominalny, przedziałowy, ilorazowy lub porządkowy. Gdy mowa o zmiennych nominalnych oraz porządkowych następuje ich przekodowanie w liczbę zmiennych zerojedynkowych. Zmienna może być taka samą lub o 1 mniejszą niż liczba kategorii w jej definicji. Czyli, gdy wartości zmiennej objaśnianej wskazują na wystąpienie lub brak wystąpienia pewnego zdarzenia, które chcemy prognozować, regresja logistyczna umożliwi na obliczenie jego prawdopodobieństwa –tzw. prawdopodobieństwem sukcesu.

Bardzo przydatnym narzędziem, który w idealny sposób obrazuje wizualną analizę danych na modelach regresji jest Tableau. Praktyczne porady oraz dashboardy możecie zobaczyć tutaj – https://newdatalabs.com/regresja-liniowa-w-tableau/.

Ostatnio dodane artykuły

  • czerwiec 2021
  • maj 2021
  • marzec 2021
  • luty 2021
  • styczeń 2021
  • grudzień 2020
  • listopad 2020
  • październik 2020
  • wrzesień 2020
  • czerwiec 2020
  • marzec 2020
  • luty 2020
  • grudzień 2019
  • marzec 2019

Sprawdź również

Big data analiza biznesowa wizualizacja danych Business Intelligence analiza danych Tableau narzędzia BI
Aktualności
Wypróbuj Tableau
Polityka prywatności
Kontakt

Zarządzaj zgodą
Aby zapewnić jak najlepsze wrażenia, korzystamy z technologii, takich jak pliki cookie, do przechowywania i/lub uzyskiwania dostępu do informacji o urządzeniu. Zgoda na te technologie pozwoli nam przetwarzać dane, takie jak zachowanie podczas przeglądania lub unikalne identyfikatory na tej stronie. Brak wyrażenia zgody lub wycofanie zgody może niekorzystnie wpłynąć na niektóre cechy i funkcje.
Funkcjonalne Zawsze aktywne
Przechowywanie lub dostęp do danych technicznych jest ściśle konieczny do uzasadnionego celu umożliwienia korzystania z konkretnej usługi wyraźnie żądanej przez subskrybenta lub użytkownika, lub wyłącznie w celu przeprowadzenia transmisji komunikatu przez sieć łączności elektronicznej.
Preferencje
Przechowywanie lub dostęp techniczny jest niezbędny do uzasadnionego celu przechowywania preferencji, o które nie prosi subskrybent lub użytkownik.
Statystyka
Przechowywanie techniczne lub dostęp, który jest używany wyłącznie do celów statystycznych. Przechowywanie techniczne lub dostęp, który jest używany wyłącznie do anonimowych celów statystycznych. Bez wezwania do sądu, dobrowolnego podporządkowania się dostawcy usług internetowych lub dodatkowych zapisów od strony trzeciej, informacje przechowywane lub pobierane wyłącznie w tym celu zwykle nie mogą być wykorzystywane do identyfikacji użytkownika.
Marketing
Przechowywanie lub dostęp techniczny jest wymagany do tworzenia profili użytkowników w celu wysyłania reklam lub śledzenia użytkownika na stronie internetowej lub na kilku stronach internetowych w podobnych celach marketingowych.
Zarządzaj opcjami Zarządzaj serwisami Zarządzaj {vendor_count} dostawcami Przeczytaj więcej o tych celach
Zobacz preferencje
{title} {title} {title}