Co to jest macierz zamieszania?
Macierz pomyłki to technika pomiaru wydajności na potrzeby klasyfikacji uczenia maszynowego. Jest to rodzaj tabeli, która pomaga poznać działanie modelu klasyfikacji na zbiorze danych testowych, dla których znane są prawdziwe wartości. Samo pojęcie matrycy zamieszania jest bardzo proste, ale związana z nim terminologia może być nieco zagmatwana. Tutaj podano proste wyjaśnienie tej techniki.
W tym samouczku dowiesz się,
- Co to jest matryca zamieszania?
- Cztery wyniki macierzy nieporozumień
- Przykład macierzy nieporozumień:
- Jak obliczyć macierz nieporozumień
- Inne ważne terminy z wykorzystaniem macierzy nieporozumień
- Dlaczego potrzebujesz Confusion Matrix?
Cztery wyniki macierzy nieporozumień
Macierz pomyłki wizualizuje dokładność klasyfikatora poprzez porównanie klas rzeczywistych i przewidywanych. Binarna macierz pomyłek składa się z kwadratów:
- TP: True Positive: Przewidywane wartości prawidłowo przewidywane jako rzeczywiste pozytywne
- FP: Przewidywane wartości nieprawidłowo przewidywały faktyczny wynik dodatni. tj. wartości ujemne przewidywane jako pozytywne
- FN: Fałszywie ujemne: dodatnie wartości przewidywane jako ujemne
- TN: True Negative: Przewidywane wartości prawidłowo przewidywane jako rzeczywiste ujemne
Możesz obliczyć test dokładności z macierzy nieporozumień:
Przykład matrycy nieporozumień:
Macierz konfuzji to przydatna metoda uczenia maszynowego, która pozwala mierzyć przywołanie, precyzję, dokładność i krzywą AUC-ROC. Poniżej podano przykład znajomości terminów prawdziwie pozytywny, prawdziwie negatywny, fałszywie negatywny i prawdziwie negatywny.
Prawdziwie pozytywne:
Projektujesz pozytywnie i okazuje się, że to prawda. Na przykład przewidziałeś, że Francja zdobędzie mistrzostwo świata i wygrała.
Prawdziwie negatywne:
Kiedy przewidziałeś coś negatywnego i to prawda. Przewidziałeś, że Anglia nie wygra i przegrała.
Wynik fałszywie pozytywny:
Twoja prognoza jest pozytywna i fałszywa.
Przewidziałeś, że Anglia wygra, ale przegrała.
Fałszywie negatywny:
Twoja prognoza jest negatywna, a wynik również jest fałszywy.
Przewidziałeś, że Francja nie wygra, ale wygrała.
Należy pamiętać, że przewidywane wartości opisujemy jako Prawda lub Fałsz lub Pozytywna i Negatywna.
Jak obliczyć macierz nieporozumień
Oto proces krok po kroku obliczania macierzy nieporozumień w eksploracji danych
- Krok 1) Najpierw musisz przetestować zbiór danych z jego oczekiwanymi wartościami wyników.
- Krok 2) Wytypuj wszystkie wiersze w testowym zestawie danych.
- Krok 3) Oblicz oczekiwane prognozy i wyniki:
- Suma poprawnych przewidywań dla każdej klasy.
- Suma błędnych przewidywań dla każdej klasy.
Następnie liczby te są uporządkowane według poniższych metod:
- Każdy wiersz macierzy jest powiązany z przewidywaną klasą.
- Każda kolumna macierzy odpowiada aktualnej klasie.
- Łączne liczby poprawnych i niepoprawnych klasyfikacji są wprowadzane do tabeli.
- Suma poprawnych prognoz dla klasy trafia do przewidywanej kolumny i oczekiwanego wiersza dla tej wartości klasy.
- Suma nieprawidłowych prognoz dla klasy trafia do oczekiwanego wiersza dla tej wartości klasy i przewidywanej kolumny dla tej określonej wartości klasy.
Inne ważne terminy z wykorzystaniem macierzy nieporozumień
- Pozytywna wartość predykcyjna (PVV): Jest to bardzo bliskie precyzji. Jedna znacząca różnica między dwoma terminami polega na tym, że PVV bierze pod uwagę rozpowszechnienie. W sytuacji, gdy klasy są doskonale zbilansowane, dodatnia wartość predykcyjna jest taka sama jak precyzja.
- Współczynnik błędów zerowych: Ten termin jest używany do określenia, ile razy Twoja prognoza byłaby błędna, gdybyś mógł przewidzieć klasę większości. Możesz to potraktować jako bazową metrykę do porównania klasyfikatora.
- Wynik F: Wynik F1 to średnia ważona wyniku prawdziwie pozytywnego (przypominającego) i precyzji.
- Krzywa Roc: Krzywa Roc przedstawia rzeczywiste wskaźniki dodatnie w stosunku do odsetka fałszywie dodatnich w różnych punktach odcięcia. Pokazuje również kompromis między wrażliwością (przypominanie i swoistość lub prawdziwie ujemny współczynnik).
- Precyzja: metryka precyzji pokazuje dokładność klasy dodatniej. Mierzy prawdopodobieństwo, że prognoza klasy pozytywnej jest poprawna.
Maksymalny wynik to 1, gdy klasyfikator doskonale klasyfikuje wszystkie dodatnie wartości. Sama precyzja nie jest zbyt pomocna, ponieważ pomija klasę negatywną. Metryka jest zwykle łączona z metryką Przywróć. Przypomnienie jest również nazywane czułością lub prawdziwym współczynnikiem dodatnim.
- Czułość : Czułość oblicza stosunek poprawnie wykrytych klas dodatnich. Ta miara określa, jak dobry jest model w rozpoznawaniu pozytywnej klasy.
Dlaczego potrzebujesz Confusion Matrix?
Oto zalety / zalety korzystania z macierzy nieporozumień.
- Pokazuje, w jaki sposób każdy model klasyfikacji jest zdezorientowany, gdy tworzy prognozy.
- Macierz nieporozumień zapewnia nie tylko wgląd w błędy popełniane przez klasyfikator, ale także typy błędów, które są popełniane.
- Ten podział pomaga przezwyciężyć ograniczenia wynikające z używania samej dokładności klasyfikacji.
- Każda kolumna macierzy pomyłki reprezentuje wystąpienia tej przewidywanej klasy.
- Każdy wiersz macierzy pomyłki reprezentuje instancje aktualnej klasy.
- Daje wgląd nie tylko w błędy popełniane przez klasyfikator, ale także błędy, które są popełniane.