Uczenie się bez nadzoru
Uczenie się nienadzorowane to technika uczenia maszynowego, w której użytkownicy nie muszą nadzorować modelu. Zamiast tego umożliwia modelowi samodzielną pracę w celu wykrycia wzorców i informacji, które wcześniej były niewykrywane. Zajmuje się głównie danymi bez etykiety.
Algorytmy uczenia się bez nadzoru
Algorytmy uczenia się bez nadzoru umożliwiają użytkownikom wykonywanie bardziej złożonych zadań przetwarzania w porównaniu z uczeniem nadzorowanym. Chociaż uczenie się bez nadzoru może być bardziej nieprzewidywalne w porównaniu z innymi naturalnymi metodami uczenia się. Algorytmy uczenia się bez nadzoru obejmują grupowanie, wykrywanie anomalii, sieci neuronowe itp.
W tym samouczku dowiesz się:
- Przykład uczenia maszynowego bez nadzoru
- Dlaczego uczenie się bez nadzoru?
- Rodzaje uczenia się bez nadzoru
- Grupowanie
- Typy klastrowe
- Stowarzyszenie
- Uczenie maszynowe nadzorowane i nienadzorowane
- Zastosowania uczenia maszynowego bez nadzoru
- Wady uczenia się bez nadzoru
Przykład uczenia maszynowego bez nadzoru
Weźmy przykład dziecka i jego psa rodzinnego.
Zna i identyfikuje tego psa. Kilka tygodni później przyjaciel rodziny przyprowadza psa i próbuje bawić się z dzieckiem.
Dziecko nie widziało wcześniej tego psa. Ale rozpoznaje wiele cech (2 uszy, oczy, chodzenie na 4 nogach) jest jak jej pies. Identyfikuje nowe zwierzę jako psa. Jest to uczenie się bez nadzoru, w którym nie uczysz się, ale uczysz się na podstawie danych (w tym przypadku danych o psie). Gdyby było to uczenie nadzorowane, przyjaciel rodziny powiedziałby dziecku, że to pies.
Dlaczego uczenie się bez nadzoru?
Oto główne powody korzystania z uczenia się bez nadzoru:
- Uczenie maszynowe bez nadzoru znajduje w danych wszelkiego rodzaju nieznane wzorce.
- Metody nienadzorowane pomagają znaleźć funkcje, które mogą być przydatne przy kategoryzacji.
- Odbywa się to w czasie rzeczywistym, więc wszystkie dane wejściowe należy przeanalizować i oznaczyć w obecności uczniów.
- Łatwiej jest uzyskać dane bez etykiety z komputera niż dane oznaczone etykietami, które wymagają ręcznej interwencji.
Rodzaje uczenia się bez nadzoru
Nienadzorowane problemy z uczeniem się pogrupowane są dalej w klastry i problemy asocjacyjne.
Grupowanie
Klastrowanie jest ważną koncepcją, jeśli chodzi o uczenie się bez nadzoru. Zajmuje się głównie wyszukiwaniem struktury lub wzoru w zbiorze danych nieskategoryzowanych. Algorytmy klastrowania będą przetwarzać Twoje dane i znajdować naturalne klastry (grupy), jeśli istnieją w danych. Możesz także zmodyfikować liczbę klastrów, które mają identyfikować algorytmy. Pozwala dostosować szczegółowość tych grup.
Istnieją różne typy klastrowania, z których możesz skorzystać:
Ekskluzywne (partycjonowanie)
W tej metodzie grupowania dane są grupowane w taki sposób, że jedne dane mogą należeć tylko do jednego klastra.
Przykład: K-średnie
Aglomeracyjny
W tej technice grupowania każde dane jest klastrem. Iteracyjne związki między dwoma najbliższymi klastrami zmniejszają liczbę klastrów.
Przykład: hierarchiczne grupowanie
Nakładanie się
W tej technice zbiory rozmyte są używane do grupowania danych. Każdy punkt może należeć do dwóch lub więcej klastrów o różnych stopniach członkostwa.
Tutaj dane zostaną powiązane z odpowiednią wartością członkostwa. Przykład: rozmyte C-średnie
Probabilistyczny
Ta technika wykorzystuje rozkład prawdopodobieństwa do tworzenia klastrów
Przykład: następujące słowa kluczowe
- „but męski”.
- „buty damskie”.
- „rękawiczki damskie”.
- „rękawica męska”.
można podzielić na dwie kategorie: „but” i „rękawiczka” lub „mężczyzna” i „kobieta”.
Typy klastrowe
- Klastrowanie hierarchiczne
- Klastry K-średnich
- K-NN (k najbliższych sąsiadów)
- Analiza głównych składowych
- Rozkład według wartości osobliwych
- Niezależna analiza komponentów
Klastrowanie hierarchiczne:
Klastrowanie hierarchiczne to algorytm budujący hierarchię klastrów. Rozpoczyna się od wszystkich danych, które są przypisane do własnego klastra. Tutaj dwie bliskie klastry będą znajdować się w tym samym klastrze. Ten algorytm kończy się, gdy pozostaje tylko jeden klaster.
Grupowanie środków K
K oznacza, że jest to iteracyjny algorytm klastrowania, który pomaga znaleźć najwyższą wartość dla każdej iteracji. Początkowo wybiera się żądaną liczbę klastrów. W tej metodzie grupowania należy zgrupować punkty danych w k grup. Większe k oznacza mniejsze grupy z większą szczegółowością w ten sam sposób. Mniejsze k oznacza większe grupy z mniejszą szczegółowością.
Wynikiem algorytmu jest grupa „etykiet”. Przypisuje punkt danych do jednej z k grup. W klastrach k-średnich każda grupa jest definiowana przez utworzenie centroidy dla każdej grupy. Centroidy są jak serce gromady, które wychwytuje punkty najbliżej nich i dodaje je do gromady.
Grupowanie K-średnich dodatkowo definiuje dwie podgrupy:
- Klastry aglomeracyjne
- Dendrogram
Klastry aglomeracyjne:
Ten typ klastrów K-średnich rozpoczyna się od ustalonej liczby klastrów. Przydziela wszystkie dane do dokładnej liczby klastrów. Ta metoda grupowania nie wymaga liczby klastrów K jako danych wejściowych. Proces aglomeracji rozpoczyna się od utworzenia każdego z danych w jednym klastrze.
Ta metoda wykorzystuje pewną miarę odległości, zmniejsza liczbę klastrów (po jednej w każdej iteracji) poprzez proces scalania. Wreszcie mamy jeden duży klaster zawierający wszystkie obiekty.
Dendrogram:
W metodzie klastrowania Dendrogram każdy poziom będzie reprezentował możliwy klaster. Wysokość dendrogramu pokazuje poziom podobieństwa między dwoma połączonymi klastrami. Im bliżej dna procesu, tym bardziej zbliżone są skupienie, czyli znalezienie grupy z dendrogramu, co nie jest naturalne iw większości subiektywne.
K- Najbliżsi sąsiedzi
K- najbliższy sąsiad jest najprostszym ze wszystkich klasyfikatorów uczenia maszynowego. Różni się od innych technik uczenia maszynowego tym, że nie tworzy modelu. Jest to prosty algorytm, który przechowuje wszystkie dostępne przypadki i klasyfikuje nowe instancje na podstawie miary podobieństwa.
Działa bardzo dobrze, gdy między przykładami jest dystans. Szybkość uczenia się jest niska, gdy zestaw treningowy jest duży, a obliczanie odległości jest nietrywialne.
Analiza głównych składników:
Na wypadek, gdybyś chciał mieć wyższą przestrzeń wymiarową. Musisz wybrać podstawę dla tej przestrzeni i tylko 200 najważniejszych wyników tej podstawy. Ta podstawa jest znana jako główny składnik. Wybrany podzbiór to nowa przestrzeń o niewielkich rozmiarach w porównaniu z oryginalną przestrzenią. Utrzymuje jak największą złożoność danych.
Stowarzyszenie
Reguły asocjacyjne umożliwiają tworzenie powiązań między obiektami danych w dużych bazach danych. Ta nienadzorowana technika polega na odkrywaniu interesujących relacji między zmiennymi w dużych bazach danych. Na przykład osoby, które kupują nowy dom, najprawdopodobniej kupią nowe meble.
Inne przykłady:
- Podgrupa pacjentów z rakiem pogrupowana według pomiarów ekspresji genów
- Grupy kupujących na podstawie historii przeglądania i zakupów
- Grupa filmów według oceny nadanej przez widzów
Uczenie maszynowe nadzorowane i nienadzorowane
Parametry | Nadzorowana technika uczenia maszynowego | Technika uczenia maszynowego bez nadzoru |
Dane wejściowe | Algorytmy są uczone przy użyciu oznaczonych danych. | Algorytmy są używane do danych, które nie są oznaczone |
Złożoność obliczeniowa | Uczenie nadzorowane jest prostszą metodą. | Uczenie się bez nadzoru jest obliczeniowo złożone |
Precyzja | Bardzo dokładna i godna zaufania metoda. | Mniej dokładna i wiarygodna metoda. |
Zastosowania uczenia maszynowego bez nadzoru
Niektóre zastosowania nienadzorowanych technik uczenia maszynowego to:
- Klastrowanie automatycznie dzieli zbiór danych na grupy na podstawie ich podobieństw
- Wykrywanie anomalii może wykryć nietypowe punkty danych w zbiorze danych. Jest to przydatne do znajdowania fałszywych transakcji
- Eksploracja skojarzeń identyfikuje zestawy elementów, które często występują razem w zbiorze danych
- Modele zmiennych utajonych są szeroko stosowane do wstępnego przetwarzania danych. Na przykład zmniejszenie liczby funkcji w zbiorze danych lub rozłożenie zbioru danych na wiele składników
Wady uczenia się bez nadzoru
- Nie można uzyskać dokładnych informacji dotyczących sortowania danych, a dane wyjściowe jako dane używane w uczeniu się bez nadzoru są oznaczone i nieznane
- Mniejsza dokładność wyników wynika z tego, że dane wejściowe nie są znane i nie są z góry oznaczone przez ludzi. Oznacza to, że maszyna musi to zrobić sama.
- Klasy widmowe nie zawsze odpowiadają klasom informacyjnym.
- Użytkownik musi poświęcić czas na interpretację i etykietowanie klas, które są zgodne z tą klasyfikacją.
- Właściwości widmowe klas mogą również zmieniać się w czasie, więc nie możesz mieć tych samych informacji o klasie podczas przechodzenia z jednego obrazu do drugiego.
Podsumowanie
- Uczenie się nienadzorowane to technika uczenia maszynowego, w której nie ma potrzeby nadzorowania modelu.
- Uczenie maszynowe bez nadzoru pomaga znaleźć wszelkiego rodzaju nieznane wzorce w danych.
- Klastrowanie i skojarzenie to dwa rodzaje uczenia się nienadzorowanego.
- Cztery rodzaje metod grupowania to 1) wyłączne 2) aglomeracyjne 3) nakładające się 4) probabilistyczne.
- Ważnymi typami skupień są: 1) Klastry hierarchiczne 2) Klastry K-średnich 3) K-NN 4) Analiza głównych składowych 5) Rozkład według wartości osobliwych 6) Analiza niezależnych komponentów.
- Reguły asocjacyjne umożliwiają tworzenie powiązań między obiektami danych w dużych bazach danych.
- W uczeniu nadzorowanym algorytmy są uczone przy użyciu oznaczonych danych, natomiast w przypadku uczenia nienadzorowanego algorytmy są używane do danych, które nie są oznaczone etykietami.
- Wykrywanie anomalii może wykryć ważne punkty danych w zbiorze danych, co jest przydatne do znajdowania fałszywych transakcji.
- Największą wadą uczenia bez nadzoru jest to, że nie można uzyskać dokładnych informacji dotyczących sortowania danych.