Uczenie maszynowe bez nadzoru: co to jest, algorytmy, przykład

Spisie treści:

Anonim

Uczenie się bez nadzoru

Uczenie się nienadzorowane to technika uczenia maszynowego, w której użytkownicy nie muszą nadzorować modelu. Zamiast tego umożliwia modelowi samodzielną pracę w celu wykrycia wzorców i informacji, które wcześniej były niewykrywane. Zajmuje się głównie danymi bez etykiety.

Algorytmy uczenia się bez nadzoru

Algorytmy uczenia się bez nadzoru umożliwiają użytkownikom wykonywanie bardziej złożonych zadań przetwarzania w porównaniu z uczeniem nadzorowanym. Chociaż uczenie się bez nadzoru może być bardziej nieprzewidywalne w porównaniu z innymi naturalnymi metodami uczenia się. Algorytmy uczenia się bez nadzoru obejmują grupowanie, wykrywanie anomalii, sieci neuronowe itp.

W tym samouczku dowiesz się:

  • Przykład uczenia maszynowego bez nadzoru
  • Dlaczego uczenie się bez nadzoru?
  • Rodzaje uczenia się bez nadzoru
  • Grupowanie
  • Typy klastrowe
  • Stowarzyszenie
  • Uczenie maszynowe nadzorowane i nienadzorowane
  • Zastosowania uczenia maszynowego bez nadzoru
  • Wady uczenia się bez nadzoru

Przykład uczenia maszynowego bez nadzoru

Weźmy przykład dziecka i jego psa rodzinnego.

Zna i identyfikuje tego psa. Kilka tygodni później przyjaciel rodziny przyprowadza psa i próbuje bawić się z dzieckiem.

Dziecko nie widziało wcześniej tego psa. Ale rozpoznaje wiele cech (2 uszy, oczy, chodzenie na 4 nogach) jest jak jej pies. Identyfikuje nowe zwierzę jako psa. Jest to uczenie się bez nadzoru, w którym nie uczysz się, ale uczysz się na podstawie danych (w tym przypadku danych o psie). Gdyby było to uczenie nadzorowane, przyjaciel rodziny powiedziałby dziecku, że to pies.

Dlaczego uczenie się bez nadzoru?

Oto główne powody korzystania z uczenia się bez nadzoru:

  • Uczenie maszynowe bez nadzoru znajduje w danych wszelkiego rodzaju nieznane wzorce.
  • Metody nienadzorowane pomagają znaleźć funkcje, które mogą być przydatne przy kategoryzacji.
  • Odbywa się to w czasie rzeczywistym, więc wszystkie dane wejściowe należy przeanalizować i oznaczyć w obecności uczniów.
  • Łatwiej jest uzyskać dane bez etykiety z komputera niż dane oznaczone etykietami, które wymagają ręcznej interwencji.

Rodzaje uczenia się bez nadzoru

Nienadzorowane problemy z uczeniem się pogrupowane są dalej w klastry i problemy asocjacyjne.

Grupowanie

Klastrowanie jest ważną koncepcją, jeśli chodzi o uczenie się bez nadzoru. Zajmuje się głównie wyszukiwaniem struktury lub wzoru w zbiorze danych nieskategoryzowanych. Algorytmy klastrowania będą przetwarzać Twoje dane i znajdować naturalne klastry (grupy), jeśli istnieją w danych. Możesz także zmodyfikować liczbę klastrów, które mają identyfikować algorytmy. Pozwala dostosować szczegółowość tych grup.

Istnieją różne typy klastrowania, z których możesz skorzystać:

Ekskluzywne (partycjonowanie)

W tej metodzie grupowania dane są grupowane w taki sposób, że jedne dane mogą należeć tylko do jednego klastra.

Przykład: K-średnie

Aglomeracyjny

W tej technice grupowania każde dane jest klastrem. Iteracyjne związki między dwoma najbliższymi klastrami zmniejszają liczbę klastrów.

Przykład: hierarchiczne grupowanie

Nakładanie się

W tej technice zbiory rozmyte są używane do grupowania danych. Każdy punkt może należeć do dwóch lub więcej klastrów o różnych stopniach członkostwa.

Tutaj dane zostaną powiązane z odpowiednią wartością członkostwa. Przykład: rozmyte C-średnie

Probabilistyczny

Ta technika wykorzystuje rozkład prawdopodobieństwa do tworzenia klastrów

Przykład: następujące słowa kluczowe

  • „but męski”.
  • „buty damskie”.
  • „rękawiczki damskie”.
  • „rękawica męska”.

można podzielić na dwie kategorie: „but” i „rękawiczka” lub „mężczyzna” i „kobieta”.

Typy klastrowe

  • Klastrowanie hierarchiczne
  • Klastry K-średnich
  • K-NN (k najbliższych sąsiadów)
  • Analiza głównych składowych
  • Rozkład według wartości osobliwych
  • Niezależna analiza komponentów

Klastrowanie hierarchiczne:

Klastrowanie hierarchiczne to algorytm budujący hierarchię klastrów. Rozpoczyna się od wszystkich danych, które są przypisane do własnego klastra. Tutaj dwie bliskie klastry będą znajdować się w tym samym klastrze. Ten algorytm kończy się, gdy pozostaje tylko jeden klaster.

Grupowanie środków K

K oznacza, że ​​jest to iteracyjny algorytm klastrowania, który pomaga znaleźć najwyższą wartość dla każdej iteracji. Początkowo wybiera się żądaną liczbę klastrów. W tej metodzie grupowania należy zgrupować punkty danych w k grup. Większe k oznacza mniejsze grupy z większą szczegółowością w ten sam sposób. Mniejsze k oznacza większe grupy z mniejszą szczegółowością.

Wynikiem algorytmu jest grupa „etykiet”. Przypisuje punkt danych do jednej z k grup. W klastrach k-średnich każda grupa jest definiowana przez utworzenie centroidy dla każdej grupy. Centroidy są jak serce gromady, które wychwytuje punkty najbliżej nich i dodaje je do gromady.

Grupowanie K-średnich dodatkowo definiuje dwie podgrupy:

  • Klastry aglomeracyjne
  • Dendrogram

Klastry aglomeracyjne:

Ten typ klastrów K-średnich rozpoczyna się od ustalonej liczby klastrów. Przydziela wszystkie dane do dokładnej liczby klastrów. Ta metoda grupowania nie wymaga liczby klastrów K jako danych wejściowych. Proces aglomeracji rozpoczyna się od utworzenia każdego z danych w jednym klastrze.

Ta metoda wykorzystuje pewną miarę odległości, zmniejsza liczbę klastrów (po jednej w każdej iteracji) poprzez proces scalania. Wreszcie mamy jeden duży klaster zawierający wszystkie obiekty.

Dendrogram:

W metodzie klastrowania Dendrogram każdy poziom będzie reprezentował możliwy klaster. Wysokość dendrogramu pokazuje poziom podobieństwa między dwoma połączonymi klastrami. Im bliżej dna procesu, tym bardziej zbliżone są skupienie, czyli znalezienie grupy z dendrogramu, co nie jest naturalne iw większości subiektywne.

K- Najbliżsi sąsiedzi

K- najbliższy sąsiad jest najprostszym ze wszystkich klasyfikatorów uczenia maszynowego. Różni się od innych technik uczenia maszynowego tym, że nie tworzy modelu. Jest to prosty algorytm, który przechowuje wszystkie dostępne przypadki i klasyfikuje nowe instancje na podstawie miary podobieństwa.

Działa bardzo dobrze, gdy między przykładami jest dystans. Szybkość uczenia się jest niska, gdy zestaw treningowy jest duży, a obliczanie odległości jest nietrywialne.

Analiza głównych składników:

Na wypadek, gdybyś chciał mieć wyższą przestrzeń wymiarową. Musisz wybrać podstawę dla tej przestrzeni i tylko 200 najważniejszych wyników tej podstawy. Ta podstawa jest znana jako główny składnik. Wybrany podzbiór to nowa przestrzeń o niewielkich rozmiarach w porównaniu z oryginalną przestrzenią. Utrzymuje jak największą złożoność danych.

Stowarzyszenie

Reguły asocjacyjne umożliwiają tworzenie powiązań między obiektami danych w dużych bazach danych. Ta nienadzorowana technika polega na odkrywaniu interesujących relacji między zmiennymi w dużych bazach danych. Na przykład osoby, które kupują nowy dom, najprawdopodobniej kupią nowe meble.

Inne przykłady:

  • Podgrupa pacjentów z rakiem pogrupowana według pomiarów ekspresji genów
  • Grupy kupujących na podstawie historii przeglądania i zakupów
  • Grupa filmów według oceny nadanej przez widzów

Uczenie maszynowe nadzorowane i nienadzorowane

Parametry Nadzorowana technika uczenia maszynowego Technika uczenia maszynowego bez nadzoru
Dane wejściowe Algorytmy są uczone przy użyciu oznaczonych danych. Algorytmy są używane do danych, które nie są oznaczone
Złożoność obliczeniowa Uczenie nadzorowane jest prostszą metodą. Uczenie się bez nadzoru jest obliczeniowo złożone
Precyzja Bardzo dokładna i godna zaufania metoda. Mniej dokładna i wiarygodna metoda.

Zastosowania uczenia maszynowego bez nadzoru

Niektóre zastosowania nienadzorowanych technik uczenia maszynowego to:

  • Klastrowanie automatycznie dzieli zbiór danych na grupy na podstawie ich podobieństw
  • Wykrywanie anomalii może wykryć nietypowe punkty danych w zbiorze danych. Jest to przydatne do znajdowania fałszywych transakcji
  • Eksploracja skojarzeń identyfikuje zestawy elementów, które często występują razem w zbiorze danych
  • Modele zmiennych utajonych są szeroko stosowane do wstępnego przetwarzania danych. Na przykład zmniejszenie liczby funkcji w zbiorze danych lub rozłożenie zbioru danych na wiele składników

Wady uczenia się bez nadzoru

  • Nie można uzyskać dokładnych informacji dotyczących sortowania danych, a dane wyjściowe jako dane używane w uczeniu się bez nadzoru są oznaczone i nieznane
  • Mniejsza dokładność wyników wynika z tego, że dane wejściowe nie są znane i nie są z góry oznaczone przez ludzi. Oznacza to, że maszyna musi to zrobić sama.
  • Klasy widmowe nie zawsze odpowiadają klasom informacyjnym.
  • Użytkownik musi poświęcić czas na interpretację i etykietowanie klas, które są zgodne z tą klasyfikacją.
  • Właściwości widmowe klas mogą również zmieniać się w czasie, więc nie możesz mieć tych samych informacji o klasie podczas przechodzenia z jednego obrazu do drugiego.

Podsumowanie

  • Uczenie się nienadzorowane to technika uczenia maszynowego, w której nie ma potrzeby nadzorowania modelu.
  • Uczenie maszynowe bez nadzoru pomaga znaleźć wszelkiego rodzaju nieznane wzorce w danych.
  • Klastrowanie i skojarzenie to dwa rodzaje uczenia się nienadzorowanego.
  • Cztery rodzaje metod grupowania to 1) wyłączne 2) aglomeracyjne 3) nakładające się 4) probabilistyczne.
  • Ważnymi typami skupień są: 1) Klastry hierarchiczne 2) Klastry K-średnich 3) K-NN 4) Analiza głównych składowych 5) Rozkład według wartości osobliwych 6) Analiza niezależnych komponentów.
  • Reguły asocjacyjne umożliwiają tworzenie powiązań między obiektami danych w dużych bazach danych.
  • W uczeniu nadzorowanym algorytmy są uczone przy użyciu oznaczonych danych, natomiast w przypadku uczenia nienadzorowanego algorytmy są używane do danych, które nie są oznaczone etykietami.
  • Wykrywanie anomalii może wykryć ważne punkty danych w zbiorze danych, co jest przydatne do znajdowania fałszywych transakcji.
  • Największą wadą uczenia bez nadzoru jest to, że nie można uzyskać dokładnych informacji dotyczących sortowania danych.