Nadzorowane uczenie maszynowe: co to jest, algorytmy, przykład

Spisie treści:

Anonim

Co to jest nadzorowane uczenie maszynowe?

W uczeniu nadzorowanym trenujesz maszynę przy użyciu danych, które są dobrze „oznaczone ”. Oznacza to, że niektóre dane są już oznaczone poprawną odpowiedzią. Można to porównać do uczenia się, które odbywa się w obecności opiekuna lub nauczyciela.

Algorytm uczenia nadzorowanego uczy się na podstawie oznaczonych danych szkoleniowych, pomaga przewidywać wyniki dla nieprzewidzianych danych.

Pomyślne budowanie, skalowanie i wdrażanie dokładnych nadzorowanych modeli uczenia maszynowego wymaga czasu i wiedzy technicznej zespołu wysoko wykwalifikowanych analityków danych. Co więcej, naukowiec zajmujący się danymi musi przebudować modele, aby upewnić się, że podane spostrzeżenia pozostaną prawdziwe do czasu zmiany danych.

W tym samouczku dowiesz się:

  • Co to jest nadzorowane uczenie maszynowe?
  • Jak działa uczenie nadzorowane
  • Rodzaje nadzorowanych algorytmów uczenia maszynowego
  • Techniki uczenia maszynowego nadzorowane i nienadzorowane
  • Wyzwania w nadzorowanym uczeniu maszynowym
  • Zalety nadzorowanego uczenia się:
  • Wady nadzorowanego uczenia się
  • Najlepsze praktyki dotyczące nadzorowanego uczenia się

Jak działa uczenie nadzorowane

Na przykład chcesz wyszkolić maszynę, aby pomogła Ci przewidzieć, ile czasu zajmie Ci podróż do domu z miejsca pracy. Tutaj zaczynasz od utworzenia zestawu oznaczonych danych. Dane te obejmują

  • Warunki pogodowe
  • Pora dnia
  • Wakacje

Wszystkie te szczegóły są Twoimi danymi wejściowymi. Wynik to czas potrzebny na powrót do domu w tym konkretnym dniu.

Instynktownie wiesz, że jeśli na dworze pada deszcz, jazda do domu zajmie Ci więcej czasu. Ale maszyna potrzebuje danych i statystyk.

Zobaczmy teraz, jak możesz opracować nadzorowany model uczenia się z tego przykładu, który pomoże użytkownikowi określić czas dojazdów do pracy. Pierwszą rzeczą, którą musisz stworzyć, jest zestaw treningowy. Ten zestaw treningowy będzie zawierał całkowity czas dojazdów do pracy i odpowiednie czynniki, takie jak pogoda, czas itp. Na podstawie tego zestawu treningowego Twoja maszyna może zobaczyć, że istnieje bezpośredni związek między ilością deszczu a czasem, jaki zajmie Ci dotarcie do domu.

Sprawdza więc, że im więcej pada, tym dłużej będziesz jechał, aby wrócić do domu. Może również dostrzec związek między momentem wyjścia z pracy a czasem, gdy będziesz w drodze.

Im bliżej 18:00, tym dłużej zajmie Ci powrót do domu. Twój komputer może znaleźć niektóre powiązania z danymi oznaczonymi etykietami.

To jest początek Twojego modelu danych. Zaczyna wpływać na to, jak deszcz wpływa na sposób, w jaki ludzie jeżdżą. Zaczyna również zauważać, że więcej osób podróżuje o określonej porze dnia.

Rodzaje nadzorowanych algorytmów uczenia maszynowego

Regresja:

Technika regresji przewiduje pojedynczą wartość wyjściową na podstawie danych uczących.

Przykład : Możesz użyć regresji, aby przewidzieć cenę domu na podstawie danych szkoleniowych. Zmiennymi wejściowymi będą lokalizacja, wielkość domu itp.

Mocne strony : Wyniki zawsze mają probabilistyczną interpretację, a algorytm można regulować, aby uniknąć nadmiernego dopasowania.

Słabe strony : Regresja logistyczna może działać gorzej niż wtedy, gdy istnieje wiele lub nieliniowych granic decyzyjnych. Ta metoda nie jest elastyczna, więc nie obejmuje bardziej złożonych relacji.

Regresja logistyczna:

Metoda regresji logistycznej stosowana do szacowania wartości dyskretnych na podstawie danego zestawu zmiennych niezależnych. Pomaga przewidzieć prawdopodobieństwo wystąpienia zdarzenia poprzez dopasowanie danych do funkcji logit. Dlatego jest również znany jako regresja logistyczna. Ponieważ przewiduje prawdopodobieństwo, jego wartość wyjściowa mieści się w zakresie od 0 do 1.

Oto kilka typów algorytmów regresji

Klasyfikacja:

Klasyfikacja oznacza grupowanie wyników wewnątrz klasy. Jeśli algorytm próbuje podzielić dane wejściowe na dwie odrębne klasy, nazywa się to klasyfikacją binarną. Wybieranie między więcej niż dwiema klasami nazywa się klasyfikacją wieloklasową.

Przykład : ustalenie, czy ktoś będzie odstępował od pożyczki.

Mocne strony : Drzewo klasyfikacyjne sprawdza się bardzo dobrze w praktyce

Słabe strony : Niepowiązane, pojedyncze drzewa są podatne na nadmierne dopasowanie.

Oto kilka typów algorytmów klasyfikacji

Naiwni klasyfikatorzy Bayesa

Naiwny model Bayesa (NBN) jest łatwy do zbudowania i bardzo przydatny w przypadku dużych zbiorów danych. Ta metoda składa się z bezpośrednich acyklicznych grafów z jednym rodzicem i kilkoma dziećmi. Zakłada niezależność między węzłami potomnymi oddzielonymi od rodzica.

Drzewa decyzyjne

Drzewa decyzji klasyfikują instancje, sortując je na podstawie wartości elementu. W tej metodzie każdy tryb jest cechą instancji. Powinien być sklasyfikowany, a każda gałąź reprezentuje wartość, którą węzeł może przyjąć. Jest to szeroko stosowana technika klasyfikacji. W tej metodzie klasyfikacja to drzewo znane jako drzewo decyzyjne.

Pomaga oszacować rzeczywiste wartości (koszt zakupu samochodu, liczba połączeń, łączna miesięczna sprzedaż itp.).

Maszyna wektorów nośnych

Maszyna wektorów nośnych (SVM) jest rodzajem algorytmu uczenia się opracowanego w 1990 roku. Metoda ta jest oparta na wynikach statystycznej teorii uczenia się wprowadzonej przez Vap Nika.

Maszyny SVM są również ściśle powiązane z funkcjami jądra, co stanowi centralną koncepcję większości zadań uczenia się. Struktura jądra i SVM są używane w różnych dziedzinach. Obejmuje wyszukiwanie informacji multimedialnych, bioinformatykę i rozpoznawanie wzorców.

Techniki uczenia maszynowego nadzorowane i nienadzorowane

Oparte na Nadzorowana technika uczenia maszynowego Technika uczenia maszynowego bez nadzoru
Dane wejściowe Algorytmy są uczone przy użyciu oznaczonych danych. Algorytmy są używane do danych, które nie są oznaczone
Złożoność obliczeniowa Uczenie nadzorowane jest prostszą metodą. Uczenie się bez nadzoru jest obliczeniowo złożone
Precyzja Bardzo dokładna i godna zaufania metoda. Mniej dokładna i wiarygodna metoda.

Wyzwania w nadzorowanym uczeniu maszynowym

Oto wyzwania stojące przed nadzorowanym uczeniem maszynowym:

  • Nieistotne dane wejściowe przedstawiające dane treningowe mogą dawać niedokładne wyniki
  • Przygotowanie i wstępne przetwarzanie danych jest zawsze wyzwaniem.
  • Dokładność cierpi, gdy niemożliwe, mało prawdopodobne i niepełne wartości zostały wprowadzone jako dane szkoleniowe
  • Jeśli dany ekspert nie jest dostępny, wówczas drugim podejściem jest „brutalna siła”. Oznacza to, że musisz pomyśleć o odpowiednich funkcjach (zmiennych wejściowych), w których możesz trenować maszynę. Może być niedokładne.

Zalety nadzorowanego uczenia się:

  • Uczenie nadzorowane umożliwia zbieranie danych lub tworzenie danych wyjściowych z poprzedniego doświadczenia
  • Pomaga zoptymalizować kryteria wydajności za pomocą doświadczenia
  • Nadzorowane uczenie maszynowe pomaga rozwiązywać różne typy problemów obliczeniowych w świecie rzeczywistym.

Wady nadzorowanego uczenia się

  • Granica decyzyjna może zostać przetrenowana, jeśli Twój zestaw treningowy nie zawiera przykładów, które chcesz mieć na zajęciach
  • Podczas szkolenia klasyfikatora musisz wybrać wiele dobrych przykładów z każdej klasy.
  • Klasyfikacja dużych zbiorów danych może być prawdziwym wyzwaniem.
  • Szkolenie w zakresie uczenia nadzorowanego wymaga dużo czasu obliczeniowego.

Najlepsze praktyki dotyczące nadzorowanego uczenia się

  • Zanim zrobisz cokolwiek innego, musisz zdecydować, jakie dane mają być używane jako zbiór uczący
  • Musisz zdecydować o strukturze wyuczonej funkcji i algorytmie uczenia się.
  • Zbierz odpowiednie dane wyjściowe od ekspertów lub pomiarów

Podsumowanie

  • W uczeniu nadzorowanym trenujesz maszynę przy użyciu danych, które są dobrze „oznaczone”.
  • Chcesz wyszkolić maszynę, która pomoże Ci przewidzieć, ile czasu zajmie Ci jazda do domu z miejsca pracy, to przykład uczenia się nadzorowanego
  • Regresja i klasyfikacja to dwa rodzaje nadzorowanych technik uczenia maszynowego.
  • Uczenie się nadzorowane jest prostszą metodą, podczas gdy uczenie się bez nadzoru jest metodą złożoną.
  • Największym wyzwaniem w uczeniu się nadzorowanym jest to, że nieistotne dane wejściowe obecne dane szkoleniowe mogą dawać niedokładne wyniki.
  • Główną zaletą nadzorowanego uczenia się jest to, że umożliwia gromadzenie danych lub tworzenie danych wyjściowych z poprzedniego doświadczenia.
  • Wadą tego modelu jest to, że granica decyzyjna może być przeciążona, jeśli zestaw szkoleniowy nie zawiera przykładów, które chcesz mieć na zajęciach.
  • Zgodnie z najlepszą praktyką nadzorowania uczenia się, musisz najpierw zdecydować, jakie dane mają być używane jako zestaw szkoleniowy.