W tym samouczku nauczysz się -
- Instalowanie NLTK w systemie Windows
- Instalowanie Pythona w systemie Windows
- Instalowanie NLTK w systemie Mac / Linux
- Instalowanie NLTK przez Anacondę
- Zestaw danych NLTK
- Jak pobrać wszystkie pakiety NLTK
- Uruchomienie skryptu NLP
- Jak uruchomić skrypt NLTK
Instalowanie NLTK w systemie Windows
W tej części dowiemy się, jak skonfigurować NLTK przez terminal (wiersz polecenia w systemie Windows).
Poniższe instrukcje opierają się na założeniu, że nie masz zainstalowanego Pythona. Tak więc pierwszym krokiem jest instalacja Pythona.
Instalowanie Pythona w systemie Windows:
Krok 1) Idź do odwołuje https://www.python.org/downloads/ , wybierz ostatnią wersję dla Windows.
Uwaga : jeśli nie chcesz pobierać najnowszej wersji, możesz odwiedzić kartę pobierania i zobaczyć wszystkie wersje.
Krok 2) Kliknij pobrany plik
Krok 3) Wybierz opcję Dostosuj instalację
Krok 4) Kliknij DALEJ
Krok 5) Na następnym ekranie
- Wybierz opcje zaawansowane
- Podaj lokalizację instalacji niestandardowej. W moim przypadku folder na dysku C jest wybierany ze względu na łatwość obsługi
- Kliknij Zainstaluj
Krok 6) Po zakończeniu instalacji kliknij przycisk Zamknij.
Krok 7) Skopiuj ścieżkę do folderu Scripts.
Krok 8) W wierszu poleceń systemu Windows
- Przejdź do lokalizacji folderu pip
- Wpisz polecenie, aby zainstalować NLTK
pip3 install nltk
- Instalacja powinna przebiegać pomyślnie
UWAGA : W przypadku Python2 użyj polecenia commandpip2 install nltk
Krok 9) W menu Start systemu Windows wyszukaj i otwórz PythonShell
Krok 10) Możesz sprawdzić, czy instalacja jest dokładna, podając poniższe polecenie
import nltk
Jeśli nie widzisz żadnego błędu, oznacza to, że instalacja została zakończona.
Instalowanie NLTK w systemie Mac / Linux
Instalacja NLTK w systemie Mac / Unix wymaga menedżera pakietów Pythona pip do zainstalowania nltk. Jeśli pip nie jest zainstalowany, postępuj zgodnie z poniższymi instrukcjami, aby zakończyć proces
Krok 1) Zaktualizuj indeks pakietu, wpisując poniższe polecenie
sudo apt update
Krok 2) Instalacja pip dla Pythona 3:
sudo apt install python3-pip
Możesz także zainstalować pip za pomocą easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Teraz easy_install jest zainstalowana. Uruchom poniższe polecenie, aby zainstalować pip
sudo easy_install pip
Krok 3) Użyj następującego polecenia, aby zainstalować NLTK
sudo pip install -U nltksudo pip3 install -U nltk
Instalowanie NLTK przez Anacondę
Krok 1) Zainstaluj program anaconda (który może być również używany do instalowania różnych pakietów), odwiedzając https://www.anaconda.com/products/indywidualne i wybierz wersję Pythona, którą chcesz zainstalować dla anacondy.
Uwaga: zapoznaj się z tym samouczkiem, aby uzyskać szczegółowe instrukcje instalacji programu Anaconda
Krok 2) W monicie Anaconda,
- Wpisz polecenie
conda install -c anaconda nltk
- Przejrzyj aktualizację pakietu, obniżenie wersji, informacje o instalacji i wpisz tak
- NLTK jest pobierany i instalowany
Zestaw danych NLTK
Moduł NLTK ma wiele dostępnych zestawów danych, które należy pobrać, aby móc z nich korzystać. Bardziej technicznie nazywa się to korpusem . Niektóre przykłady są stopwords , Gutenberg , framenet_v15 , large_grammars i tak dalej.
Jak pobrać wszystkie pakiety NLTK
Krok 1) Uruchom interpreter języka Python w systemie Windows lub Linux
Krok 2)
- Wprowadź polecenia
import nltknltk.download ()
- Otwiera się okno pobierania NLTK. Kliknij przycisk Pobierz, aby pobrać zestaw danych. Ten proces zajmie trochę czasu, w zależności od połączenia internetowego
UWAGA: Możesz zmienić lokalizację pobierania, klikając Plik> Zmień katalog pobierania
Krok 3) Aby przetestować zainstalowane dane, użyj następującego kodu
>>> from nltk.corpus import brown>>>brown.words()
[„The”, „Fulton”, „County”, „Grand”, „Jury”, „said”,…]
Uruchomienie skryptu NLP
Zamierzamy omówić sposób wykonywania skryptu NLP na naszym lokalnym komputerze. Na rynku dostępnych jest wiele bibliotek zajmujących się przetwarzaniem języka naturalnego. Zatem wybór biblioteki zależy od Twoich wymagań. Oto lista bibliotek NLP.
Jak uruchomić skrypt NLTK
Krok 1) W swoim ulubionym edytorze kodu skopiuj kod i zapisz plik jako „ NLTKsample.py ”
from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)
Objaśnienie kodu:
- W tym programie celem było usunięcie wszelkiego rodzaju znaków interpunkcyjnych z danego tekstu. Zaimportowaliśmy „RegexpTokenizer”, który jest modułem NLTK. Usuwa wszystkie wyrażenia, symbole, znaki, cyfry lub cokolwiek chcesz.
- Właśnie przekazałeś wyrażenie regularne do modułu „RegexpTokenizer”.
- Co więcej, tokenizowaliśmy słowo za pomocą modułu „tokenize”. Dane wyjściowe są przechowywane w zmiennej „filterdText”.
- I wydrukował je przy użyciu funkcji „print ()”.
Krok 2) W wierszu polecenia
- Przejdź do lokalizacji, w której zapisałeś plik
- Uruchom polecenie Python NLTKsample.py
Spowoduje to wyświetlenie danych wyjściowych jako:
[„Hello”, „Guru99”, „You”, „have”, „build”, „a”, „very”, „good”, „site”, „and„, „I”, „love”, „ odwiedzając „,„ twoją ”,„ witrynę ”]