Co to jest język programowania R? Wprowadzenie i Podstawy R

Spisie treści:

Anonim

Co to jest oprogramowanie R?

R to język programowania i bezpłatne oprogramowanie opracowane przez Rossa Ihakę i Roberta Gentlemana w 1993 roku. R posiada obszerny katalog metod statystycznych i graficznych. Obejmuje algorytmy uczenia maszynowego, regresję liniową, szeregi czasowe, wnioskowanie statystyczne, by wymienić tylko kilka. Większość bibliotek R jest napisana w języku R, ale w przypadku ciężkich zadań obliczeniowych preferowane są kody C, C ++ i Fortran.

R jest nie tylko powierzony przez naukowców, ale wiele dużych firm również używa języka programowania R, w tym Uber, Google, Airbnb, Facebook i tak dalej.

Analiza danych za pomocą R jest wykonywana w kilku etapach; programowanie, przekształcanie, odkrywanie, modelowanie i komunikowanie wyników

  • Program : R to przejrzyste i przystępne narzędzie programistyczne
  • Transform : R składa się ze zbioru bibliotek zaprojektowanych specjalnie do nauki o danych
  • Odkryj : Zbadaj dane, sprecyzuj swoją hipotezę i przeanalizuj je
  • Model : R zapewnia szeroką gamę narzędzi do przechwytywania odpowiedniego modelu dla Twoich danych
  • Komunikuj się : zintegruj kody, wykresy i dane wyjściowe z raportem za pomocą R Markdown lub twórz błyszczące aplikacje, aby udostępniać je światu

W tym samouczku wprowadzającym nauczysz się języka R

  • Do czego służy R?
  • R według branży
  • Pakiet R.
  • Komunikuj się z R.
  • Dlaczego warto używać R?
  • Czy powinieneś wybrać R?
  • Czy R jest trudny?

Do czego służy R?

  • Wnioskowanie statystyczne
  • Analiza danych
  • Algorytm uczenia maszynowego

R według branży

Jeśli podzielimy użycie R na branżę, zobaczymy, że naukowcy są na pierwszym miejscu. R to język do prowadzenia statystyk. R to pierwszy wybór w branży opieki zdrowotnej, a następnie rząd i konsulting.

Pakiet R.

Podstawowymi zastosowaniami języka R są i zawsze będą statystyki, wizualizacja i uczenie maszynowe. Poniższy obrazek pokazuje, który pakiet R otrzymał najwięcej pytań w Stack Overflow. W pierwszej dziesiątce większość z nich jest związana z przepływem pracy analityka danych: przygotowywaniem danych i przekazywaniem wyników.

Wszystkie biblioteki R, prawie 12k, są przechowywane w CRAN. CRAN jest darmowym i otwartym kodem źródłowym. Możesz pobrać i używać licznych bibliotek do przeprowadzania uczenia maszynowego lub analizy szeregów czasowych.

Komunikuj się z R.

R ma wiele sposobów prezentowania i udostępniania pracy, za pośrednictwem dokumentu przeceny lub błyszczącej aplikacji. Wszystko może być hostowane w Rpub, GitHub lub na stronie internetowej firmy.

Poniżej znajduje się przykład prezentacji hostowanej na Rpub

Rstudio akceptuje przecenę za napisanie dokumentu. Możesz wyeksportować dokumenty w różnych formatach:

  • Dokument:
    • HTML
    • PDF / Latex
    • Słowo
  • Prezentacja
    • HTML
    • Projektor PDF

Rstudio ma świetne narzędzie do łatwego tworzenia aplikacji. Poniżej przykład aplikacji z danymi Banku Światowego.

Dlaczego warto używać R?

Nauka o danych kształtuje sposób, w jaki firmy prowadzą swoją działalność. Bez wątpienia trzymanie się z dala od sztucznej inteligencji i maszyn doprowadzi firmę do upadku. Najważniejsze pytanie brzmi: jakiego narzędzia / języka należy użyć?

Na rynku dostępnych jest wiele narzędzi do przeprowadzania analizy danych. Nauka nowego języka wymaga trochę czasu. Poniższy rysunek przedstawia krzywą uczenia się w porównaniu z możliwościami biznesowymi, jakie oferuje język. Negatywny związek oznacza, że ​​nie ma darmowego lunchu. Jeśli chcesz uzyskać jak najlepszy wgląd w dane, musisz poświęcić trochę czasu na naukę odpowiedniego narzędzia, którym jest R.

W lewym górnym rogu wykresu możesz zobaczyć Excel i PowerBI. Te dwa narzędzia są łatwe do nauczenia, ale nie oferują wyjątkowych możliwości biznesowych, zwłaszcza w zakresie modelowania. W środku widać Python i SAS. SAS to dedykowane narzędzie do przeprowadzania analiz statystycznych dla biznesu, ale nie jest darmowe. SAS to oprogramowanie typu „kliknij i uruchom”. Jednak Python jest językiem wymagającym monotonii uczenia się. Python to fantastyczne narzędzie do wdrażania uczenia maszynowego i sztucznej inteligencji, ale brakuje mu funkcji komunikacyjnych. Dzięki identycznej krzywej uczenia się R jest dobrym kompromisem między implementacją a analizą danych.

Jeśli chodzi o wizualizację danych (DataViz), prawdopodobnie słyszałeś o Tableau. Tableau jest bez wątpienia doskonałym narzędziem do odkrywania wzorców za pomocą wykresów i wykresów. Poza tym nauka Tableau nie jest czasochłonna. Jeden duży problem z wizualizacją danych polega na tym, że możesz nigdy nie znaleźć wzoru lub po prostu utworzyć mnóstwo bezużytecznych wykresów. Tableau to dobre narzędzie do szybkiej wizualizacji danych lub Business Intelligence. Jeśli chodzi o statystyki i narzędzie do podejmowania decyzji, R jest bardziej odpowiedni.

Stack Overflow to duża społeczność języków programowania. Jeśli masz problem z kodowaniem lub potrzebujesz zrozumieć model, Stack Overflow jest tutaj, aby pomóc. W ciągu roku odsetek wyświetleń pytań gwałtownie wzrósł w przypadku języka R w porównaniu z innymi językami. Tendencja ta jest oczywiście silnie skorelowana z boomem w nauce o danych, ale odzwierciedla zapotrzebowanie języka R na naukę o danych.

W nauce o danych istnieją dwa konkurujące ze sobą narzędzia. R i Python to prawdopodobnie języki programowania, które definiują naukę o danych.

Czy powinieneś wybrać R?

Analityk danych może korzystać z dwóch doskonałych narzędzi: R i Python. Możesz nie mieć czasu, aby nauczyć się ich obu, zwłaszcza jeśli zaczniesz uczyć się nauki o danych. Nauka modelowania statystycznego i algorytmujest o wiele ważniejsza niż nauka języka programowania. Język programowania to narzędzie do obliczania i przekazywania informacji o odkryciu. Najważniejszym zadaniem w nauce o danych jest sposób radzenia sobie z danymi: import, czyszczenie, przygotowanie, inżynieria cech, wybór cech. To powinno być twoim głównym celem. Jeśli próbujesz nauczyć się R i Pythona w tym samym czasie bez solidnego tła w statystykach, jest to po prostu głupie. Naukowcy zajmujący się danymi nie są programistami. Ich zadaniem jest zrozumienie danych, manipulowanie nimi i ujawnienie najlepszego podejścia. Jeśli zastanawiasz się, jakiego języka się nauczyć, zobaczmy, który z nich jest dla Ciebie najbardziej odpowiedni.

Głównymi odbiorcami nauki danych są profesjonaliści biznesowi. W biznesie jedną dużą konsekwencją jest komunikacja. Jest wiele sposobów komunikacji: raport, aplikacja internetowa, dashboard. Potrzebujesz narzędzia, które robi to wszystko razem.

Czy R jest trudny?

Wiele lat temu R był trudnym do opanowania językiem. Język był zagmatwany i nie tak zorganizowany jak inne narzędzia programistyczne. Aby rozwiązać ten poważny problem, Hadley Wickham opracował zbiór pakietów o nazwie tidyverse. Reguła gry zmieniła się na najlepsze. Manipulacja danymi staje się banalna i intuicyjna. Tworzenie wykresu nie było już takie trudne.

Najlepsze algorytmy uczenia maszynowego można zaimplementować za pomocą R. Pakiety takie jak Keras i TensorFlow pozwalają na tworzenie zaawansowanych technik uczenia maszynowego. R ma również pakiet do wykonywania Xgboost, jednego z najlepszych algorytmów dla konkurencji Kaggle.

R może komunikować się z innym językiem. Możliwe jest wywołanie Pythona, Javy, C ++ w R. Świat big data jest również dostępny dla R. Możesz połączyć R z różnymi bazami danych, takimi jak Spark czy Hadoop.

Wreszcie, R ewoluował i umożliwił zrównoleglenie operacji w celu przyspieszenia obliczeń. W rzeczywistości R był krytykowany za używanie tylko jednego procesora naraz. Pakiet równoległy umożliwia wykonywanie zadań w różnych rdzeniach maszyny.

Podsumowanie

Krótko mówiąc, R to świetne narzędzie do eksploracji i badania danych. Skomplikowane analizy, takie jak grupowanie, korelacja i redukcja danych, są wykonywane za pomocą R. Jest to najważniejsza część, bez dobrej inżynierii funkcji i modelu wdrożenie uczenia maszynowego nie da znaczących wyników.