50 najpopularniejszych pytań i odpowiedzi do wywiadów z zakresu nauki o danych

Anonim

Poniżej znajdują się często zadawane pytania podczas rozmów kwalifikacyjnych dla odświeżających, a także doświadczonych Data Scientist.

1. Co to jest nauka o danych?

Nauka o danych to połączenie algorytmów, narzędzi i technik uczenia maszynowego, które pomagają znaleźć typowe ukryte wzorce z podanych surowych danych.

2. Co to jest regresja logistyczna w nauce o danych?

Regresja logistyczna jest również nazywana modelem logitowym. Jest to metoda prognozowania wyniku binarnego na podstawie liniowej kombinacji zmiennych predykcyjnych.

3. Wymień trzy typy błędów, które mogą wystąpić podczas próbkowania

W procesie pobierania próbek istnieją trzy rodzaje błędów systemowych, którymi są:

  • Stronniczość wyboru
  • Niedobór pokrycia
  • Błąd przeżycia

4. Omów algorytm drzewa decyzyjnego

Drzewo decyzyjne to popularny algorytm nadzorowanego uczenia maszynowego. Jest używany głównie do regresji i klasyfikacji. Umożliwia rozbicie zbioru danych na mniejsze podzbiory. Drzewo decyzyjne może obsługiwać zarówno dane jakościowe, jak i liczbowe.

5. Co to jest prawdopodobieństwo wcześniejsze i prawdopodobieństwo?

Prawdopodobieństwo wcześniejsze to udział zmiennej zależnej w zbiorze danych, podczas gdy prawdopodobieństwo to prawdopodobieństwo zaklasyfikowania danego obserwatora w obecności innej zmiennej.

6. Wyjaśnij systemy rekomendujące?

Jest to podklasa technik filtrowania informacji. Pomaga przewidzieć preferencje lub oceny, które użytkownicy mogą nadać produktowi.

7. Wymień trzy wady stosowania modelu liniowego

Trzy wady modelu liniowego to:

  • Założenie o liniowości błędów.
  • Nie możesz użyć tego modelu do wyników binarnych lub obliczeniowych
  • Istnieje wiele problemów związanych z nadmiernym dopasowaniem, których nie może rozwiązać

8. Dlaczego musisz wykonać resampling?

Ponowne próbkowanie odbywa się w poniższych przypadkach:

  • Szacowanie dokładności przykładowych statystyk poprzez losowe losowanie z zastąpieniem ze zbioru danych lub wykorzystanie jako podzbiorów dostępnych danych
  • Zastępowanie etykiet punktami danych podczas wykonywania niezbędnych testów
  • Walidacja modeli przy użyciu losowych podzbiorów

9. Wymień biblioteki w Pythonie używane do analizy danych i obliczeń naukowych.

  • SciPy
  • Pandy
  • Matplotlib
  • NumPy
  • SciKit
  • Seaborn

10. Co to jest analiza mocy?

Analiza mocy jest integralną częścią projektu eksperymentalnego. Pomaga określić wielkość próby, która wymaga ustalenia wpływu danej wielkości z określonej przyczyny z określonym poziomem pewności. Pozwala również na zastosowanie określonego prawdopodobieństwa w ograniczeniu wielkości próby.

11. Wyjaśnij filtrowanie oparte na współpracy

Wspólne filtrowanie używane do wyszukiwania poprawnych wzorców poprzez wspólne punkty widzenia, wiele źródeł danych i różnych agentów.

12. Co to jest stronniczość?

Odchylenie to błąd wprowadzony do modelu z powodu nadmiernego uproszczenia algorytmu uczenia maszynowego. ”Może to prowadzić do niedopasowania.

13. Omów „Naive” w algorytmie Naive Bayes?

Naiwny model algorytmu Bayesa oparty jest na twierdzeniu Bayesa. Opisuje prawdopodobieństwo zdarzenia. Opiera się na wcześniejszej znajomości warunków, które mogą być związane z tym konkretnym wydarzeniem.

14. Co to jest regresja liniowa?

Regresja liniowa to metoda programowania statystycznego, w której wynik zmiennej „A” jest przewidywany na podstawie wyniku drugiej zmiennej „B”. B jest określane jako zmienna predykcyjna, a A jako zmienna kryterium.

15. Określić różnicę między wartością oczekiwaną a wartością średnią

Nie ma wielu różnic, ale oba te terminy są używane w różnych kontekstach. Zwykle odnosi się do wartości średniej, gdy omawiamy rozkład prawdopodobieństwa, podczas gdy wartość oczekiwana jest określana w kontekście zmiennej losowej.

16. Jaki jest cel przeprowadzania testów A / B?

Testowanie AB używane do przeprowadzania losowych eksperymentów z dwiema zmiennymi, A i B. Celem tej metody testowania jest znalezienie zmian na stronie internetowej, aby zmaksymalizować lub zwiększyć wynik strategii.

17. Co to jest nauka zespołowa?

Zespół jest metodą łączenia różnych grup uczniów w celu improwizacji na temat stabilności i predykcyjnej mocy modelu. Dwa rodzaje metod uczenia się w zespole to:

Parcianka

Metoda pakowania pomaga we wdrażaniu podobnych uczniów na małych populacjach próbek. Pomaga ci robić bliższe przewidywania.

Wzmocnienie

Boosting to metoda iteracyjna, która pozwala dopasować wagę obserwacji w zależności od ostatniej klasyfikacji. Zwiększanie zmniejsza błąd odchylenia i pomaga w tworzeniu silnych modeli predykcyjnych.

18. Wyjaśnij wartość własną i wektor własny

Wektory własne służą do zrozumienia przekształceń liniowych. Naukowiec zajmujący się danymi musi obliczyć wektory własne dla macierzy kowariancji lub korelacji. Wartości własne to kierunki wzdłuż, w których zastosowano określone przekształcenia liniowe, polegające na ściskaniu, odwracaniu lub rozciąganiu.

19. Zdefiniuj pojęcie walidacji krzyżowej

Walidacja krzyżowa to technika walidacji służąca do oceny, w jaki sposób wyniki analizy statystycznej będą uogólniać dla niezależnego zbioru danych. Ta metoda jest używana w środowiskach, w których cel jest prognozowany i trzeba oszacować, jak dokładnie model będzie działał.

20. Wyjaśnij kroki projektu analizy danych

Poniżej przedstawiono ważne etapy projektu analitycznego:

  • Zrozum problem biznesowy
  • Przeglądaj dane i uważnie je przestudiuj.
  • Przygotuj dane do modelowania, znajdując brakujące wartości i przekształcając zmienne.
  • Rozpocznij uruchamianie modelu i przeanalizuj wynik Big Data.
  • Sprawdź poprawność modelu za pomocą nowego zestawu danych.
  • Zaimplementuj model i śledź wynik, aby przeanalizować wydajność modelu w określonym okresie.

21. Omów sztuczne sieci neuronowe

Sztuczne sieci neuronowe (ANN) to specjalny zestaw algorytmów, które zrewolucjonizowały uczenie maszynowe. Pomaga dostosować się do zmieniających się danych wejściowych. Tak więc sieć generuje najlepsze możliwe wyniki bez przeprojektowywania kryteriów wyjściowych.

22. Co to jest propagacja wsteczna?

Propagacja wsteczna jest istotą treningu sieci neuronowych. Jest to metoda dostrajania wagi sieci neuronowej w zależności od stopy błędów uzyskanej w poprzedniej epoce. Odpowiednie dostrojenie pomaga zmniejszyć współczynniki błędów i uczynić model wiarygodnym poprzez zwiększenie jego uogólnienia.

23. Co to jest losowy las?

Random forest to metoda uczenia maszynowego, która pomaga wykonywać wszystkie typy zadań regresji i klasyfikacji. Służy również do traktowania brakujących wartości i wartości odstających.

24. Jakie jest znaczenie nastawienia na selekcję?

Błąd selekcji występuje, gdy nie osiągnięto określonej randomizacji podczas wybierania osób lub grup lub danych do analizy. Sugeruje to, że podana próba nie reprezentuje dokładnie populacji, która miała być analizowana.

25. Co to jest metoda grupowania średnich wartości K?

Grupowanie k-średnich jest ważną metodą uczenia się bez nadzoru. Jest to technika klasyfikowania danych przy użyciu określonego zestawu klastrów, zwanych klastrami K. Jest wdrażany w celu grupowania w celu znalezienia podobieństwa w danych.

26. Wyjaśnij różnicę między nauką o danych a analizą danych

Naukowcy zajmujący się danymi muszą podzielić dane, aby uzyskać cenne spostrzeżenia, które analityk danych może zastosować w rzeczywistych scenariuszach biznesowych. Główna różnica między nimi polega na tym, że naukowcy zajmujący się danymi mają większą wiedzę techniczną niż analitycy biznesowi. Ponadto nie potrzebują zrozumienia biznesu wymaganego do wizualizacji danych.

27. Wyjaśnij wartość p?

Kiedy przeprowadzasz test hipotezy w statystykach, wartość p pozwala określić siłę twoich wyników. Jest to liczba z przedziału od 0 do 1. Na podstawie wartości pomoże ci określić siłę konkretnego wyniku.

28. Zdefiniuj pojęcie głębokiego uczenia się

Deep Learning to podtyp uczenia maszynowego. Zajmuje się algorytmami inspirowanymi strukturą zwaną sztucznymi sieciami neuronowymi (ANN).

29. Wyjaśnij metodę gromadzenia i analizy danych w celu wykorzystania mediów społecznościowych do przewidywania warunków pogodowych.

Możesz zbierać dane z mediów społecznościowych za pomocą Facebooka, Twittera, API Instagrama. Na przykład dla głośnika wysokotonowego możemy skonstruować funkcję z każdego tweeta, taką jak data tweeta, retweety, lista obserwujących itp. Następnie możesz użyć wielowymiarowego modelu szeregów czasowych do przewidywania warunków pogodowych.

30. Kiedy należy zaktualizować algorytm w nauce o danych?

Musisz zaktualizować algorytm w następującej sytuacji:

  • Chcesz, aby Twój model danych ewoluował jako strumienie danych przy użyciu infrastruktury
  • Zmienia się bazowe źródło danych

    Jeśli jest niestacjonarność

31. Co to jest rozkład normalny

Rozkład normalny to zbiór ciągłej zmiennej rozłożonej na krzywej normalnej lub w kształcie krzywej dzwonowej. Można to uznać za ciągły rozkład prawdopodobieństwa, który jest przydatny w statystyce. Warto przeanalizować zmienne i ich relacje, gdy używamy krzywej rozkładu normalnego.

32. Który język jest najlepszy do analizy tekstu? R czy Python?

Python będzie bardziej odpowiedni do analizy tekstu, ponieważ składa się z bogatej biblioteki znanej jako pandy. Umożliwia korzystanie z narzędzi do analizy danych wysokiego poziomu i struktur danych, podczas gdy R nie oferuje tej funkcji.

33. Wyjaśnij korzyści płynące ze stosowania statystyk przez naukowców zajmujących się danymi

Statystyki pomagają naukowcom zajmującym się danymi lepiej zrozumieć oczekiwania klientów. Korzystając z metody statystycznej Data Scientists mogą uzyskać wiedzę na temat zainteresowań konsumentów, ich zachowania, zaangażowania, zatrzymania itp. Pomaga to również w tworzeniu potężnych modeli danych do sprawdzania pewnych wniosków i prognoz.

34. Wymień różne typy ram głębokiego uczenia się

  • Pytorch
  • Microsoft Cognitive Toolkit
  • TensorFlow
  • Caffe
  • Chainer
  • Keras

35. Wyjaśnij Auto-Encoder

Autoenkodery to uczące się sieci. Pomaga przekształcić dane wejściowe w dane wyjściowe z mniejszą liczbą błędów. Oznacza to, że dane wyjściowe będą możliwie najbliższe wartości wejściowej.

36. Zdefiniuj maszynę Boltzmanna

Maszyny Boltzmanna to prosty algorytm uczenia się. Pomaga odkryć te funkcje, które reprezentują złożone prawidłowości w danych szkoleniowych. Algorytm ten pozwala na optymalizację wag i ilości dla danego problemu.

37. Wyjaśnij, dlaczego czyszczenie danych jest niezbędne i jakiej metody używasz, aby utrzymać czyste dane

Brudne dane często prowadzą do nieprawidłowego wnętrza, co może zaszkodzić perspektywie każdej organizacji. Na przykład, jeśli chcesz przeprowadzić ukierunkowaną kampanię marketingową. Jednak nasze dane niepoprawnie informują Cię, że określony produkt będzie poszukiwany przez twoją grupę docelową; kampania zakończy się niepowodzeniem.

38. Co to jest skośna dystrybucja i równomierna dystrybucja?

Dystrybucja skośna występuje, gdy dane są rozmieszczone po jednej stronie wykresu, podczas gdy rozkład jednolity jest identyfikowany, gdy rozproszenie danych jest równe w zakresie.

39. Kiedy niedopasowanie występuje w modelu statycznym?

Niedopasowanie występuje, gdy model statystyczny lub algorytm uczenia maszynowego nie są w stanie uchwycić podstawowego trendu danych.

40. Co to jest uczenie się przez wzmacnianie?

Uczenie się ze wzmocnieniem to mechanizm uczenia się, jak przypisywać sytuacje do działań. Wynik końcowy powinien pomóc ci zwiększyć binarny sygnał nagrody. W tej metodzie ucząc się nie mówi się, jakie działanie ma podjąć, ale zamiast tego musi odkryć, które działanie zapewnia maksymalną nagrodę. Ponieważ ta metoda opiera się na mechanizmie nagrody / kary.

41. Wymień powszechnie używane algorytmy.

Cztery najczęściej używane algorytmy przez naukowców zajmujących się danymi to:

  • Regresja liniowa
  • Regresja logistyczna
  • Losowy las
  • KNN

42. Co to jest precyzja?

Precyzja jest najczęściej używaną metryką błędów i mechanizmem klasyfikacji. Jego zakres wynosi od 0 do 1, gdzie 1 oznacza 100%

43. Co to jest analiza jednoczynnikowa?

Analiza, która nie jest stosowana jednocześnie do żadnego atrybutu, jest nazywana analizą jednowymiarową. Boxplot jest szeroko stosowanym modelem jednowymiarowym.

44. W jaki sposób pokonujesz wyzwania związane z wynikami?

Aby sprostać wyzwaniom związanym z moim odkryciem, należy zachęcić do dyskusji, zademonstrować przywództwo i szanować różne opcje.

45. Wyjaśnij technikę próbkowania klastrów w nauce o danych

Metoda próbkowania grupowego jest stosowana, gdy trudno jest zbadać populację docelową rozproszoną i nie można zastosować prostego losowego pobierania próbek.

46. ​​Określić różnicę między zbiorem walidacyjnym a zestawem testowym

Zbiór walidacyjny jest przeważnie uważany za część zbioru uczącego, ponieważ jest używany do wyboru parametrów, co pomaga uniknąć nadmiernego dopasowania budowanego modelu.

Podczas gdy zestaw testów jest używany do testowania lub oceniania wydajności wytrenowanego modelu uczenia maszynowego.

47. Wyjaśnij termin Formuła prawdopodobieństwa dwumianowego?

„Rozkład dwumianowy zawiera prawdopodobieństwa każdego możliwego sukcesu w N prób dla zdarzeń niezależnych, które mają prawdopodobieństwo wystąpienia π”.

48. Co to jest wycofanie?

Wycofanie to stosunek prawdziwej dodatniej stawki do rzeczywistej dodatniej stawki. Waha się od 0 do 1.

49. Omów rozkład normalny

Rozkład normalny równomiernie rozłożony jako taki, średnia, mediana i mod są równe.

50. W jaki sposób można wybrać ważne zmienne podczas pracy nad zestawem danych? Wyjaśniać

Następujące metody wyboru zmiennych, których możesz użyć:

  • Usuń skorelowane zmienne przed wybraniem ważnych zmiennych
  • Użyj regresji liniowej i wybierz zmienne, które zależą od tych wartości p.
  • Użyj zaznaczania wstecz, do przodu i zaznaczania krokowego
  • Użyj Xgboost, Random Forest i wykreśl wykres ważności zmiennych.
  • Zmierz przyrost informacji dla danego zestawu funkcji i odpowiednio wybierz n najważniejszych funkcji.

51. Czy można uchwycić korelację między zmienną ciągłą i kategorialną?

Tak, możemy użyć techniki analizy kowariancji, aby uchwycić związek między zmiennymi ciągłymi i kategorialnymi.

52. Traktowanie zmiennej kategorialnej jako zmiennej ciągłej dałoby lepszy model predykcyjny?

Tak, wartość kategorialną należy traktować jako zmienną ciągłą tylko wtedy, gdy zmienna ma charakter porządkowy. Jest to więc lepszy model predykcyjny.