62 najpopularniejsze pytania do wywiadów z inżynierem danych & Odpowiedzi

Oto często zadawane pytania na rozmowę kwalifikacyjną z inżynierem danych dla świeżo upieczonych i doświadczonych kandydatów, aby znaleźć odpowiednią pracę.

1) Wyjaśnij inżynierię danych.

Inżynieria danych to termin używany w dużych zbiorach danych. Koncentruje się na stosowaniu gromadzenia danych i badań. Dane generowane z różnych źródeł to tylko dane surowe. Inżynieria danych pomaga przekształcić te surowe dane w przydatne informacje.

2) Co to jest modelowanie danych?

Modelowanie danych to metoda dokumentowania złożonego projektu oprogramowania w postaci diagramu, tak aby każdy mógł go łatwo zrozumieć. Jest to koncepcyjna reprezentacja obiektów danych, które są skojarzone między różnymi obiektami danych i regułami.

3) Wymień różne typy schematów projektowych w modelowaniu danych

W modelowaniu danych występują głównie dwa typy schematów: 1) Schemat gwiazdy i 2) Schemat płatka śniegu.

4) Rozróżnij dane ustrukturyzowane i nieustrukturyzowane

Oto różnica między danymi ustrukturyzowanymi i nieustrukturyzowanymi:

Parametr	Dane strukturalne	Dane nieustrukturyzowane
Przechowywanie	DBMS	Niezarządzane struktury plików
Standard	ADO.net, ODBC i SQL	STMP, XML, CSV i SMS
Narzędzie integracji	ELT (wyodrębnianie, przekształcanie, ładowanie)	Ręczne wprowadzanie danych lub przetwarzanie wsadowe obejmujące kody
skalowanie	Skalowanie schematu jest trudne	Skalowanie jest bardzo łatwe.

5) Wyjaśnij wszystkie składniki aplikacji Hadoop

Oto elementy aplikacji Hadoop:

Hadoop Common: jest to wspólny zestaw narzędzi i bibliotek używanych przez Hadoop.
HDFS: ta aplikacja Hadoop odnosi się do systemu plików, w którym przechowywane są dane Hadoop. Jest to rozproszony system plików o dużej przepustowości.
Hadoop MapReduce: jest oparty na algorytmie zapewniającym przetwarzanie danych na dużą skalę.
Hadoop YARN: służy do zarządzania zasobami w klastrze Hadoop. Może być również używany do planowania zadań dla użytkowników.

6) Co to jest NameNode?

Jest to centralny element HDFS. Przechowuje dane HDFS i śledzi różne pliki w klastrach. Tutaj rzeczywiste dane nie są przechowywane. Dane są przechowywane w DataNodes.

7) Zdefiniuj przesyłanie strumieniowe Hadoop

Jest to narzędzie, które pozwala na tworzenie mapy oraz Redukuje zlecenia i przesyła je do konkretnego klastra.

8) Jaka jest pełna forma HDFS?

HDFS to skrót od Hadoop Distributed File System.

9) Zdefiniuj skaner bloków i bloków w HDFS

Bloki to najmniejsza jednostka pliku danych. Hadoop automatycznie dzieli ogromne pliki na małe części.

Block Scanner weryfikuje listę bloków prezentowanych w DataNode.

10) Jakie kroki są wykonywane, gdy Block Scanner wykryje uszkodzony blok danych?

Poniżej przedstawiono kroki, które występują, gdy Block Scanner znajduje uszkodzony blok danych:

1) Po pierwsze, gdy Block Scanner znajdzie uszkodzony blok danych, DataNode zgłosi się do NameNode

2) NameNode rozpoczyna proces tworzenia nowej repliki przy użyciu repliki uszkodzonego bloku.

3) Liczba replikacji poprawnych replik próbuje dopasować się do współczynnika replikacji. W przypadku znalezienia dopasowania uszkodzony blok danych nie zostanie usunięty.

11) Nazwij dwie wiadomości, które NameNode pobiera z DataNode?

Istnieją dwie wiadomości, które NameNode pobiera z DataNode. Są to 1) Raport blokowy i 2) Bicie serca.

12) Wymień różne pliki konfiguracyjne XML w Hadoop?

W Hadoop jest pięć plików konfiguracyjnych XML:

Mapred-site
Strona główna
Witryna HDFS
Witryna przędzy

13) Jakie są cztery V dużych zbiorów danych?

Cztery V dużych zbiorów danych to:

Prędkość
Różnorodność
Tom
Prawdziwość

14) Wyjaśnij funkcje Hadoop

Ważnymi cechami Hadoop są:

Jest to platforma typu open source, która jest dostępna bezpłatnie.
Hadoop jest kompatybilny z wieloma typami sprzętu i zapewnia łatwy dostęp do nowego sprzętu w określonym węźle.
Hadoop obsługuje szybciej rozproszone przetwarzanie danych.
Przechowuje dane w klastrze, który jest niezależny od pozostałych operacji.
Hadoop umożliwia tworzenie 3 replik dla każdego bloku z różnymi węzłami.

15) Wyjaśnij główne metody Reduktora

setup (): Służy do konfigurowania parametrów, takich jak rozmiar danych wejściowych i rozproszona pamięć podręczna.
cleanup (): Ta metoda służy do czyszczenia plików tymczasowych.
redukcja (): Jest to serce reduktora, które jest wywoływane raz na klawisz z powiązanym zadaniem zredukowanym

16) Jaki jest skrót COSHH?

Skrót COSHH to Harmonogram oparty na klasyfikacji i optymalizacji dla heterogenicznych systemów Hadoop.

17) Wyjaśnij schemat gwiezdny

Schemat gwiaździsty lub schemat łączenia w gwiazdę to najprostszy typ schematu hurtowni danych. Jest znany jako schemat gwiazdy, ponieważ jego struktura jest podobna do gwiazdy. W schemacie Gwiazda środek gwiazdy może mieć jedną tabelę faktów i wiele skojarzonych tabel wymiarów. Ten schemat służy do wykonywania zapytań dotyczących dużych zestawów danych.

18) Jak wdrożyć rozwiązanie Big Data?

Wykonaj następujące kroki, aby wdrożyć rozwiązanie Big Data.

1) Zintegruj dane za pomocą źródeł danych, takich jak RDBMS, SAP, MySQL, Salesforce

2) Przechowuj wyodrębnione dane w bazie danych NoSQL lub HDFS.

3) Wdróż rozwiązanie Big Data przy użyciu struktur przetwarzania, takich jak Pig, Spark i MapReduce.

19) Wyjaśnij FSCK

Sprawdzanie systemu plików lub FSCK to polecenie używane przez HDFS. Polecenie FSCK służy do sprawdzania niespójności i problemów w pliku.

20) Wyjaśnij schemat płatka śniegu

Schemat płatka śniegu jest rozszerzeniem schematu gwiaździstego i dodaje dodatkowe wymiary. Jest tak zwany płatkiem śniegu, ponieważ jego diagram wygląda jak płatek śniegu. Tabele wymiarów są znormalizowane, co powoduje podział danych na dodatkowe tabele.

21) Rozróżnij schemat gwiazdy i płatka śniegu

Gwiazda	Schemat płatka śniegu
Hierarchie wymiarów są przechowywane w tabeli wymiarów.	Każda hierarchia jest przechowywana w oddzielnych tabelach.
Szanse na nadmiarowość danych są wysokie	Szanse na nadmiarowość danych są niskie.
Ma bardzo prostą konstrukcję DB	Ma złożoną konstrukcję DB
Zapewnij szybszy sposób przetwarzania kostek	Przetwarzanie kostki jest powolne z powodu złożonego łączenia.

22) Wyjaśnij rozproszony system plików Hadoop

Hadoop współpracuje ze skalowalnymi rozproszonymi systemami plików, takimi jak S3, HFTP FS, FS i HDFS. Rozproszony system plików Hadoop jest tworzony w systemie plików Google. Ten system plików został zaprojektowany w taki sposób, aby można go było łatwo uruchomić w dużym klastrze systemu komputerowego.

23) Wyjaśnij główne obowiązki inżyniera danych

Inżynierowie danych mają wiele obowiązków. Zarządzają źródłowym systemem danych. Inżynierowie danych upraszczają złożoną strukturę danych i zapobiegają ich redukcji. Wielokrotnie zapewniają również ELT i transformację danych.

24) Jaka jest pełna forma przędzy?

Pełna forma YARN to kolejny negocjator zasobów.

25) Wymień różne tryby w Hadoop

Tryby w Hadoop to 1) Tryb autonomiczny 2) Tryb pseudo rozproszony 3) Tryb w pełni rozproszony.

26) Jak osiągnąć bezpieczeństwo w Hadoop?

Wykonaj następujące kroki, aby osiągnąć bezpieczeństwo w Hadoop:

1) Pierwszym krokiem jest zabezpieczenie kanału uwierzytelniania klienta na serwerze. Dostarcz klientowi sygnaturę czasową.

2) W drugim kroku klient używa odebranego znacznika czasu, aby zażądać TGS w celu uzyskania biletu serwisowego.

3) W ostatnim kroku klient używa biletu usługi do samodzielnego uwierzytelnienia na określonym serwerze.

27) Co to jest bicie serca w Hadoop?

W Hadoop NameNode i DataNode komunikują się ze sobą. Heartbeat to sygnał wysyłany regularnie przez DataNode do NameNode w celu wykazania jego obecności.

28) Rozróżnij NAS i DAS w Hadoop

NAS	DAS
Pojemność pamięci wynosi od 10 ⁹ do 10 ¹² w bajtach.	Pojemność pamięci wynosi 10 ⁹ w bajtach.
Koszt zarządzania w przeliczeniu na GB jest umiarkowany.	Koszt zarządzania w przeliczeniu na GB jest wysoki.
Przesyłaj dane za pomocą sieci Ethernet lub TCP / IP.	Przesyłaj dane za pomocą IDE / SCSI

29) Wymień ważne pola lub języki używane przez inżyniera danych

Oto kilka pól lub języków używanych przez inżyniera danych:

Prawdopodobieństwo i algebra liniowa
Nauczanie maszynowe
Analiza trendów i regresja
Bazy danych Hive QL i SQL

30) Co to jest Big Data?

Jest to duża ilość ustrukturyzowanych i nieustrukturyzowanych danych, których nie można łatwo przetworzyć tradycyjnymi metodami przechowywania danych. Inżynierowie danych używają Hadoop do zarządzania dużymi zbiorami danych.

31) Co to jest planowanie FIFO?

Jest to algorytm planowania zadań Hadoop. W tym planowaniu FIFO reporter wybiera zadania z kolejki prac, zaczynając od najstarszych.

32) Wymień domyślne numery portów, na których moduł śledzenia zadań, NameNode i moduł śledzenia zadań działają na platformie Hadoop

Domyślne numery portów, na których narzędzie do śledzenia zadań, NameNode i narzędzie do śledzenia zadań działają na platformie Hadoop, są następujące:

Śledzenie zadań działa na porcie 50060
NameNode działa na porcie 50070
Job Tracker działa na porcie 50030

33) Jak wyłączyć skaner bloków w węźle danych HDFS

Aby wyłączyć skaner bloków w węźle danych HDFS, ustaw dfs.datanode.scan.period.hours na 0.

34) Jak zdefiniować odległość między dwoma węzłami w Hadoop?

Odległość jest równa sumie odległości do najbliższych węzłów. Metoda getDistance () służy do obliczania odległości między dwoma węzłami.

35) Po co używać standardowego sprzętu w Hadoop?

Towarowy sprzęt jest łatwy do zdobycia i niedrogi. Jest to system kompatybilny z Windows, MS-DOS lub Linux.

36) Zdefiniuj współczynnik replikacji w HDFS

Współczynnik replikacji to całkowita liczba replik pliku w systemie.

37) Jakie dane są przechowywane w NameNode?

Namenode przechowuje metadane dla HDFS, takie jak informacje o blokach i informacje o przestrzeni nazw.

38) Co masz na myśli mówiąc „Rack Awareness”?

W klastrze Haddop Namenode używa Datanode do usprawnienia ruchu sieciowego podczas odczytywania lub zapisywania dowolnego pliku, który znajduje się bliżej pobliskiej szafy, do żądania odczytu lub zapisu. Namenode przechowuje identyfikator szafy każdego DataNode w celu uzyskania informacji o szafie. Ta koncepcja nosi nazwę Rack Awareness w Hadoop.

39) Jakie funkcje pełni Secondary NameNode?

Poniżej przedstawiono funkcje Secondary NameNode:

FsImage, który przechowuje kopię pliku EditLog i FsImage.
Awaria NameNode: Jeśli NameNode ulegnie awarii, można użyć pomocniczego narzędzia NameNode FsImage do ponownego utworzenia NameNode.
Punkt kontrolny: jest używany przez pomocniczy węzeł NameNode, aby potwierdzić, że dane nie są uszkodzone w systemie plików HDFS.
Aktualizacja: automatycznie aktualizuje plik EditLog i FsImage. Pomaga to aktualizować plik FsImage w Secondary NameNode.

40) Co się dzieje, gdy NameNode nie działa, a użytkownik przesyła nowe zadanie?

NameNode to pojedynczy punkt awarii na platformie Hadoop, więc użytkownik nie może przesłać nowego zadania, którego nie można wykonać. Jeśli NameNode nie działa, zadanie może się nie powieść, ponieważ ten użytkownik musi poczekać na ponowne uruchomienie NameNode przed uruchomieniem jakiegokolwiek zadania.

41) Jakie są podstawowe fazy reduktora w Hadoop?

Istnieją trzy podstawowe fazy reduktora w Hadoop:

1. Shuffle: Tutaj Reducer kopiuje dane wyjściowe z Mappera.

2. Sortuj: Podczas sortowania, Hadoop sortuje dane wejściowe do Reduktora przy użyciu tego samego klucza.

3. Zmniejsz: w tej fazie wartości wyjściowe skojarzone z kluczem są redukowane, aby skonsolidować dane w wyniku końcowym.

42) Dlaczego Hadoop używa obiektu Context?

Struktura Hadoop używa obiektu Context z klasą Mapper w celu interakcji z pozostałym systemem. Obiekt kontekstu pobiera szczegóły konfiguracji systemu i zadanie w swoim konstruktorze.

Używamy obiektu Context do przekazywania informacji w metodach setup (), cleanup () i map (). Ten obiekt udostępnia istotne informacje podczas operacji na mapie.

43) Zdefiniuj Combiner w Hadoop

Jest to opcjonalny krok między mapowaniem a redukcją. Combiner pobiera dane wyjściowe z funkcji Map, tworzy pary klucz-wartość i przesyła do Hadoop Reducer. Zadaniem Combinera jest podsumowanie końcowego wyniku z Map w rekordy podsumowujące z identycznym kluczem.

44) Jaki jest domyślny współczynnik replikacji dostępny w HDFS. Co to oznacza?

Domyślny współczynnik replikacji dostępny w HDFS to trzy. Domyślny współczynnik replikacji wskazuje, że będą trzy repliki każdych danych.

45) Co to znaczy lokalność danych w Hadoop?

W systemie Big Data rozmiar danych jest ogromny i dlatego nie ma sensu przenosić danych przez sieć. Teraz Hadoop próbuje przenieść obliczenia bliżej danych. W ten sposób dane pozostają lokalne w przechowywanej lokalizacji.

46) Zdefiniuj Balancer w HDFS

W HDFS równoważnik jest narzędziem administracyjnym używanym przez administratorów do równoważenia danych w węzłach DataNodes i przenoszenia bloków z węzłów nadmiernie wykorzystywanych do niewykorzystanych.

47) Wyjaśnij tryb awaryjny w HDFS

Jest to tryb tylko do odczytu NameNode w klastrze. Początkowo NameNode znajduje się w Safemode. Zapobiega zapisowi do systemu plików w Safemode. W tej chwili zbiera dane i statystyki ze wszystkich DataNodes.

48) Jakie jest znaczenie rozproszonej pamięci podręcznej w Apache Hadoop?

Hadoop ma przydatną funkcję narzędziową, tzw. Distributed Cache, która poprawia wydajność zadań poprzez buforowanie plików używanych przez aplikacje. Aplikacja może określić plik dla pamięci podręcznej za pomocą konfiguracji JobConf.

Struktura Hadoop sprawia, że repliki tych plików są wysyłane do węzłów, w których zadanie ma zostać wykonane. Odbywa się to przed rozpoczęciem wykonywania zadania. Distributed Cache obsługuje dystrybucję plików tylko do odczytu, a także plików ZIP i JARS.

49) Co to jest Metastore w Hive?

Przechowuje schemat, a także lokalizację tabeli Hive.

Tabela Hive definiuje, mapowania i metadane, które są przechowywane w Metastore. Może to być przechowywane w RDBMS obsługiwanych przez JPOX.

50) Co oznacza SerDe in Hive?

SerDe to krótka nazwa Serializatora lub Deserializatora. W Hive SerDe umożliwia odczyt danych z tabeli i zapisywanie w określonym polu w dowolnym formacie.

51) Lista składników dostępnych w modelu danych Hive

W modelu danych programu Hive znajdują się następujące składniki:

Tabele
Partycje
Wiadra

52) Wyjaśnij użycie Hive w ekosystemie Hadoop.

Hive zapewnia interfejs do zarządzania danymi przechowywanymi w ekosystemie Hadoop. Hive służy do mapowania i pracy z tabelami HBase. Zapytania Hive są konwertowane na zadania MapReduce w celu ukrycia złożoności związanej z tworzeniem i uruchamianiem zadań MapReduce.

53) Lista różnych złożonych typów danych / kolekcji obsługiwanych przez Hive

Hive obsługuje następujące złożone typy danych:

Mapa
Struct
Szyk
Unia

54) Wyjaśnij, w jaki sposób używany jest plik .hiverc w gałęzi Hive?

W gałęzi .hiverc jest plikiem inicjującym. Ten plik jest początkowo ładowany, gdy uruchamiamy interfejs wiersza poleceń (CLI) dla Hive. Możemy ustawić początkowe wartości parametrów w pliku .hiverc.

55) Czy można utworzyć więcej niż jedną tabelę w gałęzi Hive dla jednego pliku danych?

Tak, możemy utworzyć więcej niż jeden schemat tabeli dla pliku danych. Hive zapisuje schemat w Hive Metastore. Na podstawie tego schematu możemy pobrać odmienne wyniki z tych samych danych.

56) Wyjaśnij różne implementacje SerDe dostępne w Hive

W Hive dostępnych jest wiele implementacji SerDe. Możesz także napisać własną, niestandardową implementację SerDe. Oto kilka znanych wdrożeń SerDe:

OpenCSVSerde
RegexSerDe
DelimitedJSONSerDe
ByteStreamTypedSerDe

57) Lista funkcji generujących tabelę dostępnych w Hive

Poniżej znajduje się lista funkcji generujących tabele:

Rozbij (tablica)
JSON_tuple ()
Stos()
Rozbij (mapa)

58) Co to jest skośna tabela w Hive?

Tabela pochylona to tabela, która częściej zawiera wartości kolumn. W Hive, gdy określimy tabelę jako SKOSOWANĄ podczas tworzenia, wartości pochylone są zapisywane w oddzielnych plikach, a pozostałe wartości trafiają do innego pliku.

59) Wyświetl listę obiektów utworzonych za pomocą instrukcji create w MySQL.

Obiekty utworzone za pomocą instrukcji create w MySQL są następujące:

Baza danych
Indeks
Stół
Użytkownik
Procedura
Cyngiel
Zdarzenie
Widok
Funkcjonować

60) Jak zobaczyć strukturę bazy danych w MySQL?

Aby zobaczyć strukturę bazy danych w MySQL, możesz użyć

DESCRIBE, polecenie. Składnia tego polecenia to DESCRIBE Nazwa tabeli ;.

61) Jak wyszukać określony ciąg znaków w kolumnie tabeli MySQL?

Użyj operatora regex, aby wyszukać ciąg znaków w kolumnie MySQL. Tutaj możemy również zdefiniować różne typy wyrażeń regularnych i wyszukiwać za pomocą wyrażenia regularnego.

62) Wyjaśnij, w jaki sposób analityka danych i duże zbiory danych mogą zwiększyć przychody firmy?

Oto sposoby, w jakie analityka danych i duże zbiory danych mogą zwiększyć przychody firmy:

Efektywnie wykorzystuj dane, aby zapewnić rozwój firmy
Zwiększ wartość klienta.
Przejście analityczne w celu ulepszenia prognoz dotyczących poziomu zatrudnienia.
Obniżenie kosztów produkcji organizacji.