Oto często zadawane pytania na rozmowę kwalifikacyjną z inżynierem danych dla świeżo upieczonych i doświadczonych kandydatów, aby znaleźć odpowiednią pracę.
1) Wyjaśnij inżynierię danych.
Inżynieria danych to termin używany w dużych zbiorach danych. Koncentruje się na stosowaniu gromadzenia danych i badań. Dane generowane z różnych źródeł to tylko dane surowe. Inżynieria danych pomaga przekształcić te surowe dane w przydatne informacje.
2) Co to jest modelowanie danych?
Modelowanie danych to metoda dokumentowania złożonego projektu oprogramowania w postaci diagramu, tak aby każdy mógł go łatwo zrozumieć. Jest to koncepcyjna reprezentacja obiektów danych, które są skojarzone między różnymi obiektami danych i regułami.
3) Wymień różne typy schematów projektowych w modelowaniu danych
W modelowaniu danych występują głównie dwa typy schematów: 1) Schemat gwiazdy i 2) Schemat płatka śniegu.
4) Rozróżnij dane ustrukturyzowane i nieustrukturyzowane
Oto różnica między danymi ustrukturyzowanymi i nieustrukturyzowanymi:
Parametr | Dane strukturalne | Dane nieustrukturyzowane |
Przechowywanie | DBMS | Niezarządzane struktury plików |
Standard | ADO.net, ODBC i SQL | STMP, XML, CSV i SMS |
Narzędzie integracji | ELT (wyodrębnianie, przekształcanie, ładowanie) | Ręczne wprowadzanie danych lub przetwarzanie wsadowe obejmujące kody |
skalowanie | Skalowanie schematu jest trudne | Skalowanie jest bardzo łatwe. |
5) Wyjaśnij wszystkie składniki aplikacji Hadoop
Oto elementy aplikacji Hadoop:
- Hadoop Common: jest to wspólny zestaw narzędzi i bibliotek używanych przez Hadoop.
- HDFS: ta aplikacja Hadoop odnosi się do systemu plików, w którym przechowywane są dane Hadoop. Jest to rozproszony system plików o dużej przepustowości.
- Hadoop MapReduce: jest oparty na algorytmie zapewniającym przetwarzanie danych na dużą skalę.
- Hadoop YARN: służy do zarządzania zasobami w klastrze Hadoop. Może być również używany do planowania zadań dla użytkowników.
6) Co to jest NameNode?
Jest to centralny element HDFS. Przechowuje dane HDFS i śledzi różne pliki w klastrach. Tutaj rzeczywiste dane nie są przechowywane. Dane są przechowywane w DataNodes.
7) Zdefiniuj przesyłanie strumieniowe Hadoop
Jest to narzędzie, które pozwala na tworzenie mapy oraz Redukuje zlecenia i przesyła je do konkretnego klastra.
8) Jaka jest pełna forma HDFS?
HDFS to skrót od Hadoop Distributed File System.
9) Zdefiniuj skaner bloków i bloków w HDFS
Bloki to najmniejsza jednostka pliku danych. Hadoop automatycznie dzieli ogromne pliki na małe części.
Block Scanner weryfikuje listę bloków prezentowanych w DataNode.
10) Jakie kroki są wykonywane, gdy Block Scanner wykryje uszkodzony blok danych?
Poniżej przedstawiono kroki, które występują, gdy Block Scanner znajduje uszkodzony blok danych:
1) Po pierwsze, gdy Block Scanner znajdzie uszkodzony blok danych, DataNode zgłosi się do NameNode
2) NameNode rozpoczyna proces tworzenia nowej repliki przy użyciu repliki uszkodzonego bloku.
3) Liczba replikacji poprawnych replik próbuje dopasować się do współczynnika replikacji. W przypadku znalezienia dopasowania uszkodzony blok danych nie zostanie usunięty.
11) Nazwij dwie wiadomości, które NameNode pobiera z DataNode?
Istnieją dwie wiadomości, które NameNode pobiera z DataNode. Są to 1) Raport blokowy i 2) Bicie serca.
12) Wymień różne pliki konfiguracyjne XML w Hadoop?
W Hadoop jest pięć plików konfiguracyjnych XML:
- Mapred-site
- Strona główna
- Witryna HDFS
- Witryna przędzy
13) Jakie są cztery V dużych zbiorów danych?
Cztery V dużych zbiorów danych to:
- Prędkość
- Różnorodność
- Tom
- Prawdziwość
14) Wyjaśnij funkcje Hadoop
Ważnymi cechami Hadoop są:
- Jest to platforma typu open source, która jest dostępna bezpłatnie.
- Hadoop jest kompatybilny z wieloma typami sprzętu i zapewnia łatwy dostęp do nowego sprzętu w określonym węźle.
- Hadoop obsługuje szybciej rozproszone przetwarzanie danych.
- Przechowuje dane w klastrze, który jest niezależny od pozostałych operacji.
- Hadoop umożliwia tworzenie 3 replik dla każdego bloku z różnymi węzłami.
15) Wyjaśnij główne metody Reduktora
- setup (): Służy do konfigurowania parametrów, takich jak rozmiar danych wejściowych i rozproszona pamięć podręczna.
- cleanup (): Ta metoda służy do czyszczenia plików tymczasowych.
- redukcja (): Jest to serce reduktora, które jest wywoływane raz na klawisz z powiązanym zadaniem zredukowanym
16) Jaki jest skrót COSHH?
Skrót COSHH to Harmonogram oparty na klasyfikacji i optymalizacji dla heterogenicznych systemów Hadoop.
17) Wyjaśnij schemat gwiezdny
Schemat gwiaździsty lub schemat łączenia w gwiazdę to najprostszy typ schematu hurtowni danych. Jest znany jako schemat gwiazdy, ponieważ jego struktura jest podobna do gwiazdy. W schemacie Gwiazda środek gwiazdy może mieć jedną tabelę faktów i wiele skojarzonych tabel wymiarów. Ten schemat służy do wykonywania zapytań dotyczących dużych zestawów danych.
18) Jak wdrożyć rozwiązanie Big Data?
Wykonaj następujące kroki, aby wdrożyć rozwiązanie Big Data.
1) Zintegruj dane za pomocą źródeł danych, takich jak RDBMS, SAP, MySQL, Salesforce
2) Przechowuj wyodrębnione dane w bazie danych NoSQL lub HDFS.
3) Wdróż rozwiązanie Big Data przy użyciu struktur przetwarzania, takich jak Pig, Spark i MapReduce.
19) Wyjaśnij FSCK
Sprawdzanie systemu plików lub FSCK to polecenie używane przez HDFS. Polecenie FSCK służy do sprawdzania niespójności i problemów w pliku.
20) Wyjaśnij schemat płatka śniegu
Schemat płatka śniegu jest rozszerzeniem schematu gwiaździstego i dodaje dodatkowe wymiary. Jest tak zwany płatkiem śniegu, ponieważ jego diagram wygląda jak płatek śniegu. Tabele wymiarów są znormalizowane, co powoduje podział danych na dodatkowe tabele.
21) Rozróżnij schemat gwiazdy i płatka śniegu
Gwiazda | Schemat płatka śniegu |
Hierarchie wymiarów są przechowywane w tabeli wymiarów. | Każda hierarchia jest przechowywana w oddzielnych tabelach. |
Szanse na nadmiarowość danych są wysokie | Szanse na nadmiarowość danych są niskie. |
Ma bardzo prostą konstrukcję DB | Ma złożoną konstrukcję DB |
Zapewnij szybszy sposób przetwarzania kostek | Przetwarzanie kostki jest powolne z powodu złożonego łączenia. |
22) Wyjaśnij rozproszony system plików Hadoop
Hadoop współpracuje ze skalowalnymi rozproszonymi systemami plików, takimi jak S3, HFTP FS, FS i HDFS. Rozproszony system plików Hadoop jest tworzony w systemie plików Google. Ten system plików został zaprojektowany w taki sposób, aby można go było łatwo uruchomić w dużym klastrze systemu komputerowego.
23) Wyjaśnij główne obowiązki inżyniera danych
Inżynierowie danych mają wiele obowiązków. Zarządzają źródłowym systemem danych. Inżynierowie danych upraszczają złożoną strukturę danych i zapobiegają ich redukcji. Wielokrotnie zapewniają również ELT i transformację danych.
24) Jaka jest pełna forma przędzy?
Pełna forma YARN to kolejny negocjator zasobów.
25) Wymień różne tryby w Hadoop
Tryby w Hadoop to 1) Tryb autonomiczny 2) Tryb pseudo rozproszony 3) Tryb w pełni rozproszony.
26) Jak osiągnąć bezpieczeństwo w Hadoop?
Wykonaj następujące kroki, aby osiągnąć bezpieczeństwo w Hadoop:
1) Pierwszym krokiem jest zabezpieczenie kanału uwierzytelniania klienta na serwerze. Dostarcz klientowi sygnaturę czasową.
2) W drugim kroku klient używa odebranego znacznika czasu, aby zażądać TGS w celu uzyskania biletu serwisowego.
3) W ostatnim kroku klient używa biletu usługi do samodzielnego uwierzytelnienia na określonym serwerze.
27) Co to jest bicie serca w Hadoop?
W Hadoop NameNode i DataNode komunikują się ze sobą. Heartbeat to sygnał wysyłany regularnie przez DataNode do NameNode w celu wykazania jego obecności.
28) Rozróżnij NAS i DAS w Hadoop
NAS | DAS |
Pojemność pamięci wynosi od 10 9 do 10 12 w bajtach. | Pojemność pamięci wynosi 10 9 w bajtach. |
Koszt zarządzania w przeliczeniu na GB jest umiarkowany. | Koszt zarządzania w przeliczeniu na GB jest wysoki. |
Przesyłaj dane za pomocą sieci Ethernet lub TCP / IP. | Przesyłaj dane za pomocą IDE / SCSI |
29) Wymień ważne pola lub języki używane przez inżyniera danych
Oto kilka pól lub języków używanych przez inżyniera danych:
- Prawdopodobieństwo i algebra liniowa
- Nauczanie maszynowe
- Analiza trendów i regresja
- Bazy danych Hive QL i SQL
30) Co to jest Big Data?
Jest to duża ilość ustrukturyzowanych i nieustrukturyzowanych danych, których nie można łatwo przetworzyć tradycyjnymi metodami przechowywania danych. Inżynierowie danych używają Hadoop do zarządzania dużymi zbiorami danych.
31) Co to jest planowanie FIFO?
Jest to algorytm planowania zadań Hadoop. W tym planowaniu FIFO reporter wybiera zadania z kolejki prac, zaczynając od najstarszych.
32) Wymień domyślne numery portów, na których moduł śledzenia zadań, NameNode i moduł śledzenia zadań działają na platformie Hadoop
Domyślne numery portów, na których narzędzie do śledzenia zadań, NameNode i narzędzie do śledzenia zadań działają na platformie Hadoop, są następujące:
- Śledzenie zadań działa na porcie 50060
- NameNode działa na porcie 50070
- Job Tracker działa na porcie 50030
33) Jak wyłączyć skaner bloków w węźle danych HDFS
Aby wyłączyć skaner bloków w węźle danych HDFS, ustaw dfs.datanode.scan.period.hours na 0.
34) Jak zdefiniować odległość między dwoma węzłami w Hadoop?
Odległość jest równa sumie odległości do najbliższych węzłów. Metoda getDistance () służy do obliczania odległości między dwoma węzłami.
35) Po co używać standardowego sprzętu w Hadoop?
Towarowy sprzęt jest łatwy do zdobycia i niedrogi. Jest to system kompatybilny z Windows, MS-DOS lub Linux.
36) Zdefiniuj współczynnik replikacji w HDFS
Współczynnik replikacji to całkowita liczba replik pliku w systemie.
37) Jakie dane są przechowywane w NameNode?
Namenode przechowuje metadane dla HDFS, takie jak informacje o blokach i informacje o przestrzeni nazw.
38) Co masz na myśli mówiąc „Rack Awareness”?
W klastrze Haddop Namenode używa Datanode do usprawnienia ruchu sieciowego podczas odczytywania lub zapisywania dowolnego pliku, który znajduje się bliżej pobliskiej szafy, do żądania odczytu lub zapisu. Namenode przechowuje identyfikator szafy każdego DataNode w celu uzyskania informacji o szafie. Ta koncepcja nosi nazwę Rack Awareness w Hadoop.
39) Jakie funkcje pełni Secondary NameNode?
Poniżej przedstawiono funkcje Secondary NameNode:
- FsImage, który przechowuje kopię pliku EditLog i FsImage.
- Awaria NameNode: Jeśli NameNode ulegnie awarii, można użyć pomocniczego narzędzia NameNode FsImage do ponownego utworzenia NameNode.
- Punkt kontrolny: jest używany przez pomocniczy węzeł NameNode, aby potwierdzić, że dane nie są uszkodzone w systemie plików HDFS.
- Aktualizacja: automatycznie aktualizuje plik EditLog i FsImage. Pomaga to aktualizować plik FsImage w Secondary NameNode.
40) Co się dzieje, gdy NameNode nie działa, a użytkownik przesyła nowe zadanie?
NameNode to pojedynczy punkt awarii na platformie Hadoop, więc użytkownik nie może przesłać nowego zadania, którego nie można wykonać. Jeśli NameNode nie działa, zadanie może się nie powieść, ponieważ ten użytkownik musi poczekać na ponowne uruchomienie NameNode przed uruchomieniem jakiegokolwiek zadania.
41) Jakie są podstawowe fazy reduktora w Hadoop?
Istnieją trzy podstawowe fazy reduktora w Hadoop:
1. Shuffle: Tutaj Reducer kopiuje dane wyjściowe z Mappera.
2. Sortuj: Podczas sortowania, Hadoop sortuje dane wejściowe do Reduktora przy użyciu tego samego klucza.
3. Zmniejsz: w tej fazie wartości wyjściowe skojarzone z kluczem są redukowane, aby skonsolidować dane w wyniku końcowym.
42) Dlaczego Hadoop używa obiektu Context?
Struktura Hadoop używa obiektu Context z klasą Mapper w celu interakcji z pozostałym systemem. Obiekt kontekstu pobiera szczegóły konfiguracji systemu i zadanie w swoim konstruktorze.
Używamy obiektu Context do przekazywania informacji w metodach setup (), cleanup () i map (). Ten obiekt udostępnia istotne informacje podczas operacji na mapie.
43) Zdefiniuj Combiner w Hadoop
Jest to opcjonalny krok między mapowaniem a redukcją. Combiner pobiera dane wyjściowe z funkcji Map, tworzy pary klucz-wartość i przesyła do Hadoop Reducer. Zadaniem Combinera jest podsumowanie końcowego wyniku z Map w rekordy podsumowujące z identycznym kluczem.
44) Jaki jest domyślny współczynnik replikacji dostępny w HDFS. Co to oznacza?
Domyślny współczynnik replikacji dostępny w HDFS to trzy. Domyślny współczynnik replikacji wskazuje, że będą trzy repliki każdych danych.
45) Co to znaczy lokalność danych w Hadoop?
W systemie Big Data rozmiar danych jest ogromny i dlatego nie ma sensu przenosić danych przez sieć. Teraz Hadoop próbuje przenieść obliczenia bliżej danych. W ten sposób dane pozostają lokalne w przechowywanej lokalizacji.
46) Zdefiniuj Balancer w HDFS
W HDFS równoważnik jest narzędziem administracyjnym używanym przez administratorów do równoważenia danych w węzłach DataNodes i przenoszenia bloków z węzłów nadmiernie wykorzystywanych do niewykorzystanych.
47) Wyjaśnij tryb awaryjny w HDFS
Jest to tryb tylko do odczytu NameNode w klastrze. Początkowo NameNode znajduje się w Safemode. Zapobiega zapisowi do systemu plików w Safemode. W tej chwili zbiera dane i statystyki ze wszystkich DataNodes.
48) Jakie jest znaczenie rozproszonej pamięci podręcznej w Apache Hadoop?
Hadoop ma przydatną funkcję narzędziową, tzw. Distributed Cache, która poprawia wydajność zadań poprzez buforowanie plików używanych przez aplikacje. Aplikacja może określić plik dla pamięci podręcznej za pomocą konfiguracji JobConf.
Struktura Hadoop sprawia, że repliki tych plików są wysyłane do węzłów, w których zadanie ma zostać wykonane. Odbywa się to przed rozpoczęciem wykonywania zadania. Distributed Cache obsługuje dystrybucję plików tylko do odczytu, a także plików ZIP i JARS.
49) Co to jest Metastore w Hive?
Przechowuje schemat, a także lokalizację tabeli Hive.
Tabela Hive definiuje, mapowania i metadane, które są przechowywane w Metastore. Może to być przechowywane w RDBMS obsługiwanych przez JPOX.
50) Co oznacza SerDe in Hive?
SerDe to krótka nazwa Serializatora lub Deserializatora. W Hive SerDe umożliwia odczyt danych z tabeli i zapisywanie w określonym polu w dowolnym formacie.
51) Lista składników dostępnych w modelu danych Hive
W modelu danych programu Hive znajdują się następujące składniki:
- Tabele
- Partycje
- Wiadra
52) Wyjaśnij użycie Hive w ekosystemie Hadoop.
Hive zapewnia interfejs do zarządzania danymi przechowywanymi w ekosystemie Hadoop. Hive służy do mapowania i pracy z tabelami HBase. Zapytania Hive są konwertowane na zadania MapReduce w celu ukrycia złożoności związanej z tworzeniem i uruchamianiem zadań MapReduce.
53) Lista różnych złożonych typów danych / kolekcji obsługiwanych przez Hive
Hive obsługuje następujące złożone typy danych:
- Mapa
- Struct
- Szyk
- Unia
54) Wyjaśnij, w jaki sposób używany jest plik .hiverc w gałęzi Hive?
W gałęzi .hiverc jest plikiem inicjującym. Ten plik jest początkowo ładowany, gdy uruchamiamy interfejs wiersza poleceń (CLI) dla Hive. Możemy ustawić początkowe wartości parametrów w pliku .hiverc.
55) Czy można utworzyć więcej niż jedną tabelę w gałęzi Hive dla jednego pliku danych?
Tak, możemy utworzyć więcej niż jeden schemat tabeli dla pliku danych. Hive zapisuje schemat w Hive Metastore. Na podstawie tego schematu możemy pobrać odmienne wyniki z tych samych danych.
56) Wyjaśnij różne implementacje SerDe dostępne w Hive
W Hive dostępnych jest wiele implementacji SerDe. Możesz także napisać własną, niestandardową implementację SerDe. Oto kilka znanych wdrożeń SerDe:
- OpenCSVSerde
- RegexSerDe
- DelimitedJSONSerDe
- ByteStreamTypedSerDe
57) Lista funkcji generujących tabelę dostępnych w Hive
Poniżej znajduje się lista funkcji generujących tabele:
- Rozbij (tablica)
- JSON_tuple ()
- Stos()
- Rozbij (mapa)
58) Co to jest skośna tabela w Hive?
Tabela pochylona to tabela, która częściej zawiera wartości kolumn. W Hive, gdy określimy tabelę jako SKOSOWANĄ podczas tworzenia, wartości pochylone są zapisywane w oddzielnych plikach, a pozostałe wartości trafiają do innego pliku.
59) Wyświetl listę obiektów utworzonych za pomocą instrukcji create w MySQL.
Obiekty utworzone za pomocą instrukcji create w MySQL są następujące:
- Baza danych
- Indeks
- Stół
- Użytkownik
- Procedura
- Cyngiel
- Zdarzenie
- Widok
- Funkcjonować
60) Jak zobaczyć strukturę bazy danych w MySQL?
Aby zobaczyć strukturę bazy danych w MySQL, możesz użyć
DESCRIBE, polecenie. Składnia tego polecenia to DESCRIBE Nazwa tabeli ;.
61) Jak wyszukać określony ciąg znaków w kolumnie tabeli MySQL?
Użyj operatora regex, aby wyszukać ciąg znaków w kolumnie MySQL. Tutaj możemy również zdefiniować różne typy wyrażeń regularnych i wyszukiwać za pomocą wyrażenia regularnego.
62) Wyjaśnij, w jaki sposób analityka danych i duże zbiory danych mogą zwiększyć przychody firmy?
Oto sposoby, w jakie analityka danych i duże zbiory danych mogą zwiększyć przychody firmy:
- Efektywnie wykorzystuj dane, aby zapewnić rozwój firmy
- Zwiększ wartość klienta.
- Przejście analityczne w celu ulepszenia prognoz dotyczących poziomu zatrudnienia.
- Obniżenie kosztów produkcji organizacji.