Poniżej znajdują się często zadawane pytania w wywiadach dla odświeżających oraz doświadczonych testerów i programistów ETL.
1) Co to jest ETL?
W architekturze hurtowni danych ETL jest ważnym komponentem, który zarządza danymi w każdym procesie biznesowym. ETL to skrót od Extract, Transform and Load . Ekstrakt wykonuje proces odczytywania danych z bazy danych. Przekształć dokonuje konwersji danych do formatu, który mógłby być odpowiedni do celów raportowania i analiz. Podczas gdy load wykonuje proces zapisywania danych w docelowej bazie danych.
2) Wyjaśnij, co obejmuje operacje testowania ETL?
Testowanie ETL obejmuje
- Sprawdź, czy dane są poprawnie przekształcane zgodnie z wymaganiami biznesowymi
- Sprawdź, czy prognozowane dane są ładowane do hurtowni danych bez obcięcia i utraty danych
- Upewnij się, że aplikacja ETL zgłasza nieprawidłowe dane i zastępuje wartościami domyślnymi
- Upewnij się, że dane są ładowane w oczekiwanym czasie, aby poprawić skalowalność i wydajność
3) Wspomnij, jakie są typy aplikacji hurtowni danych i jaka jest różnica między eksploracją danych a hurtownią danych?
Typy aplikacji hurtowni danych to
- Przetwarzanie informacji
- Przetwarzanie analityczne
- Eksploracja danych
Eksplorację danych można zdefiniować jako proces wydobywania ukrytych informacji predykcyjnych z dużych baz danych i interpretacji danych, podczas gdy hurtownie danych mogą wykorzystywać kopalnię danych do analitycznego przetwarzania danych w szybszy sposób. Hurtownie danych to proces agregowania danych z wielu źródeł w jednym wspólnym repozytorium
4) Jakie są różne narzędzia używane w ETL?
- Strumień decyzji Cognos
- Oracle Warehouse Builder
- Obiekty biznesowe XI
- Magazyn biznesowy SAS
- Serwer SAS Enterprise ETL
5) Co to jest fakt? Jakie są rodzaje faktów?
Jest to centralny element wielowymiarowego modelu, który zawiera środki do analizy. Fakty są związane z wymiarami.
Rodzaje faktów
- Dodatkowe fakty
- Półdodatkowe fakty
- Fakty nieaddytywne
6) Wyjaśnij, czym są kostki i kostki OLAP?
Kostki to jednostki przetwarzania danych składające się z tabel faktów i wymiarów z hurtowni danych. Zapewnia wielowymiarową analizę.
OLAP to skrót od Online Analytics Processing, a OLAP cube przechowuje duże dane w postaci wielowymiarowej do celów raportowania. Składa się z faktów zwanych miarami skategoryzowanymi według wymiarów.
7) Wyjaśnij, co to jest poziom śledzenia i jakie są typy?
Poziom śledzenia to ilość danych przechowywanych w plikach dziennika. Poziom śledzenia można podzielić na dwa Normalne i Pełne. Poziom normalny wyjaśnia szczegółowo poziom śledzenia, a szczegółowy wyjaśnia poziomy śledzenia w każdym wierszu.
8) Wyjaśnij, czym jest ziarno faktów?
Fakt faktyczny można zdefiniować jako poziom, na którym przechowywane są informacje o faktach. Jest również znany jako ziarnistość faktów
9) Wyjaśnij, czym jest bezfaktowy schemat faktów i czym są miary?
Tabela faktów bez miar jest nazywana tabelą faktów bez faktów. Może wyświetlać liczbę występujących zdarzeń. Na przykład służy do rejestrowania zdarzenia, takiego jak liczba pracowników w firmie.
Dane liczbowe oparte na kolumnach w tabeli faktów są nazywane miarami
10) Wyjaśnij, czym jest transformacja?
Transformacja to obiekt repozytorium, który generuje, modyfikuje lub przekazuje dane. Transformacja jest dwojakiego rodzaju Aktywna i Pasywna
11) Wyjaśnij użycie transformacji wyszukiwania?
Transformacja wyszukiwania jest przydatna w przypadku
- Pobieranie powiązanej wartości z tabeli przy użyciu wartości kolumny
- Zaktualizuj wolno zmieniającą się tabelę wymiarów
- Sprawdź, czy rekordy już istnieją w tabeli
12) Wyjaśnij, co to jest partycjonowanie, partycjonowanie z mieszaniem i partycjonowanie okrężne?
Aby poprawić wydajność, transakcje są podzielone na części, nazywane jest to partycjonowaniem. Partycjonowanie umożliwia serwerowi Informatica Server tworzenie wielu połączeń z różnymi źródłami
Typy partycji to
Partycjonowanie w trybie okrężnym:
- Dzięki informatica dane są równomiernie rozprowadzane na wszystkich partycjach
- W każdej partycji, w której liczba wierszy do przetworzenia jest w przybliżeniu taka sama, to partycjonowanie ma zastosowanie
Partycjonowanie Hash:
- W celu partycjonowania kluczy w celu grupowania danych pomiędzy partycjami serwer Informatica stosuje funkcję skrótu
- Służy do zapewnienia procesów grup wierszy z tym samym kluczem partycjonowania w tej samej partycji
13) Jakie są zalety korzystania z adaptera docelowego DataReader?
Zaletą używania adaptera DataReader Destination jest to, że wypełnia on zestaw rekordów ADO (składający się z rekordów i kolumn) w pamięci i udostępnia dane z zadania DataFlow poprzez implementację interfejsu DataReader, dzięki czemu inne aplikacje mogą korzystać z danych.
14) Jakie są możliwe sposoby aktualizacji tabeli przy użyciu SSIS (SQL Server Integration Service)?
Aby zaktualizować tabelę za pomocą SSIS, możliwe są następujące sposoby:
- Użyj polecenia SQL
- Użyj tabeli pomostowej
- Użyj pamięci podręcznej
- Użyj zadania skryptu
- Użyj pełnej nazwy bazy danych do aktualizacji, jeśli używany jest MSSQL
15) Jeśli masz źródło inne niż OLEDB (Object Linking and Embedding Database) do wyszukiwania, co byś zrobił?
W przypadku, gdy masz źródło inne niż OLEBD do wyszukiwania, musisz użyć pamięci podręcznej, aby załadować dane i użyć ich jako źródła
16) W jakim przypadku używasz dynamicznej pamięci podręcznej i statycznej pamięci podręcznej w połączonych i niepołączonych transformacjach?
- Dynamiczna pamięć podręczna jest używana, gdy musisz zaktualizować tabelę główną i wolno zmieniające się wymiary (SCD) typu 1
- W przypadku plików płaskich używana jest statyczna pamięć podręczna
17) Wyjaśnij, jakie są różnice między wyszukiwaniem niepołączonym i połączonym?
Połączone wyszukiwanie |
Niepodłączone wyszukiwanie |
|
- Jest używany, gdy funkcja wyszukiwania jest używana zamiast transformacji wyrażenia podczas mapowania |
|
- Zwraca tylko jeden port wyjściowy |
|
|
|
|
|
|
|
|
18) Wyjaśnij, czym jest widok źródła danych?
Widok źródła danych umożliwia zdefiniowanie schematu relacyjnego, który będzie używany w bazach danych usług analitycznych. Zamiast bezpośrednio z obiektów źródła danych, wymiary i kostki są tworzone na podstawie widoków źródła danych.
19) Wyjaśnij, jaka jest różnica między narzędziami OLAP a narzędziami ETL?
Różnica między narzędziem ETL i OLAP polega na tym
Narzędzie ETL jest przeznaczone do ekstrakcji danych ze starszych systemów i ładowania do określonej bazy danych z pewnym procesem czyszczenia danych.
Przykład: etap danych, Informatica itp.
Podczas gdy OLAP jest przeznaczony do celów raportowania w danych OLAP dostępnych w modelu wielokierunkowym.
Przykład: Business Objects, Cognos itp.
20) Jak wyodrębnić dane SAP za pomocą Informatica?
- Dzięki opcji Power Connect wyodrębniasz dane SAP za pomocą oprogramowania Informatica
- Zainstaluj i skonfiguruj narzędzie PowerConnect
- Zaimportuj źródło do analizatora źródła. Pomiędzy Informatica i SAP Powerconnect działają jako brama. Następnym krokiem jest wygenerowanie kodu ABAP do mapowania, a następnie tylko informatica może pobrać dane z SAP
- Do łączenia i importowania źródeł z systemów zewnętrznych służy Power Connect
21) Wspomnij, jaka jest różnica między Power Mart i Power Center?
Centrum mocy |
Power Mart |
|
|
|
|
|
|
|
|
22) Wyjaśnij, czym jest strefa przejściowa i jaki jest jej cel?
Przechowywanie danych to obszar, w którym dane są tymczasowo przechowywane na serwerze hurtowni danych. Inscenizacja danych obejmuje następujące kroki
- Ekstrakcja danych źródłowych i transformacja danych (restrukturyzacja)
- Transformacja danych (czyszczenie danych, transformacja wartości)
- Przypisania kluczy zastępczych
23) Co to jest schemat magistrali?
Dla różnych procesów biznesowych w celu zidentyfikowania wspólnych wymiarów używany jest schemat BUS. Ma zgodne wymiary wraz ze znormalizowaną definicją informacji
24) Wyjaśnij, co to jest czyszczenie danych?
Czyszczenie danych to proces usuwania danych z hurtowni danych. Usuwa niepotrzebne dane, takie jak wiersze z wartościami null lub dodatkowymi spacjami.
25) Wyjaśnij, czym są obiekty schematu?
Obiekty schematu to logiczna struktura, która bezpośrednio odwołuje się do danych baz danych. Obiekty schematu obejmują tabele, widoki, synonimy sekwencji, indeksy, klastry, pakiety funkcji i łącza do baz danych
26) Wyjaśnij te terminy Sesja, Worklet, Maplet i Workflow?
- Mapplet: organizuje lub tworzy zestawy transformacji
- Zadanie: reprezentuje określony zestaw podanych zadań
- Przepływ pracy: jest to zestaw instrukcji, które informują serwer, jak wykonywać zadania
- Sesja: jest to zestaw parametrów, który informuje serwer, jak przenosić dane ze źródeł do celu
Bezpłatny plik PDF do pobrania: Pytania i odpowiedzi dotyczące testowania ETL