Architektura, koncepcje i komponenty hurtowni danych

Spisie treści:

Anonim

Pojęcia dotyczące hurtowni danych

Podstawową koncepcją hurtowni danych jest udostępnienie jednej wersji prawdy dla firmy do podejmowania decyzji i prognozowania. Hurtownia danych to system informacyjny zawierający dane historyczne i przemienne z jednego lub wielu źródeł. Koncepcje hurtowni danych upraszczają proces raportowania i analizy organizacji.

Charakterystyka hurtowni danych

Pojęcia dotyczące hurtowni danych mają następujące cechy:

  • Zorientowany podmiotowo
  • Zintegrowany
  • Wariant czasowy
  • Nieulotne

Zorientowany podmiotowo

Hurtownia danych jest zorientowana tematycznie, ponieważ oferuje informacje dotyczące tematu, a nie bieżącej działalności firmy. Przedmiotami tymi mogą być sprzedaż, marketing, dystrybucja itp.

Hurtownia danych nigdy nie koncentruje się na bieżących operacjach. Zamiast tego położył nacisk na modelowanie i analizę danych do podejmowania decyzji . Zapewnia również prosty i zwięzły pogląd na konkretny temat, wykluczając dane, które nie są pomocne w procesie decyzyjnym.

Zintegrowany

W hurtowni danych integracja oznacza ustanowienie wspólnej jednostki miary dla wszystkich podobnych danych z odmiennej bazy danych. Dane muszą być również przechowywane w magazynie danych w powszechny i ​​powszechnie akceptowany sposób.

Hurtownia danych jest rozwijana poprzez integrację danych z różnych źródeł, takich jak mainframe, relacyjne bazy danych, pliki płaskie itp. Ponadto musi zachowywać spójne konwencje nazewnictwa, format i kodowanie.

Ta integracja pomaga w skutecznej analizie danych. Należy zapewnić spójność konwencji nazewnictwa, miar atrybutów, struktury kodowania itp. Rozważmy następujący przykład:

W powyższym przykładzie istnieją trzy różne aplikacje oznaczone A, B i C. Informacje przechowywane w tych aplikacjach to Płeć, Data i Saldo. Jednak dane każdej aplikacji są przechowywane w inny sposób.

  • W aplikacji Pole płci zawiera wartości logiczne, takie jak M lub F
  • W polu Płeć aplikacji B jest wartością liczbową,
  • W aplikacji C pole płci przechowywane w postaci wartości znakowej.
  • To samo dotyczy daty i salda

Jednak po procesie transformacji i czyszczenia wszystkie te dane są przechowywane w jednolitym formacie w Hurtowni Danych.

Wariant czasowy

Horyzont czasowy dla hurtowni danych jest dość szeroki w porównaniu z systemami operacyjnymi. Dane gromadzone w hurtowni danych są rozpoznawane za konkretny okres i dostarczają informacji z historycznego punktu widzenia. Zawiera element czasu, jawnie lub niejawnie.

Jednym z takich miejsc, w których wariancja czasu wyświetlania danych magazynu danych, jest struktura klucza rekordu. Każdy klucz podstawowy zawarty w DW powinien mieć niejawnie lub jawnie element czasu. Jak dzień, miesiąc itp.

Innym aspektem zmienności czasu jest to, że po wstawieniu danych do hurtowni nie można ich aktualizować ani zmieniać.

Nieulotne

Hurtownia danych jest również nieulotna, co oznacza, że ​​poprzednie dane nie są usuwane po wprowadzeniu do niej nowych.

Dane są tylko do odczytu i okresowo odświeżane. Pomaga to również w analizie danych historycznych i zrozumieniu, co i kiedy się wydarzyło. Nie wymaga procesów transakcyjnych, odzyskiwania i mechanizmów kontroli współbieżności.

Czynności takie jak usuwanie, aktualizacja i wstawianie wykonywane w środowisku aplikacji operacyjnych są pomijane w środowisku hurtowni danych. Tylko dwa typy operacji na danych wykonywane w hurtowni danych to

  1. Ładowanie danych
  2. Dostęp do danych

Oto kilka głównych różnic między aplikacją a hurtownią danych

Aplikacja operacyjna Hurtownia danych
Złożony program musi być zakodowany, aby zapewnić, że procesy aktualizacji danych zachowają wysoką integralność produktu końcowego. Tego rodzaju problemy nie występują, ponieważ nie jest wykonywana aktualizacja danych.
Dane są umieszczane w znormalizowanej formie, aby zapewnić minimalną nadmiarowość. Dane nie są przechowywane w znormalizowanej formie.
Technologia potrzebna do obsługi transakcji, odzyskiwania danych, wycofywania i rozwiązywania problemów, ponieważ jej zakleszczenie jest dość złożone. Oferuje względną prostotę technologii.

Architektura hurtowni danych

Architektura hurtowni danych jest złożona, ponieważ jest to system informacyjny zawierający dane historyczne i przemienne z wielu źródeł. Istnieją 3 podejścia do tworzenia warstw hurtowni danych: jedna warstwa, dwie warstwy i trzy warstwy. Tę trójwarstwową architekturę hurtowni danych wyjaśniono poniżej.

Architektura jednowarstwowa

Celem pojedynczej warstwy jest zminimalizowanie ilości przechowywanych danych. Celem jest usunięcie nadmiarowości danych. Taka architektura nie jest często stosowana w praktyce.

Architektura dwuwarstwowa

Architektura dwuwarstwowa jest jedną z warstw Hurtowni Danych, która oddziela fizycznie dostępne źródła i hurtownię danych. Tej architektury nie można rozbudowywać, a także nie obsługuje dużej liczby użytkowników końcowych. Ma również problemy z łącznością z powodu ograniczeń sieciowych.

Trójwarstwowa architektura hurtowni danych

Jest to najczęściej używana architektura hurtowni danych.

Składa się z górnego, środkowego i dolnego poziomu.

  1. Dolna warstwa : baza danych serwerów Datawarehouse jako najniższy poziom. Zwykle jest to system relacyjnych baz danych. Dane są czyszczone, przekształcane i ładowane do tej warstwy za pomocą narzędzi zaplecza.
  2. Warstwa środkowa: warstwa środkowa w hurtowni danych to serwer OLAP, który jest zaimplementowany przy użyciu modelu ROLAP lub MOLAP. Dla użytkownika ta warstwa aplikacji przedstawia abstrakcyjny widok bazy danych. Ta warstwa działa również jako pośrednik między użytkownikiem końcowym a bazą danych.
  3. Najwyższy poziom: najwyższy poziom to warstwa klienta front-end. Najwyższy poziom to narzędzia i interfejs API, które łączysz i pobierasz dane z hurtowni danych. Mogą to być narzędzia zapytań, narzędzia raportowania, narzędzia do zarządzania zapytaniami, narzędzia analityczne i narzędzia do eksploracji danych.

Komponenty magazynu danych

Dowiemy się o składnikach magazynu danych i architekturze hurtowni danych z diagramem, jak pokazano poniżej:

Architektura hurtowni danych

Hurtownia danych jest oparta na serwerze RDBMS, który jest centralnym repozytorium informacji otoczonym kluczowymi komponentami hurtowni danych, aby całe środowisko było funkcjonalne, łatwe w zarządzaniu i dostępne.

Istnieje głównie pięć komponentów hurtowni danych:

Baza danych hurtowni danych

Centralna baza danych jest podstawą środowiska hurtowni danych. Ta baza danych jest zaimplementowana w technologii RDBMS. Jednak tego rodzaju implementacja jest ograniczona faktem, że tradycyjny system RDBMS jest zoptymalizowany pod kątem przetwarzania transakcyjnych baz danych, a nie hurtowni danych. Na przykład kwerendy ad-hoc, sprzężenia wielotabelowe, agregacje wymagają dużej ilości zasobów i spowalniają wydajność.

W związku z tym stosowane są alternatywne podejścia do bazy danych wymienione poniżej:

  • W magazynie danych relacyjne bazy danych są wdrażane równolegle, aby zapewnić skalowalność. Równoległe relacyjne bazy danych umożliwiają również modelowanie pamięci współdzielonej lub niczego nie współużytkowanego w różnych konfiguracjach wieloprocesorowych lub masowo równoległych procesorach.
  • Nowe struktury indeksów są używane do ominięcia skanowania tabeli relacyjnej i zwiększenia szybkości.
  • Korzystanie z wielowymiarowej bazy danych (MDDB) w celu przezwyciężenia wszelkich ograniczeń, które są nakładane z powodu modeli relacyjnych hurtowni danych. Przykład: Essbase firmy Oracle.

Narzędzia do pozyskiwania, nabywania, oczyszczania i transformacji (ETL)

Narzędzia do pozyskiwania, transformacji i migracji danych służą do wykonywania wszystkich konwersji, podsumowań i wszystkich zmian potrzebnych do przekształcenia danych w ujednolicony format w magazynie danych. Są również nazywane narzędziami do wyodrębniania, przekształcania i wczytywania (ETL).

Ich funkcjonalność obejmuje:

  • Anonimizuj dane zgodnie z przepisami prawnymi.
  • Eliminacja niechcianych danych w operacyjnych bazach danych z ładowania do hurtowni danych.
  • Wyszukaj i zamień popularne nazwy i definicje danych pochodzących z różnych źródeł.
  • Obliczanie podsumowań i danych pochodnych
  • W przypadku braku danych, wypełnij je wartościami domyślnymi.
  • Zduplikowane powtarzające się dane pochodzące z wielu źródeł danych.

Te narzędzia do wyodrębniania, przekształcania i ładowania mogą generować zadania cron, zadania w tle, programy Cobol, skrypty powłoki itp., Które regularnie aktualizują dane w magazynie danych. Te narzędzia są również pomocne w utrzymaniu metadanych.

Te narzędzia ETL muszą radzić sobie z wyzwaniami związanymi z heterogenicznością baz danych i danych.

Metadane

Nazwa Meta Data sugeruje kilka zaawansowanych technologicznych koncepcji hurtowni danych. Jednak jest to dość proste. Metadane to dane o danych, które definiują hurtownię danych. Służy do budowy, utrzymywania i zarządzania hurtownią danych.

W architekturze hurtowni danych metadane odgrywają ważną rolę, ponieważ określają źródło, wykorzystanie, wartości i cechy danych hurtowni danych. Określa również, w jaki sposób dane mogą być zmieniane i przetwarzane. Jest ściśle powiązany z hurtownią danych.

Na przykład wiersz w bazie danych sprzedaży może zawierać:

4030 KJ732 299.90

Są to bezsensowne dane, dopóki nie skonsultujemy się z Meta, która mówi nam, że tak było

  • Numer modelu: 4030
  • Identyfikator przedstawiciela handlowego: KJ732
  • Całkowita kwota sprzedaży 299,90 USD

Dlatego metadane są niezbędnymi składnikami przekształcania danych w wiedzę.

Metadane pomagają odpowiedzieć na następujące pytania

  • Jakie tabele, atrybuty i klucze zawiera hurtownia danych?
  • Skąd pochodzą dane?
  • Ile razy dane są ładowane ponownie?
  • Jakie przemiany zostały zastosowane przy oczyszczaniu?

Metadane można podzielić na następujące kategorie:

  1. Metadane techniczne : Ten rodzaj metadanych zawiera informacje o hurtowni, z której korzystają projektanci i administratorzy hurtowni danych.
  2. Biznesowe metadane: ten rodzaj metadanych zawiera szczegóły, dzięki którym użytkownicy końcowi mogą łatwo zrozumieć informacje przechowywane w hurtowni danych.

Narzędzia zapytań

Jednym z podstawowych obiektów hurtowni danych jest dostarczanie firmom informacji umożliwiających podejmowanie strategicznych decyzji. Narzędzia zapytań umożliwiają użytkownikom interakcję z systemem hurtowni danych.

Narzędzia te dzielą się na cztery różne kategorie:

  1. Zapytania i narzędzia do raportowania
  2. Narzędzia do tworzenia aplikacji
  3. Narzędzia do eksploracji danych
  4. Narzędzia OLAP

1. Narzędzia zapytań i raportowania:

Narzędzia zapytań i raportowania można dalej podzielić na

  • Narzędzia do raportowania
  • Zarządzane narzędzia zapytań

Narzędzia do raportowania:

Narzędzia do raportowania można dalej podzielić na narzędzia do raportowania produkcji i narzędzie do tworzenia raportów na komputer.

  1. Autorzy raportów: tego rodzaju narzędzia do raportowania to narzędzia przeznaczone dla użytkowników końcowych do ich analizy.
  2. Raportowanie produkcji: tego rodzaju narzędzia umożliwiają organizacjom generowanie regularnych raportów operacyjnych. Obsługuje również duże zadania wsadowe, takie jak drukowanie i obliczenia. Niektóre popularne narzędzia do raportowania to Brio, Business Objects, Oracle, PowerSoft, SAS Institute.

Zarządzane narzędzia zapytań:

Ten rodzaj narzędzi dostępu pomaga użytkownikom końcowym w rozwiązywaniu problemów w bazie danych, SQL i strukturze bazy danych poprzez wstawianie meta-warstwy między użytkownikami a bazą danych.

2. Narzędzia do tworzenia aplikacji:

Czasami wbudowane narzędzia graficzne i analityczne nie zaspokajają analitycznych potrzeb organizacji. W takich przypadkach raporty niestandardowe są opracowywane przy użyciu narzędzi do tworzenia aplikacji.

3. Narzędzia do eksploracji danych:

Eksploracja danych to proces odkrywania nowych, znaczących korelacji, wzorców i trendów poprzez eksplorację dużych ilości danych. Narzędzia do eksploracji danych służą do zautomatyzowania tego procesu.

4. Narzędzia OLAP:

Narzędzia te są oparte na koncepcjach wielowymiarowej bazy danych. Pozwala użytkownikom analizować dane za pomocą rozbudowanych i złożonych wielowymiarowych widoków.

Architektura magistrali hurtowni danych

Magistrala hurtowni danych określa przepływ danych w hurtowni. Przepływ danych w hurtowni danych można sklasyfikować jako dopływ, przepływ w górę, przepływ w dół, przepływ i przepływ meta.

Projektując magistralę danych, należy wziąć pod uwagę wspólne wymiary, fakty w bazach danych.

Data Marts

Hurtownia danych to warstwa dostępu, która służy do dostarczania danych użytkownikom. Jest prezentowany jako opcja dla dużych hurtowni danych, ponieważ jej budowa zajmuje mniej czasu i pieniędzy. Jednak nie ma standardowej definicji zbiorczej bazy danych, która różni się w zależności od osoby.

Krótko mówiąc, Data mart jest filią hurtowni danych. Składnica danych służy do partycjonowania danych, które są tworzone dla określonej grupy użytkowników.

Składnice danych można tworzyć w tej samej bazie danych, co magazyn danych lub fizycznie oddzielną bazę danych.

Najlepsze praktyki dotyczące architektury hurtowni danych

Aby zaprojektować architekturę hurtowni danych, należy postępować zgodnie z poniższymi najlepszymi praktykami:

  • Użyj modeli hurtowni danych, które są zoptymalizowane pod kątem wyszukiwania informacji, które mogą być w trybie wymiarowym, zdenormalizowanym lub hybrydowym.
  • Wybierz odpowiednie podejście do projektowania jako podejście odgórne i oddolne w hurtowni danych
  • Trzeba mieć pewność, że dane są przetwarzane szybko i dokładnie. Jednocześnie należy przyjąć podejście, które konsoliduje dane w jedną wersję prawdy.
  • Starannie zaprojektuj proces pozyskiwania i czyszczenia danych dla hurtowni danych.
  • Zaprojektuj architekturę MetaData, która umożliwia współdzielenie metadanych pomiędzy komponentami Hurtowni Danych
  • Rozważ wdrożenie modelu ODS, gdy potrzeba wyszukiwania informacji znajduje się blisko dna piramidy abstrakcji danych lub gdy istnieje potrzeba uzyskania dostępu do wielu źródeł operacyjnych.
  • Należy upewnić się, że model danych jest zintegrowany, a nie tylko skonsolidowany. W takim przypadku należy rozważyć model danych 3NF. Jest również idealny do nabywania narzędzi ETL i czyszczenia danych

Podsumowanie:

  • Hurtownia danych to system informacyjny zawierający dane historyczne i przemienne z jednego lub wielu źródeł. Te źródła mogą być tradycyjną hurtownią danych, hurtownią danych w chmurze lub wirtualną hurtownią danych.
  • Hurtownia danych jest zorientowana tematycznie, ponieważ oferuje informacje dotyczące tematu, a nie bieżącej działalności organizacji.
  • W hurtowni danych integracja oznacza ustanowienie wspólnej jednostki miary dla wszystkich podobnych danych z różnych baz danych
  • Hurtownia danych jest również nieulotna, co oznacza, że ​​poprzednie dane nie są usuwane po wprowadzeniu do niej nowych.
  • Magazyn danych jest zmienny w czasie, ponieważ dane w DW mają długi okres trwałości.
  • Istnieje głównie 5 elementów architektury hurtowni danych: 1) Baza danych 2) Narzędzia ETL 3) Metadane 4) Narzędzia zapytań 5) DataMarts
  • Są to cztery główne kategorie narzędzi zapytań 1. Zapytania i raportowanie, narzędzia 2. Narzędzia do tworzenia aplikacji, 3. Narzędzia eksploracji danych 4. Narzędzia OLAP
  • Narzędzia do pozyskiwania, transformacji i migracji danych służą do wykonywania wszystkich konwersji i podsumowań.
  • W architekturze hurtowni danych metadane odgrywają ważną rolę, ponieważ określają źródło, wykorzystanie, wartości i cechy danych hurtowni danych.