Co to jest Data Lake?
Data Lake to repozytorium pamięci masowej, które może przechowywać duże ilości danych ustrukturyzowanych, częściowo ustrukturyzowanych i nieustrukturyzowanych. Jest to miejsce do przechowywania każdego typu danych w jego natywnym formacie bez stałych ograniczeń rozmiaru konta lub pliku. Oferuje dużą ilość danych w celu zwiększenia wydajności analitycznej i integracji natywnej.
Data Lake jest jak duży pojemnik, który jest bardzo podobny do prawdziwego jeziora i rzek. Podobnie jak w jeziorze, do którego wpływa wiele dopływów, jezioro danych zawiera ustrukturyzowane dane, nieustrukturyzowane dane, maszyna do maszyny, dzienniki przepływające w czasie rzeczywistym.
Usługa Data Lake demokratyzuje dane i jest opłacalnym sposobem przechowywania wszystkich danych organizacji do późniejszego przetwarzania. Analityk badawczy może skupić się na znajdowaniu wzorców znaczeniowych w danych, a nie samych danych.
W przeciwieństwie do hierarchicznego domu Dataware, w którym dane są przechowywane w plikach i folderach, Data Lake ma płaską architekturę. Każdy element danych w Data Lake otrzymuje unikalny identyfikator i jest oznaczony zestawem informacji o metadanych.
W tym samouczku nauczysz się:
- Co to jest Data Lake?
- Dlaczego Data Lake?
- Architektura Data Lake
- Kluczowe koncepcje Data Lake
- Etapy dojrzałości usługi Data Lake
- Najlepsze rozwiązania dotyczące wdrażania usługi Data Lake:
- Różnica między jeziorami danych a hurtownią danych
- Korzyści i zagrożenia związane z korzystaniem z usługi Data Lake:
Dlaczego Data Lake?
Głównym celem budowy jeziora danych jest zaoferowanie naukowcom zajmującym się danymi nierafinowanego widoku danych.
Powody korzystania z usługi Data Lake to:
- Wraz z pojawieniem się silników pamięci masowej, takich jak Hadoop, przechowywanie odmiennych informacji stało się łatwe. Nie ma potrzeby modelowania danych w schemacie obejmującym całe przedsiębiorstwo za pomocą usługi Data Lake.
- Wraz ze wzrostem ilości danych, jakości danych i metadanych wzrasta również jakość analiz.
- Data Lake zapewnia elastyczność biznesową
- Uczenie maszynowe i sztuczna inteligencja mogą służyć do tworzenia dochodowych prognoz.
- Daje przewagę konkurencyjną organizacji wdrażającej.
- Nie ma struktury silosu danych. Usługa Data Lake zapewnia 360-stopniowy widok klientów i sprawia, że analizy są bardziej niezawodne.
Architektura Data Lake
Rysunek przedstawia architekturę usługi Business Data Lake. Niższe poziomy reprezentują dane, które są w większości w spoczynku, podczas gdy wyższe poziomy pokazują dane transakcyjne w czasie rzeczywistym. Te dane przepływają przez system bez opóźnień lub z niewielkimi opóźnieniami. Poniżej przedstawiono ważne warstwy w architekturze Data Lake:
- Poziom przetwarzania: poziomy po lewej stronie przedstawiają źródła danych. Dane mogą być ładowane do jeziora danych partiami lub w czasie rzeczywistym
- Poziom spostrzeżeń: poziomy po prawej stronie reprezentują stronę badawczą, w której wykorzystywane są spostrzeżenia z systemu. Do analizy danych można wykorzystać zapytania SQL, NoSQL, a nawet Excel.
- HDFS to ekonomiczne rozwiązanie zarówno dla danych ustrukturyzowanych, jak i nieustrukturyzowanych. Jest to strefa docelowa dla wszystkich danych znajdujących się w spoczynku w systemie.
- Poziom destylacji pobiera dane z opony do przechowywania i konwertuje je na dane strukturalne w celu łatwiejszej analizy.
- Warstwa przetwarzania uruchamia algorytmy analityczne i zapytania użytkowników z różnymi interakcyjnymi, wsadowymi danymi w czasie rzeczywistym w celu wygenerowania ustrukturyzowanych danych w celu łatwiejszej analizy.
- Ujednolicona warstwa operacyjna zarządza zarządzaniem i monitorowaniem systemu. Obejmuje audyt i zarządzanie biegłością, zarządzanie danymi, zarządzanie przepływem pracy.
Kluczowe koncepcje Data Lake
Poniżej przedstawiono kluczowe koncepcje usługi Data Lake, które należy zrozumieć, aby w pełni zrozumieć architekturę Data Lake
Przetwarzanie danych
Przetwarzanie danych umożliwia łącznikom pobieranie danych z różnych źródeł danych i ładowanie ich do jeziora danych.
Przetwarzanie danych obsługuje:
- Wszystkie typy danych ustrukturyzowanych, częściowo ustrukturyzowanych i nieustrukturyzowanych.
- Przetwarzanie wielokrotne, np. Wsadowe, w czasie rzeczywistym, jednorazowe ładowanie.
- Wiele typów źródeł danych, takich jak bazy danych, serwery internetowe, wiadomości e-mail, IoT i FTP.
Przechowywanie danych
Przechowywanie danych powinno być skalowalne, oferować ekonomiczne przechowywanie i umożliwiać szybki dostęp do eksploracji danych. Powinien obsługiwać różne formaty danych.
Zarządzanie danymi
Zarządzanie danymi to proces zarządzania dostępnością, użytecznością, bezpieczeństwem i integralnością danych używanych w organizacji.
Bezpieczeństwo
Bezpieczeństwo należy wdrożyć w każdej warstwie jeziora danych. Zaczyna się od przechowywania, odkrywania i zużycia. Podstawową potrzebą jest zablokowanie dostępu nieautoryzowanym użytkownikom. Powinien obsługiwać różne narzędzia dostępu do danych z łatwym w nawigacji GUI i pulpitami nawigacyjnymi.
Uwierzytelnianie, księgowanie, autoryzacja i ochrona danych to niektóre z ważnych cech bezpieczeństwa jeziora danych.
Jakość danych:
Jakość danych jest podstawowym elementem architektury Data Lake. Dane służą do określenia wartości biznesowej. Wydobywanie spostrzeżeń z danych o niskiej jakości doprowadzi do wglądów niskiej jakości.
Odkrywanie danych
Wykrywanie danych to kolejny ważny etap przed przystąpieniem do przygotowywania danych lub analiz. Na tym etapie technika tagowania służy do wyrażania zrozumienia danych poprzez organizowanie i interpretację danych pozyskanych w jeziorze danych.
Audyt danych
Dwa główne zadania inspekcji danych śledzą zmiany w kluczowym zestawie danych.
- Śledzenie zmian ważnych elementów zbioru danych
- Przechwytuje, jak / kiedy / i kto zmienia te elementy.
Audyt danych pomaga ocenić ryzyko i zgodność.
Pochodzenie danych
Ten komponent dotyczy pochodzenia danych. Zajmuje się głównie tym, gdzie się porusza w czasie i co się z nim dzieje. Ułatwia korygowanie błędów w procesie analizy danych od źródła do miejsca przeznaczenia.
Eksploracja danych
To początek analizy danych. Pomaga zidentyfikować właściwy zestaw danych, jest niezbędny przed rozpoczęciem eksploracji danych.
Wszystkie podane komponenty muszą współpracować, aby odegrać ważną rolę w budowaniu jeziora Data Lake, łatwo ewoluować i badać środowisko.
Etapy dojrzałości usługi Data Lake
Definicja etapów dojrzałości Data Lake różni się w zależności od podręcznika. Chociaż sedno pozostaje takie samo. Po osiągnięciu dojrzałości definicja etapu jest z punktu widzenia laika.
Etap 1: Obsługa i pozyskiwanie danych na dużą skalę
Ten pierwszy etap dojrzałości danych obejmuje doskonalenie umiejętności przekształcania i analizowania danych. W tym przypadku właściciele firm muszą znaleźć narzędzia zgodne ze swoimi umiejętnościami, aby uzyskać więcej danych i tworzyć aplikacje analityczne.
Etap 2: Budowanie mięśnia analitycznego
To drugi etap, który polega na doskonaleniu umiejętności przekształcania i analizowania danych. Na tym etapie firmy używają narzędzia, które jest najbardziej odpowiednie dla ich zestawu umiejętności. Zaczynają pozyskiwać więcej danych i tworzyć aplikacje. W tym przypadku możliwości korporacyjnej hurtowni danych i jeziora danych są wykorzystywane razem.
Etap 3: EDW i Data Lake współpracują ze sobą
Ten krok polega na przekazaniu danych i analiz w ręce jak największej liczby osób. Na tym etapie jezioro danych i hurtownia danych przedsiębiorstwa zaczynają działać w unii. Obaj odgrywają swoją rolę w analityce
Etap 4: Możliwości przedsiębiorstwa w jeziorze
Na tym etapie dojrzałości usługi Data Lake funkcje przedsiębiorstwa są dodawane do usługi Data Lake. Przyjęcie zarządzania informacjami, możliwości zarządzania cyklem życia informacji i zarządzania metadanymi. Jednak bardzo niewiele organizacji może osiągnąć ten poziom dojrzałości, ale liczba ta wzrośnie w przyszłości.
Najlepsze rozwiązania dotyczące wdrażania usługi Data Lake:
- Komponenty architektoniczne, ich interakcja i zidentyfikowane produkty powinny obsługiwać natywne typy danych
- Projektowanie usługi Data Lake powinno opierać się na tym, co jest dostępne, a nie na tym, co jest wymagane. Schemat i wymagania dotyczące danych nie są definiowane, dopóki nie zostaną wysłane zapytania
- Projekt powinien opierać się na jednorazowych komponentach zintegrowanych z usługowym API.
- Odkrycie danych, pozyskiwanie, przechowywanie, administracja, jakość, transformacja i wizualizacja powinny być zarządzane niezależnie.
- Architektura Data Lake powinna być dostosowana do konkretnej branży. Powinien zapewnić, że możliwości niezbędne dla tej domeny są nieodłączną częścią projektu
- Ważne jest szybsze wdrażanie nowo odkrytych źródeł danych
- Data Lake pomaga dostosować zarządzanie w celu uzyskania maksymalnej wartości
- Usługa Data Lake powinna obsługiwać istniejące techniki i metody zarządzania danymi przedsiębiorstwa
Wyzwania związane z budową jeziora danych:
- W usłudze Data Lake ilość danych jest większa, więc proces musi być bardziej zależny od administrowania programowego
- Trudno jest radzić sobie z rzadkimi, niekompletnymi, niestabilnymi danymi
- Szerszy zakres zbioru danych i źródła wymaga większego zarządzania danymi i wsparcia
Różnica między jeziorami danych a hurtownią danych
Parametry | Jeziora danych | Hurtownia danych |
---|---|---|
Dane | Jeziora danych przechowują wszystko. | Hurtownia danych skupia się wyłącznie na procesach biznesowych. |
Przetwarzanie | Dane są głównie nieprzetworzone | Wysoko przetworzone dane. |
Rodzaj danych | Może być nieustrukturyzowany, częściowo ustrukturyzowany i ustrukturyzowany. | Jest to głównie w formie i strukturze tabelarycznej. |
Zadanie | Udostępniaj zarządzanie danymi | Zoptymalizowany pod kątem odzyskiwania danych |
Zwinność | Wysoce elastyczny, konfiguruj i rekonfiguruj w razie potrzeby. | W porównaniu z Data Lake jest mniej elastyczny i ma stałą konfigurację. |
Użytkownicy | Usługa Data Lake jest używana głównie przez Data Scientist | Specjaliści biznesowi szeroko korzystają z hurtowni danych |
Przechowywanie | Projektowanie jezior danych pod kątem taniego przechowywania. | Wykorzystywane są drogie pamięci, które zapewniają szybkie czasy reakcji |
Bezpieczeństwo | Zapewnia mniejszą kontrolę. | Pozwala na lepszą kontrolę danych. |
Zastąpienie EDW | Jezioro danych może być źródłem dla EDW | Uzupełnienie EDW (bez wymiany) |
Schemat | Schemat podczas czytania (bez predefiniowanych schematów) | Schemat przy zapisie (predefiniowane schematy) |
Przetwarzanie danych | Pomaga w szybkim pozyskiwaniu nowych danych. | Czasochłonne wprowadzanie nowych treści. |
Szczegółowość danych | Dane o niskim poziomie szczegółowości lub ziarnistości. | Dane na poziomie podsumowania lub zagregowanej szczegółowości. |
Przybory | Może korzystać z narzędzi / narzędzi typu open source, takich jak Hadoop / Map Reduce | Głównie narzędzia komercyjne. |
Korzyści i zagrożenia związane z korzystaniem z usługi Data Lake:
Oto kilka głównych zalet korzystania z usługi Data Lake:
- W pełni pomaga w jonizacji produktu i zaawansowanej analizie
- Oferuje opłacalną skalowalność i elastyczność
- Oferuje wartość z nieograniczonej liczby typów danych
- Zmniejsza długoterminowy koszt posiadania
- Pozwala na ekonomiczne przechowywanie plików
- Szybka adaptacja do zmian
- Główną zaletą jeziora danych jest centralizacja różnych źródeł treści
- Użytkownicy z różnych działów mogą być rozproszeni po całym świecie, mogą mieć elastyczny dostęp do danych
Ryzyko związane z korzystaniem z Data Lake:
- Po pewnym czasie Data Lake może stracić na znaczeniu i rozpędu
- Projektowanie usługi Data Lake wiąże się z większym ryzykiem
- Dane nieustrukturyzowane mogą prowadzić do niezarządzanych Chao, danych bezużytecznych, odrębnych i złożonych narzędzi, współpracy w całym przedsiębiorstwie, ujednoliconej, spójnej i wspólnej
- Zwiększa również koszty przechowywania i obliczeń
- Nie ma możliwości uzyskania spostrzeżeń od innych, którzy pracowali z danymi, ponieważ nie ma opisu pochodzenia ustaleń poprzednich analityków
- Największym ryzykiem związanym z jeziorami danych jest bezpieczeństwo i kontrola dostępu. Czasami dane można umieścić w jeziorze bez żadnego nadzoru, ponieważ niektóre z nich mogą wymagać prywatności i wymagają przepisów
Podsumowanie:
- Data Lake to repozytorium pamięci masowej, które może przechowywać duże ilości danych ustrukturyzowanych, częściowo ustrukturyzowanych i nieustrukturyzowanych.
- Głównym celem budowy jeziora danych jest zaoferowanie naukowcom zajmującym się danymi nierafinowanego widoku danych.
- Warstwa ujednoliconych operacji, warstwa przetwarzania, warstwa destylacji i HDFS to ważne warstwy architektury Data Lake Architecture
- Przetwarzanie danych, przechowywanie danych, jakość danych, audyt danych, eksploracja danych, odkrywanie danych to niektóre ważne elementy architektury Data Lake
- Projektowanie usługi Data Lake powinno opierać się na tym, co jest dostępne, a nie na tym, co jest wymagane.
- Data Lake obniża długoterminowy koszt posiadania i umożliwia ekonomiczne przechowywanie plików
- Największym ryzykiem związanym z jeziorami danych jest bezpieczeństwo i kontrola dostępu. Czasami dane można umieścić w jeziorze bez żadnego nadzoru, ponieważ niektóre z nich mogą wymagać prywatności i wymagają przepisów.