Co to jest BIG DATA? Wprowadzenie, rodzaje, cechy, przykład

Spisie treści:

Anonim

Zanim przejdziemy do wprowadzenia do Big Data, musisz najpierw wiedzieć

Co to są dane?

Wielkości, znaki lub symbole, na których operacje są wykonywane przez komputer, które mogą być przechowywane i przesyłane w postaci sygnałów elektrycznych i nagrywane na magnetycznych, optycznych lub mechanicznych nośnikach zapisu.

Teraz nauczmy się wprowadzenia do Big Data

Co to jest Big Data?

Big Data to zbiór danych o ogromnej objętości, ale rosnący wykładniczo z czasem. Są to dane o tak dużym rozmiarze i złożoności, że żadne z tradycyjnych narzędzi do zarządzania danymi nie jest w stanie ich efektywnie przechowywać ani przetwarzać. Big data to również dane, ale o ogromnym rozmiarze.

W tym samouczku dowiesz się,

  • Co to są dane?
  • Co to jest Big Data?
  • Przykłady Big Data
  • Rodzaje Big Data
  • Charakterystyka dużych zbiorów danych
  • Zalety przetwarzania Big Data

Przykłady Big Data

Oto kilka przykładów Big Data:

New York Stock Exchange generuje około jednego terabajta nowych danych handlowych dziennie.

Media społecznościowe

Statystyki pokazują, że do baz danych portalu społecznościowego Facebook codziennie trafia ponad 500 terabajtów nowych danych . Dane te są generowane głównie w zakresie przesyłania zdjęć i filmów, wymiany wiadomości, umieszczania komentarzy itp.

Pojedynczy silnik odrzutowy może wygenerować ponad 10 terabajtów danych w ciągu 30 minut lotu. Przy wielu tysiącach lotów dziennie generowanie danych sięga nawet wielu petabajtów.

Rodzaje Big Data

Oto rodzaje Big Data:

  1. Zbudowany
  2. Brak struktury
  3. Półstrukturalny

Zbudowany

Wszelkie dane, które można przechowywać, uzyskiwać do nich dostęp i przetwarzać je w ustalonym formacie, określa się jako dane „ustrukturyzowane”. Z biegiem czasu talent informatyczny osiągnął większy sukces w opracowywaniu technik pracy z tego rodzaju danymi (których format jest z góry dobrze znany), a także czerpaniu z nich wartości. Jednak w dzisiejszych czasach przewidujemy problemy, gdy rozmiar takich danych wzrośnie w ogromnym stopniu, a typowe rozmiary są w wściekłości wielu zettabajtów.

Czy wiesz? 10 21 bajtów równych 1 zettabajtowi lub miliardowi terabajtów tworzy zettabajt .

Patrząc na te liczby, można łatwo zrozumieć, dlaczego nadano nazwę Big Data i wyobrazić sobie wyzwania związane z ich przechowywaniem i przetwarzaniem.

Czy wiesz? Dane przechowywane w systemie zarządzania relacyjnymi bazami danych są jednym z przykładów danych „ustrukturyzowanych” .

Przykłady danych strukturalnych

Przykładem danych strukturalnych jest tabela „Pracownik” w bazie danych

Numer identyfikacyjny pracownika Imię i nazwisko pracownika Płeć Departament Salary_In_lacs
2365 Rajesh Kulkarni Męski Finanse 650000
3398 Pratibha Joshi Płeć żeńska Administrator 650000
7465 Shushil Roy Męski Administrator 500000
7500 Shubhojit Das Męski Finanse 500000
7699 Priya Sane Płeć żeńska Finanse 550000

Brak struktury

Wszelkie dane o nieznanej formie lub strukturze są klasyfikowane jako dane nieustrukturyzowane. Oprócz ogromnych rozmiarów, nieustrukturyzowane dane stwarzają wiele wyzwań, jeśli chodzi o ich przetwarzanie w celu uzyskania z nich wartości. Typowym przykładem nieustrukturyzowanych danych jest heterogeniczne źródło danych zawierające kombinację prostych plików tekstowych, obrazów, filmów itp. Obecnie organizacje mają do dyspozycji bogactwo danych, ale niestety nie wiedzą, jak uzyskać z nich wartość, ponieważ dane te mają postać surową lub nieustrukturyzowaną.

Przykłady danych bez struktury

Dane wyjściowe zwrócone przez „Wyszukiwarkę Google”

Półstrukturalny

Dane częściowo ustrukturyzowane mogą zawierać obie formy danych. Możemy zobaczyć dane częściowo ustrukturyzowane jako ustrukturyzowane w formie, ale w rzeczywistości nie są one zdefiniowane np. Za pomocą definicji tabeli w relacyjnym DBMS. Przykładem danych częściowo ustrukturyzowanych są dane reprezentowane w pliku XML.

Przykłady danych częściowo ustrukturyzowanych

Dane osobowe przechowywane w pliku XML

Prashant RaoMale35Seema R.Female41Satish ManeMale29Subrato RoyMale26Jeremiah J.Male35

Wzrost danych na przestrzeni lat

Należy pamiętać, że dane aplikacji internetowej, które nie są ustrukturyzowane, składają się z plików dziennika, plików historii transakcji itp. Systemy OLTP są zbudowane do pracy z danymi strukturalnymi, w których dane są przechowywane w relacjach (tabelach).

Charakterystyka dużych zbiorów danych

Big data można opisać następującymi cechami:

  • Tom
  • Różnorodność
  • Prędkość
  • Zmienność

(i) Wolumen - sama nazwa Big Data związana jest z ogromnym rozmiarem. Rozmiar danych odgrywa bardzo istotną rolę w określaniu wartości z danych. Również to, czy dane dane można faktycznie uznać za duże zbiory danych, czy też nie, zależy od ilości danych. Stąd „Wolumen” jest jedną z cech, którą należy wziąć pod uwagę, mając do czynienia z Big Data.

(ii) Różnorodność - Kolejnym aspektem Big Data jest ich różnorodność .

Różnorodność odnosi się do heterogenicznych źródeł i charakteru danych, zarówno ustrukturyzowanych, jak i nieustrukturyzowanych. We wcześniejszych czasach arkusze kalkulacyjne i bazy danych były jedynymi źródłami danych uwzględnianymi przez większość aplikacji. Obecnie w aplikacjach analitycznych uwzględniane są również dane w postaci e-maili, zdjęć, filmów, urządzeń monitorujących, plików PDF, audio itp. Ta różnorodność nieustrukturyzowanych danych stwarza pewne problemy przy przechowywaniu, eksploracji i analizie danych.

(iii) Prędkość - termin „prędkość” odnosi się do szybkości generowania danych. Szybkość generowania i przetwarzania danych w celu spełnienia wymagań określa rzeczywisty potencjał danych.

Big Data Velocity dotyczy szybkości, z jaką dane napływają ze źródeł takich jak procesy biznesowe, dzienniki aplikacji, sieci i serwisy społecznościowe, czujniki, urządzenia mobilne itp. Przepływ danych jest ogromny i ciągły.

(iv) Zmienność - odnosi się do niespójności, którą czasami mogą wykazywać dane, utrudniając w ten sposób proces skutecznego przetwarzania danych i zarządzania nimi.

Korzyści z przetwarzania Big Data

Możliwość przetwarzania Big Data niesie ze sobą wiele korzyści, takich jak:

    • Firmy mogą korzystać z zewnętrznej inteligencji podczas podejmowania decyzji

Dostęp do danych społecznościowych z wyszukiwarek i witryn, takich jak Facebook, Twitter, umożliwia organizacjom precyzyjne dostosowywanie strategii biznesowych.

    • Lepsza obsługa klienta

Tradycyjne systemy opinii klientów są zastępowane nowymi systemami zaprojektowanymi w oparciu o technologie Big Data. W tych nowych systemach do odczytywania i oceny odpowiedzi konsumentów wykorzystuje się duże zbiory danych i technologie przetwarzania języka naturalnego.

    • Wczesna identyfikacja ryzyka dla produktu / usług, jeśli istnieje
    • Lepsza efektywność operacyjna

Technologie Big Data można wykorzystać do stworzenia obszaru przemieszczania lub strefy docelowej dla nowych danych przed określeniem, które dane powinny zostać przeniesione do hurtowni danych. Ponadto taka integracja technologii Big Data i hurtowni danych pomaga organizacji rozładować rzadko używane dane.

Podsumowanie

  • Definicja Big Data: Big Data to dane o ogromnych rozmiarach. Bigdata to termin używany do opisania zbioru danych, które są ogromne, ale rosną wykładniczo z upływem czasu.
  • Przykłady analizy Big Data obejmują giełdy, serwisy społecznościowe, silniki odrzutowe itp.
  • Big Data może być 1) ustrukturyzowany, 2) nieustrukturyzowany, 3) częściowo ustrukturyzowany
  • Objętość, różnorodność, prędkość i zmienność to tylko niektóre cechy Big Data
  • Lepsza obsługa klienta, lepsza wydajność operacyjna, lepsze podejmowanie decyzji to tylko niektóre zalety Bigdata