Co to jest uzgadnianie danych?
Uzgadnianie danych (DR) definiuje się jako proces weryfikacji danych podczas migracji danych. W tym procesie dane docelowe są porównywane z danymi źródłowymi, aby upewnić się, że architektura migracji przesyła dane. Walidacja i uzgadnianie danych (DVR) to technologia wykorzystująca modele matematyczne do przetwarzania informacji.
W tym samouczku dowiesz się,
- Co to jest uzgadnianie danych?
- Dlaczego uzgadnianie danych jest ważne?
- Terminologia związana z uzgadnianiem danych
- Historia uzgadniania danych
- Proces uzgadniania danych
- Najlepsze praktyki korzystania z uzgadniania danych
- Narzędzia uzgadniania danych
Dlaczego uzgadnianie danych jest ważne?
W procesie migracji danych możliwe jest popełnienie błędów w logice mapowania i transformacji. Problemy, takie jak awarie w czasie wykonywania, takie jak przerwy w sieci lub zepsute transakcje, mogą uszkodzić dane.
Tego rodzaju błędy mogą prowadzić do pozostawienia danych w nieprawidłowym stanie. Mogą one powodować szereg problemów, takich jak:
- Brakujące rekordy
- Brakujące wartości
- Nieprawidłowe wartości
- Zduplikowane rekordy
- Źle sformatowane wartości
- Zerwane relacje między tabelami lub systemami
Oto ważne powody, dla których warto korzystać z procesu uzgadniania danych:
- Korzystanie z uzgadniania danych pomaga w uzyskaniu dokładnych i wiarygodnych informacji o stanie procesów przemysłowych z surowych danych pomiarowych.
- Pomaga również w tworzeniu jednego spójnego zestawu danych reprezentujących najbardziej prawdopodobną operację procesu.
- Prowadzi to również do niedokładnych informacji i problemów z obsługą klienta.
- Uzgadnianie danych jest również ważne dla integracji kontroli przedsiębiorstwa.
Oprócz powyższego istnieje wiele zalet / korzyści z uzgadniania danych.
Terminologia związana z uzgadnianiem danych
Poważny błąd | Poważne błędy w pomiarach. Odzwierciedla tylko błędy odchylenia, awarie instrumentu lub nietypowe skoki szumów, jeśli używasz tylko krótkiego okresu uśredniania. |
Obserwowalność | Analiza obserwowalności może dostarczyć szczegółowych informacji o tym, jakie zmienne można określić dla danego zestawu ograniczeń i zestawu pomiarów. |
Zmienność | Wariancja jest miarą zmienności czujnika. |
Nadmierność | Pomaga w określeniu, które pomiary należy oszacować na podstawie innych zmiennych za pomocą równań więzów. |
Historia uzgadniania danych
Oto najważniejsze punkty orientacyjne w historii uzgadniania danych.
- DVR (Data validation and Reconciliation) rozpoczął się na początku lat 60. Miało to na celu zamknięcie bilansów materiałowych w produkcji, gdzie dostępne były pomiary surowe dla wszystkich zmiennych.
- Pod koniec lat sześćdziesiątych XX wieku w procesie uzgadniania danych uwzględniono wszystkie niezmierzone zmienne.
- Quasi-stacjonarna dynamika stanu do filtrowania i równoległej estymacji parametrów w czasie została wprowadzona w 1977 r. Przez Stanleya i Maha.
- Dynamiczny DVR został opracowany jako nieliniowy model optymalizacji, który został wydany przez Liebman w 1992 roku
Proces uzgadniania danych
Rodzaje metod uzgadniania danych to:
Uzgodnienie danych podstawowych
Uzgadnianie danych podstawowych to technika uzgadniania tylko danych podstawowych między źródłem a celem. Dane podstawowe mają przeważnie charakter niezmienny lub wolno zmieniający się, a na zestawie danych nie jest wykonywana żadna operacja agregacji.
Kilka typowych przykładów uzgadniania danych podstawowych to:
- Całkowita liczba wierszy
- Całkowity klient w źródle i celu
- Łączna liczba elementów w źródle i celu
- Całkowita liczba wierszy na podstawie podanego warunku
- Liczba aktywnych użytkowników
- Liczba nieaktywnych użytkowników itp.
Dokładność działania
- Musisz upewnić się, że transakcje są prawidłowe i mają prawidłowy cel.
- Trzeba sprawdzić, czy transakcje zostały prawidłowo autoryzowane.
Uzgadnianie danych transakcyjnych
Dane transakcyjne stanowią podstawę raportów BI. Dlatego wszelkie niedopasowanie danych transakcyjnych może bezpośrednio wpłynąć na wiarygodność raportu i ogólnie całego systemu BI.
Metoda uzgadniania danych transakcyjnych jest stosowana w odniesieniu do sumy całkowitej, co zapobiega niedopasowaniu spowodowanemu zmianą ziarnistości wymiarów kwalifikujących.
Przykładami miar używanych do uzgadniania danych transakcyjnych powinny być:
- Suma całkowitego dochodu obliczonego na podstawie źródła i celu
- Suma całego sprzedanego przedmiotu obliczona na podstawie źródła i celu itp.
Automatyczne uzgadnianie danych:
W dużym systemie zarządzania hurtownią danych wygodnie jest zautomatyzować proces uzgadniania danych, czyniąc go integralną częścią ładowania danych. Pozwala na utrzymywanie oddzielnych tabel metadanych ładowania. Ponadto automatyczne uzgadnianie będzie na bieżąco informować wszystkich interesariuszy o aktualności raportów.
Najlepsze praktyki korzystania z uzgadniania danych
- Proces uzgadniania danych powinien mieć na celu poprawienie błędów pomiarowych.
- Znaczne błędy powinny wynosić zero, aby proces uzgadniania danych był wydajny.
- Standardowe podejście do uzgadniania danych opierało się na prostym zliczaniu rekordów w celu śledzenia, czy docelowa liczba rekordów została zmigrowana, czy nie.
- Rozwiązanie do migracji danych zapewnia podobne możliwości uzgadniania i funkcję prototypowania danych, która umożliwia testowanie pełnego uzgadniania danych.
Narzędzia uzgadniania danych
1) OpenRefine
OpenRefine, który był wcześniej znany jako Google Refine, jest użyteczną strukturą uzgadniania bazy danych. Umożliwia czyszczenie i przesyłanie niechlujnych danych.
Link do pobrania: https://openrefine.org/
2) Klarowność TIBCO
To narzędzie do uzgadniania danych oferuje usługi oprogramowania na żądanie z Internetu w formie oprogramowania jako usługi. Pozwala użytkownikom na walidację danych i czyszczenie danych. Zapewnia pełne funkcje testowania uzgadniania. Szeroko stosowany w procesie ETL.
Link do pobrania: https://clarity.cloud.tibco.com/landing/index.html
3) Winpure
Winpure to niedrogie i dokładne oprogramowanie do czyszczenia danych. Umożliwia wyczyszczenie dużej ilości danych, usunięcie duplikatów, poprawienie i standaryzację w celu zaprojektowania ostatecznego zestawu danych.
Link do pobrania: https://winpure.com/
Podsumowanie
- Walidacja i uzgadnianie danych (DVR) to technologia wykorzystująca modele matematyczne do przetwarzania informacji.
- Użycie uzgadniania danych pomaga w uzyskaniu dokładnych i wiarygodnych informacji o stanie procesów przemysłowych z surowych danych pomiarowych.
- Błąd ogólny, obserwowalność, wariancja, nadmiarowość to ważne terminy używane w procesie uzgadniania danych
- Walidacja danych i uzgadnianie rozpoczęto na początku lat 60.
- Trzy rodzaje metod uzgadniania danych to 1) Uzgodnienie danych podstawowych 2) Uzgodnienie danych transakcyjnych 3) Automatyczne uzgodnienie danych
- Znaczne błędy powinny wynosić zero, aby proces uzgadniania danych był wydajny.
- Niektóre ważne narzędzia do uzgadniania danych to: 1) OpenRefine 2) TIBCO 3) Winpure
- Ta metoda jest szeroko stosowana w monitorowaniu wydajności i procesów w przemyśle rafineryjnym / jądrowym / chemicznym