Chmura Vs EDGE
Dane z węzłów sieci Przemysłowego IoT są zwykle wysyłane do chmury. Przetwarzanie informacji w chmurze (cloud computing) ma wiele zalet. Najważniejsze z nich to łatwy dostęp do zasobów obliczeniowych z dowolnego miejsca oraz ich skalowalność, dzięki której dostosowywane są do konkretnych potrzeb. Z drugiej strony wymagane jest szybkie oraz stabilne łącze internetowe o wystarczającej przepustowości – to nie zawsze jest dostępne, a ponadto uwzględnić trzeba związany z nim koszt. W przypadku IoT w wersji konsumenckiej zwykle nie jest to dużym problemem, jeśli transmitowane są małe, ustrukturyzowane pakiety danych, z różnych, oddalonych lokalizacji, dzięki czemu sieć nie jest przeciążana. W Przemysłowym Internecie Rzeczy sytuacja wygląda inaczej, bo dane są zwykle zbierane z wielu węzłów o wspólnej lokalizacji, na przykład w budynku fabryki i w dużych ilościach – przykładem są obrazy rejestrowane przez kamery systemów wizyjnych. Problem stanowią wówczas niewystarczająca przepustowość sieci i nieopłacalność ze względu na koszty transmisji. W takich sytuacjach alternatywą okazuje się przetwarzanie brzegowe (edge computing).
Jest to etap pośredni między gromadzeniem danych przez węzły IIoT a ich obróbką w chmurze, w którym wyniki pomiarów poddawane są wstępnemu przetwarzaniu jak najbliżej urządzenia, które je zarejestrowało i dopiero wtedy wysyłane są do chmury. Takie podejście ma wiele zalet.
Przede wszystkim zebrane dane mogą być agregowane i analizowane przed wysłaniem do chmury pod kątem użyteczności dla rezultatu końcowego – dzięki temu, że te uznane za nieistotne nie zostaną przesłane, zmniejszą się wymagania pod względem przepustowości łącza. Pozwala to także na zaimplementowanie obsługi zdarzeń lokalnie, na przykład jeżeli wielkość mierzona przekroczy wartość progową, wykonywana jest zdefiniowana akcja – aby to zrealizować, urządzenie brzegowe musi mieć zaimplementowany silnik reguł, który powinien działać nawet bez stabilnego połączenia z chmurą. Pozwala to na zmniejszenie opóźnień, a często w praktyce na podejmowanie decyzji w czasie rzeczywistym. Dzięki przetwarzaniu brzegowemu poprawia się też bezpieczeństwo danych, a ponieważ od węzłów IIoT nie jest wymagany ciągły status online, zmniejsza się obciążenie sieci.
Specyfika danych IIoT
IIoT zapewnia dostęp do informacji ze źródeł oraz w ilościach niemożliwych do pozyskania w inny sposób. Surowe dane same w sobie nie stanowią jednak wartości, jeżeli nie zostaną odpowiednio przetworzone oraz przede wszystkim właściwie zinterpretowane. Umożliwiają to wyspecjalizowane platformy analityczne. Te prawidłowo zaimplementowane przynoszą wiele korzyści. Na przykład udostępniając kadrze menedżerskiej zbiorcze raporty ze wszystkich działów (produkcja, kontrola jakości, dział sprzedaży), platformy zarządzania danymi IIoT usprawniają, a nawet automatyzują podejmowanie decyzji, które poprawiają wskaźniki wydajności. Pozwalają oprócz tego uniknąć nieplanowanych przestojów, zapewniając płynność operacji. Mogą również pomóc w odkrywaniu nowych źródeł dochodów – przykładowo analizując problemy sygnalizowane przez dział kontroli jakości, można wprowadzić poprawki w projekcie produktu.
By powyższe cele osiągnąć, opracowując platformę zarządzania danymi IIoT, trzeba uwzględnić ich specyfikę, która wpływa na sposób ich gromadzenia i przetwarzania. Pierwszym wyzwaniem jest ich ilość, na poziomie fabryki nieporównywalna z danymi dostarczanymi przez konsumenckie sieci IoT. Czujniki w maszynach i innym wyposażeniu na liniach technologicznych generują je też szybciej – w tym przypadku często wymagany jest dopływ danych w czasie rzeczywistym. Wyzwaniem jest również różnorodność źródeł danych wynikająca stąd, że w fabrykach pracują maszyny od wielu różnych producentów, które opierają się na różnych systemach sterowania i protokołach transmisji. Jakość dużych zbiorów danych, poza standaryzacją, zależy także od ich dokładności, kompletności oraz kontekstualizacji. Platformy analityczne, które radzą sobie z przetwarzaniem takich danych, tworzy się w oparciu o najnowsze rozwiązania technologiczne. Kluczowe z nich to repozytoria dedykowane do danych zaliczanych do Big Data i algorytmy sztucznej inteligencji.
Czym jest jezioro danych?
W zakresie przechowywania danych IIoT dostępne są różne opcje. Popularne repozytoria to: bazy danych, jeziora danych (data lakes), hurtownie danych (data warehouses) i składnice danych (data marts). Pierwsze nie wymagają większych wyjaśnień, w przeciwieństwie do pozostałych, bardziej specjalistycznych struktur. Najlepiej jest je przedstawić przez ich wzajemne ze sobą porównanie (patrz: tabela 1 i tabela 2).
Jezioro danych to repozytorium, które może przechowywać wszelkiego rodzaju surowe dane, w tym ustrukturyzowane, częściowo ustrukturyzowane, nieustrukturyzowane i binarne pochodzące z różnych źródeł. W hurtowni danych gromadzone są dane ustrukturyzowane, bieżące i historyczne. Składnice danych stanowią z kolei podzbiór hurtowni danych dotyczący określonego tematu. Mogą one być tworzone jako małe repozytoria, niezależne od hurtowni danych, zależne od nich albo jako struktury hybrydowe.
W związku z tym generalnie dane z jeziora danych lepiej nadają się do zaawansowanej analityki i budowania modeli sztucznej inteligencji, podczas gdy dane w hurtowni danych najlepiej sprawdzają się w analizie biznesowej. W porównaniu ze składnicą danych jeziora danych są większe, dzięki czemu utrzymanie i zarządzanie tymi pierwszymi jest łatwiejsze. Również dostęp do danych w przypadku składnic jest szybszy – pomimo że dane w jeziorach są skatalogowane, wyodrębnienie z nich niezbędnych informacji może zająć więcej czasu. Z drugiej strony jeziora zawierają znacznie bardziej zróżnicowane zestawy danych, które zapewniają większą elastyczność w modelowaniu danych, podczas gdy składnice danych umożliwiają generowanie raczej prostych spostrzeżeń.