CZYM JEST BIG DATA?
Jak wspomnieliśmy wcześniej, prognozowanie wymaga dostępu do informacji różnego typu. Oprócz danych pozyskanych z czujników monitorujących bieżącą aktywność obiektu inspekcji potrzebne są informacje o nim, w tym m.in. specyfikacja modelu urządzenia oraz jego aktualne ustawienia, dane archiwalne o tym, jak było użytkowane na przestrzeni czasu, w tym też o tym, jakim czynnościom konserwacyjnym oraz naprawom było poddawane. Źródłem danych są również różne systemy informatyczne, z których korzysta się w danym zakładzie (ERP, MES, itp.).
Upowszechnianie się Internetu Rzeczy sprawia, że informacji do przetworzenia będzie przybywać. Dane pozyskiwane tą drogą są jednak specyficzne - ich zbiory oprócz ogromnych rozmiarów, dużej szybkości napływu, która może dodatkowo podlegać okresowym wahaniom oraz dużej oczekiwanej szybkości ich przetwarzania, charakteryzuje również różnorodność źródeł oraz formatów.
Wszystko to utrudnia ich analizę, a trzeba pamiętać, że rzeczywista wartość informacji nie zależy od tego, w jakiej ilości uda się je zebrać, lecz od tego, w jakim stopniu zostaną wykorzystane.
Im więcej jest danych, tym jednak trudniejsze jest rozpoznanie wśród nich tych użytecznych, czyli oddzielenie treści od szumów. Następnie należy jeszcze informacje te ze sobą pokojarzyć, tzn. określić relacje, hierarchię oraz różnorodne inne powiązania, które między nimi występują i na tej podstawie wyciągnąć wnioski na temat prawdopodobieństwa różnych przyszłych zdarzeń.
AI? ML? DL?
W realizacji tych zadań coraz lepiej sprawdza się sztuczna inteligencja (Artificial Intelligence, AI). Chociaż trudno w to uwierzyć, biorąc pod uwagę fakt, że przez wiele lat był to termin wyłącznie z pogranicza literatury i filmów science fiction oraz akademickich rozważań, dziedzina ta zaczyna dostarczać coraz skuteczniejszych technik, które pozwalają rozwiązywać problemy z zakresu analizy danych do tej pory trudne do rozstrzygnięcia, a nawet nierozwiązywalne.
Jedną z tych metod jest uczenie maszynowe (Machine Learning, ML) i jego podgrupa - uczenie głębokie (Deep Learning, DL), które wykorzystuje sieci neuronowe. Według definicji ML jest to zdolność komputerów do uczenia się bez programowania im nowych umiejętności wprost.
Opiera się ono na algorytmach, które analizując dostarczane im dane, wyciągają wnioski i uczą się z nich, by następnie zdobytą w ten sposób wiedzę wykorzystać w podejmowaniu decyzji potrzebnych do rozwiązania konkretnych problemów. Co więcej, z czasem, w miarę, jak przetwarzają coraz więcej danych, samodoskonalą się bez konieczności ich przeprogramowywania.
UCZENIE NADZOROWANE I NIENADZOROWANE
W przypadku zaimplementowania uczenia maszynowego w oprogramowaniu wykorzystywanym w predykcyjnym utrzymaniu ruchu albo predykcyjnej kontroli jakości w praktyce oznacza to, że będzie się ono uczyło "normalnego zachowania" maszyny, aby następnie móc spożytkować tę wiedzę do identyfikacji oznak możliwych odchyleń od normy i ostrzegania o nich.
Do kategorii uczenia maszynowego zaliczanych jest wiele algorytmów. Różne są też sposoby ich klasyfikacji. Przykładowo dzieli się je na uczenie nadzorowane oraz nienadzorowane. Algorytmy zaliczane do pierwszej grupy operują na danych opisanych, między którymi poszukują zależności, żeby osiągnąć jasno określony cel.
W przypadku algorytmów drugiej kategorii natomiast ani dane wejściowe nie są opisane, ani oczekiwany wynik końcowy nie jest sprecyzowany, zaś zadaniem jest pogrupowanie danych wejściowych albo przeanalizowanie ich struktury w celu wychwycenia jakichś zależności.
KLASYFIKACJA A REGRESJA
Przykładem algorytmów, które należy zaliczyć do pierwszego zbioru, są algorytmy klasyfikacyjne. To je m.in. implementuje się w oprogramowaniu wykorzystywanym w predykcyjnym utrzymaniu ruchu i predykcyjnej kontroli jakości. Przykładami ich zastosowań w życiu codziennym są filtry antyspamowe w poczcie elektronicznej i badania zdolności kredytowej klientów banku, którzy starają się o kredyt.
Na ich podstawie można się dość łatwo domyślić sposobu, w jaki działają algorytmy klasyfikacyjne. Polega on (w bardzo dużym uproszczeniu) na tym, żeby znaleźć na postawione pytanie jednoznaczną odpowiedź poprzez wybór jednej z możliwych opcji (tak / nie albo A / B / C / D).
Do kategorii uczenia nadzorowanego należy również zaliczyć algorytmy regresyjne. O ile w tych klasyfikacyjnych poszukiwana była odpowiedź binarna (0 / 1, tak / nie), o tyle w przypadku regresyjnych prognozowana jest wartość numeryczna. Przykładem ich zastosowania w życiu codziennym jest przewidywanie wielkości sprzedaży albo wartości zysku. Z algorytmów regresyjnych również korzysta się w predykcyjnym utrzymaniu ruchu i predykcyjnej kontroli jakości.