Zapraszam do nowego cyklu „Analiza danych” oraz pierwszych artykułów na blogu w 2025 roku!
W ramach tego cyklu podzielę się z Wami sprawdzonymi metodami i technikami, które na co dzień wykorzystuję w pracy z danymi. Omówię najskuteczniejsze podejścia, które pozwalają mi analizować informacje szybko i precyzyjnie, a także ułatwiają wyciąganie trafnych wniosków. Mam nadzieję, że znajdziecie tu inspirację i praktyczne wskazówki, które usprawnią Waszą własną pracę analityczną!

W trzecim artykule opiszę proces wykrywania anomalii w danych.
Rozpoczynam pierwszy „czysto analityczny” wątek w tym cyklu, tym razem z nieco innej perspektywy – perspektywy odbiorcy analizy. Do tej pory, bazując na wieloletnim doświadczeniu, koncentrowałem się głównie na procesie tworzenia analiz, co mogło nadawać moim publikacjom dość techniczny charakter.
Niedawno jednak ktoś zadał mi pytanie:
A co, jeśli nie chcę, nie umiem lub nie potrzebuję samodzielnie przeprowadzać analizy? Co jeśli moją rolą jest jedynie jej odbiór i interpretacja?
To zagadnienie okazało się dla mnie sporym wyzwaniem. W większości dostępnych opracowań na temat analizy danych nacisk kładzie się na aspekty techniczne – jak stworzyć wykres, jak obliczyć odchylenie standardowe. Warstwa interpretacyjna często pojawia się dopiero na końcu albo jest wręcz pomijana.
Dlatego uważam, że spojrzenie na analizę danych z tej nieco innej strony – oczami odbiorcy – może być wartościowym i ciekawym uzupełnieniem dostępnych materiałów. Mam nadzieję, że taki zestaw wskazówek okaże się przydatny zarówno dla tych, którzy korzystają z analiz, jak i dla tych, którzy je tworzą.
Na swoją obronę dodam, że warto znać choćby podstawy i umieć wykonać proste obliczenia – to naprawdę może się przydać. Nie oznacza to jednak, że konieczne będzie budowanie modeli regresji czy wykonywanie innych, nie zawsze przystępnych analiz. Czasem wystarczy zdrowy rozsądek i umiejętność interpretacji wyników bez zanurzania się w skomplikowane wzory. 😉
Co to są anomalie?
Anomalie to nietypowe, nieoczekiwane wartości w zbiorze danych, które mogą wskazywać na błędy, oszustwa, nagłe zmiany rynkowe lub problemy w procesach. Jednak nie zawsze są one wyłącznie zagrożeniem – czasem mogą sygnalizować nowe możliwości, np. potencjalne okazje do zwiększenia sprzedaży czy wzrostu zysków. Skuteczna detekcja anomalii pozwala nie tylko zapobiegać stratom, ale także szybko reagować na kluczowe zdarzenia.
W dalszej części tego wpisu przyjrzę się bliżej różnym typom anomalii, zilustruję je przykładami oraz omówię metody ich wykrywania. Przygotowałem dla Was dwa podejścia: jedno oparte na klasycznych technikach statystycznych, a drugie wykorzystujące prostsze, bardziej intuicyjne sposoby analizy.
Rodzaje anomalii
Anomalie w danych to wartości, które znacząco odbiegają od oczekiwanych wzorców. Ich wykrycie jest kluczowe w wielu dziedzinach – od finansów i cyberbezpieczeństwa po diagnostykę medyczną czy monitoring procesów przemysłowych.
Anomalie mogą wynikać z błędów pomiarowych, nieoczekiwanych zdarzeń lub rzeczywistych zmian w analizowanym systemie.
Anomalie punktowe
Są to pojedyncze punkty, które znacząco odbiegają od reszty danych. Mogą wskazywać na błędy pomiarowe, oszustwa (np. w transakcjach finansowych) lub nietypowe zdarzenia.
Przykład: Nagły skok w liczbie transakcji kartą kredytową w krótkim czasie może sugerować oszustwo.

Anomalie kontekstowe
Wartości, które w jednym kontekście są normalne, ale w innym stanowią odstępstwo. Często spotykane w analizie szeregów czasowych.
Przykład: Wzrost liczby wyszukiwań hasła „grypa” zimą jest normalny, ale ten sam wzrost latem może wskazywać na nietypowy wybuch epidemii.

Anomalie zbiorowe (kolektywne)
To grupy wartości, które same w sobie nie muszą być odstępstwami, ale razem tworzą nietypowy wzorzec.
Przykład: Nagły wzrost ruchu sieciowego w krótkim czasie może wskazywać na atak DDoS.

Metody wykrywania anomalii – podejście statystyczne i bez statystyki
Wykrywanie anomalii można przeprowadzać na różne sposoby – w zależności od dostępnej wiedzy, narzędzi oraz rodzaju danych. Poniżej przedstawiam dwa podejścia:
Podejście statystyczne – wymaga znajomości podstaw statystyki i wykorzystuje metody bazujące na rozkładzie danych.
Podejście bez statystyki – opiera się na prostszych metodach heurystycznych, algorytmach ML lub wizualnej analizie danych.
Podejście statystyczne
Jeśli mamy wiedzę o statystyce, możemy wykorzystać matematyczne modele do identyfikacji nietypowych wartości. Najczęściej stosowane techniki to:
Wykrywanie anomalii za pomocą odchylenia standardowego
Założenie: większość danych rozkłada się zgodnie z rozkładem normalnym (krzywa dzwonowa).
Średnia i odchylenie standardowe określają, jakie wartości są "normalne".
Wartości poza 3-krotnością odchylenia standardowego uznajemy za anomalie.

Wykrywanie anomalii za pomocą IQR (Interquartile Range)
Metoda mniej wrażliwa na założenia dotyczące rozkładu danych.
Obliczamy kwartyle Q1 (25%) i Q3 (75%)
Obliczamy IQR = Q3 - Q1
Obliczamy dolne i górne ograniczenie zakresu: Q1 - 1.5*IQR (dolne), Q3 + 1.5*IQR (górne)
Anomalie to wartości poza zakresem.

Podejście bez statystyki
Jeśli nie mamy wiedzy statystycznej, możemy wykrywać anomalie metodami prostszymi, opartymi na wizualizacji i algorytmach ML.
Wizualna analiza danych
Wykresy punktowe, pudełkowe i liniowe pozwalają zauważyć nietypowe wartości.
Narzędzia typu heatmapy mogą wskazywać anomalia w dużych zbiorach danych.




Wykorzystanie algorytmów uczenia maszynowego
Jeśli mamy dostęp do narzędzi ML, możemy użyć:
KNN (K-Nearest Neighbors) – identyfikuje punkty odległe od większości.
Isolation Forest – losowo dzieli dane i szuka rzadkich punktów.
DBSCAN – wykrywa skupiska punktów i wyznacza anomalie jako wartości odosobnione.
Te metody działają nawet bez znajomości statystyki, wystarczy narzędzie ML, np. Scikit-learn.
Kiedy stosować określoną metodę?
Metodę wykrywania anomalii dobieramy w zależności od dostępnej wiedzy i narzędzi. Przykładową macierz decyzji co do metod opisanych w powyższym poście opisałem w tabeli.
Metoda | Kiedy stosować | Zalety | Wady |
Odchylenie standardowe | Dane o normalnym rozkładzie | Proste, szybkie | Nie działa na dane nieregularne |
IQR (kwartyle) | Dane z dużą ilością odstępstw | Odporniejsza na szum | Może nie wykrywać subtelnych anomalii |
Wizualizacja | Gdy mamy mało danych ( i słabo znamy się na statystyce) | Intuicyjne | Subiektywne |
Uczenie maszynowe | Duże i złożone dane | Działa na niestandardowych przypadkach | Wymaga narzędzi ML |
Wybór odpowiedniej metody zależy od kontekstu. W przypadku niewielkich zbiorów danych skuteczna może okazać się analiza wizualna, natomiast dla dużych systemów lepiej sprawdzą się modele uczenia maszynowego.
Istotnym czynnikiem jest także poziom komfortu analityka oraz oczekiwania interesariuszy. Jeśli metody statystyczne wydają się zbyt skomplikowane lub mogą stanowić wyzwanie dla odbiorców analizy, warto rozpocząć od technik wizualnych, które mogą stanowić intuicyjny punkt wyjścia do dalszych, bardziej zaawansowanych badań.
Podsumowanie
Anomalie w danych to wartości odbiegające od normy, które mogą sygnalizować błędy, oszustwa lub nagłe zmiany w analizowanym procesie. Umiejętność ich wykrywania i precyzyjnej interpretacji jest niezwykle cenna w analizie danych.
Jak wspomniano wcześniej, anomalie mogą mieć charakter punktowy lub zbiorowy. Warto jednak pamiętać, że nie każda nietypowa wartość oznacza błąd – w określonych okolicznościach może być poprawna, choć rzadko spotykana.
Do identyfikacji i analizy anomalii można wykorzystać różnorodne metody – od technik statystycznych i algorytmów uczenia maszynowego po intuicyjną analizę wykresów. Każde z tych podejść ma swoje zalety i ograniczenia, dlatego wybór odpowiedniego narzędzia powinien uwzględniać zarówno specyfikę problemu, jak i dostępne kompetencje. To wszystko z czym chciałem się z Wami podzielić w trzecim artykule z cyklu Analiza Danych. W kolejnym poście będziemy kontynuować wątek tu rozpoczęty, skupiając się tym razem na analizie trendów.
Comments