Prezentowanie danych to ważna umiejętnością, którą powinni znać wszyscy managerowie.
W tym artykule został przedstawiony case na temat prezentacji danych w firmie.
Średni wskaźnik FTQ (First Time Quality) dla jednej z operacji wyniósł w listopadzie 6,4%. Oznacza to, że 6,4% części było niezgodnych z określonymi wymogami. Oczywiście słysząc, że ponad jedna część na dwadzieścia jest nieakceptowalna wnioskujemy, że cały proces wymaga natychmiastowej poprawy. Ale czy naprawdę jest źle i czy stajemy w obliczu ryzyka niewyprodukowania dostatecznej liczby części? Aby nadać sens wartości 6,4% potrzebne jest porównanie.
Dla przykładu, we wcześniejszym miesiącu poziom FTQ wyniósł o 1,4% mniej. Uwaga! Sprawy mają się gorzej. Jednakże w porównaniu do listopada roku poprzedniego, w którym FTQ wyniosło 8,0%, jest lepiej! Kłamstwo, wielkie kłamstwo i statystyka?
Ważne jest, aby rozważyć wynik z listopada w szerszym kontekście gdyż samo porównanie dwóch liczb nie jest w stanie wychwycić złożoności i zachowania danych.
Prezentowanie danych w szerszym kontekście
Porównanie dwóch wartości jest proste lecz jednocześnie mało rzetelne. W tym przypadku ograniczenia wiążą się z faktem, że każda z liczb wynika z danych o pewnej zmienności. Skoro obie liczby są obarczone zmiennością niezwykle trudno jest określić, czy widoczna różnica jest efektem tej zmienności, czy rzeczywiście zaszła istotna zmiana w procesie.
Cóż – skoro porównanie dwóch liczb jest niewystarczające może powinniśmy ująć dane w tabeli? To krok w dobrą stronę, lecz nie wystarczy dla wykonania pełnej analizy.
Ujęcie danych w tabeli jest użyteczne – ukazuje wszystkie dane lecz nie ułatwia ich podsumowania i wyciągania wniosków. Trudno „przetrawić” zbiór liczb ujętych w tabeli, gdyż ludzki umysł nie radzi sobie najlepiej w obliczu dużej liczby danych. Tradycyjna komunikacja przy pomocy liczb (porównanie czy tabela) ma więc poważne ograniczenia.
Rozwiązaniem tego problemu jest przejście z prezentowania wartości liczbowych na rzecz bardziej przyjaznej, graficznej prezentacji danych.
Przedstawianie danych w porządku czasowym
Graficzne prezentowanie danych w porządku czasowym opiera się na wykresach, które na osi poziomej ukazują chronologicznie przedziały czasu (np. dni, miesiące, lata). Dzięki ich zastosowaniu zmiany procesu w czasie są proste do zidentyfikowania. Patrząc na bieżący wynik (np. poziom FTQ z listopada) w odniesieniu do poprzedzających go danych można łatwo stwierdzić, czy odbiega on od pozostałych wartości, czy też jest do nich zbliżony.
Na poniższym wykresie ukazano dane FTQ dla ostatnich 24 miesięcy. Graf sugeruje, że w porównaniu do roku poprzedniego zanotowano poprawę.
Histogram
Histogram to inna graficzna metoda prezentacji danych – tutaj poszczególne wyniki zbierane są w pewnych przedziałach, a ich liczba w przedziale sumowana i ukazana na osi pionowej. Przykład zbudowano na podstawie danych, które pokazują liczbę części niezgodnych dla każdego dnia miesiąca.
Histogram „kompresuje” dane pokazane na wykresie czasowym. Tutaj także odróżnienie punktu odbiegającego od pozostałych jest proste – spójrzmy na liczbę części niezgodnych z 18 dnia miesiąca (zakreślona na wykresie) – jest zdecydowanie różna od pozostałych wartości. Spójrzmy na ten wynik w jeszcze szerszym kontekście.
Porównanie danych na przebiegach czasowych
Często możemy dowiedzieć się więcej nakładając na siebie dwa wykresy w porządku czasowym. Dla naszego przykładu liczby części niezgodnych.
Analiza wykresu dla dwóch maszyn sugeruje, że obydwie maszyny dla każdego dnia odrzucają podobną liczbę części. Wyjątek stanowi 18 dzień miesiąca, w którym maszyna A generuje o wiele więcej części nieakceptowalnych. Sugeruje to zaistnienie jakiejś przyczyny specjalnej – tego dnia na tej konkretnej maszynie. Może to być dla przykładu rozkalibrowanie maszyny lub niedoświadczony operator, który ją obsługiwał tego dnia.
Numeryczne podsumowanie danych – średnia
Aby uzupełnić nasze wykresy o numeryczne podsumowanie danych warto dokonać pewnych obliczeń. Podstawowym sposobem jest wyliczenie średniej arytmetycznej. W statystyce średnią arytmetyczną oznaczamy symbolem. Średnia jest często opisywana jako miara lokalizacji rozkładu danych. Maszyna A z przykładu odrzuciła średnio 7.1 części. Maszyna B – 6 części. Często będziemy używać porównania średnich, aby porównać dwa zbiory danych. Takie porównania są bardzo pomocne, ale muszą być przemyślane i stosowane z rozwagą.
Numeryczne podsumowanie danych – rozstęp
Miarą rozkładu dla zbioru danych może być również rozstęp. Rozstęp definiujemy jako różnice pomiędzy największą i najmniejszą wartością w zbiorze. Symbol używany w statystyce to R. Dla przykładu z maszynami – odpowiednio rozstęp dla maszyny A wynosi 30 a dla maszyny B – 7.
Istnieją inne metody opisywania rozkładów – jednak rozstęp jest najprostszą z nich.
Prezentowanie danych – najważniejsze zasady
Wiele lat temu Dr Walter Shewhart ustalił dwie podstawowe zasady prezentowania danych. Leżą one u podstaw „uczciwej” statystyki i powinny być zawsze stosowane.
Zasada 1:
Dane zawsze powinny być ukazywane w sposób kompleksowy, który pozwala wyciągnąć z nich niepodważalne wnioski.
Wynika z tego – po pierwsze, że tabeli z wartościami numerycznymi zawsze powinien towarzyszyć wykres. Po drugie – tabela jest nieodpowiednia dla dużej liczby danych. Po trzecie – przebieg zbierania danych powinien być szczegółowo opisany. Na przykład – Kto zbierał dane? Jak dany były zbierane? Kiedy były zbierane?
Przy prezentowaniu danych należy pamiętać nie tylko o tabelach, ale również o wykresach i numerycznym podsumowaniu w postaci średniej i rozstępu.
Zasada 2:
Średnia, rozstęp czy histogram nie uwzględniają porządku czasowego zbieranych danych – przy wyciąganiu wniosków należy uwzględnić porządek czasowy.
Jeżeli dane ukazane są w porządku czasowym, pokazują jakiś trend lub zmianę to nie zostanie ona zauważona przy samym tylko pokazaniu średniej, rozstępu lub histogramu. A to może być mylące dla użytkownika danych. Często ukazanie porządku czasowego jest niezbędne dla zachowania kontekstu i musi zostać uwzględnione przy prezentacji danych.
Podsumowując – dane są bez znaczenia jeśli są oderwane od kontekstu!
I trzy wnioski płynące z powyższego:
- Nie ufaj nikomu, kto nie chce lub nie potrafi podać informacji na temat danych – jak były zbierane, przez kogo, co reprezentują itd.
- Nie wyciągaj wniosków z porównania dwóch wartości liczbowych, chyba, że jest to poparte szerszą analizą.
- Używaj wykresów do prezentowania danych.