Abstract
W ostatnich dziesięcioleciach, w wyniku znacznego postępu technicznego, nastąpił dynamiczny rozwój umiejętności wykorzystania komputerów i profe- sjonalnego oprogramowania w procesie dydaktycznym, badaniach naukowych, a w szczególności w prezentacji wyników takich badań. Początkowo była to możliwość gromadzenia znacznych zbiorów danych, przygotowywania raportów z badań oraz różnorodnych pomocy dydaktycznych. Z czasem rosnące możliwo- ści obliczeniowe komputerów doprowadziły do rozwoju metod graficznej anali- zy danych. Możliwości uzyskania dobrej jakości kolorowych wydruków pozwo- liły na upowszechnienie takiej formy prezentacji wyników badań. Interaktywne prezentacje są bardzo pomocne w przedstawianiu różnych złożonych zagadnień statystycznych, a rozwój technologii mobilnych umożliwia dotarcie z wiedzą statystyczną do szerokiego grona odbiorców. Przeprowadzenie wstępnych analiz graficznych pozwala na wskazanie ścieżek dalszych badań naukowych. Metody statystyczne są często trudne do zrozumienia i przez to niekiedy źle postrzegane przez szersze grono odbiorców. W wielu środowiskach, niestety także naukowych, statystykę traktuje się jako naukę dostępną tylko dla wtajem- niczonych. Wiadomości o wynikach badań przekazywane przez różne instytucje często nie są właściwie odbierane, a czasem nawet zupełnie przeciwnie, niż wskazują uzyskane wyniki. Informacje przekazywane w formie zestawień licz- bowych okazują się trudne w odbiorze. Współczesne społeczeństwo w dużym stopniu korzysta z wytworów kultury obrazkowej. Wszędzie można spotkać różne oznaczenia, symbole, ikony, piktogramy oraz obrazy. Umiejętne wykorzy- stanie obecnych możliwości technicznych w zakresie graficznej prezentacji wy- ników badań statystycznych może zatem ułatwić dużym grupom odbiorców pierwsze zetknięcie się z metodami statystycznymi i zachęcić ich do pogłębiania wiedzy, co w konsekwencji powinno doprowadzić do właściwego odbioru wy- ników badań i podawanych komunikatów. Zastosowanie metod graficznej analizy danych pozwala m.in. na oczysz- czenie danych, określenie ich struktury, wykrycie wartości odstających oraz ekstremalnych, identyfikację trendów i skupisk obserwacji, dostrzeżenie lokal- nych wzorców, ocenę wyników modelowania i prezentację rezultatów badania. Wszystko to jest niezbędne w przypadku eksploracyjnej analizy danych i eksplo- racji danych (Unwin 2015, s. XI). Wizualizacja danych to stosunkowo nowy termin. Wyraża on ideę, że cho- dzi o coś więcej niż tylko przedstawienie danych zawartych w tablicy w formie graficznej. Można powiedzieć, że jest to swoiste opowiadanie historii zawartej w danych (Knaflic 2015). Grafiki okazują się właściwe do pokazania struktury danych i przedstawienia wyników badań. Są one zwykle zdecydowanie łatwiej- sze w interpretacji niż tabele, które pozostają niezbędne do podawania dokład- nych wartości analizowanych charakterystyk, a także raportów statystycznych, pomocnych przy podawaniu szacunków i porównań, a także umożliwiających przekazanie większej porcji informacji o charakterze jakościowym. Informacje kryjące się za danymi powinny być również ujawnione w dobrej prezentacji; grafika powinna pomóc czytelnikom lub widzom w dostrzeżeniu struktury w da- nych (Chen, Härdle i Unwin 2008). Określenie „wizualizacja danych” łączy się z potrzebą graficznego przed- stawienia informacji dostępnych w różnych zbiorach danych. Obejmuje ono graficzną prezentację wszystkich rodzajów informacji, nie tylko danych, i jest ściśle związane z badaniami prowadzonymi przez statystyków i informatyków. Dotychczasowe prace w tej dziedzinie koncentrowały się raczej na prezentacji informacji niż na tym, co można z niej wywnioskować. Jednak metody graficz- nej prezentacji zmierzają do umożliwienia przeprowadzenia wnioskowania na podstawie dostępnych danych. Bliższe powiązanie grafiki z modelowaniem sta- tystycznym może sprawić, że stanie się to bardziej widoczne – jest to obiecujący kierunek badań, który ułatwiają stale zwiększające się możliwości dostępnego oprogramowania komputerowego. Duża w tym rola naukowców, a w szczegól- ności statystyków. Celem prezentowanej monografii jest przedstawienie zasad konstrukcji pre- zentacji graficznych, metod wizualizacji danych oraz kluczowych narzędzi wyko- rzystywanych w takich prezentacjach. Realizacja tego celu wymaga wprowadze- nia pewnej systematyki dla metod graficznych, a w szczególności powiązania doboru odpowiedniego wykresu z rodzajem i strukturą danych, a konkretniej ze skalą pomiarową analizowanych zmiennych. Wszystko to może być pomocne dla naukowców prowadzących badania naukowe w różnych dyscyplinach, po- nieważ prezentowane metody i narzędzia związane z wizualizacją danych są uniwersalne. Ważnym założeniem poczynionych rozważań stało się dążenie do wypracowania u Czytelnika umiejętności stawiania pytań badawczych na pod- stawie przeprowadzonej wstępnej, graficznej analizy danych. Antony Unwin (2015) podkreśla, że najłatwiej tego dokonać poprzez przedstawienie odpowiednich przykładów. Takie przykłady, wykorzystujące dostępne w programie R zbiory danych, zostały zamieszczone w ostatnich rozdziałach książki. Metody wizualiza- cji danych odgrywają coraz większą rolę także w dydaktyce (Zelazny 2005; Żądło i Kończak 2009) i popularyzacji wiedzy z różnych dyscyplin (Kończak 2014). W książce wyróżniono sześć rozdziałów. W rozdziale pierwszym przyto- czono wybrane fakty historyczne dotyczące graficznego przedstawienia różnych zjawisk. Zamieszczone przykłady grafik i wykresów mają zupełnie inny charak- ter niż obecnie konstruowane prezentacje, chociażby z tego powodu, że powsta- ły na długo przed erą nowoczesnych technologii. W drugim rozdziale zaprezen- towano podstawowe zasady związane z konstrukcją wykresów. W szczególności wskazano na powiązanie skali, na jakiej dokonano pomiaru, z możliwymi spo- sobami wizualizacji danych. W rozdziale trzecim ujęto zwięzłą charakterystykę wybranych metod graficznych. Przedstawiono w nim podstawowe informacje o różnych rodzajach wykresów i zasadach doboru wykresu do określonego typu danych oraz ich struktury. W kolejnym rozdziale opisano podstawowe zagad- nienia dotyczące pracy z programem R. To środowisko programistyczne jest uznanym standardem w badaniach naukowych, a dodatkowo posiada znaczne możliwości w zakresie metod graficznej prezentacji danych. W rozdziałach pią- tym i szóstym zaprezentowano możliwości pakietu graficznego ggplot2 oraz jego licznych rozszerzeń. Pakiet ggplot2 jest powszechnie używany do gra- ficznej prezentacji rezultatów badań i poniekąd w ostatnich latach stał się stan- dardem w prezentacji wyników badań naukowych. Dla zwiększenia przejrzystości tekstu w pracy zastosowano następujące oznaczenia (ze względów technicznych nie dotyczy to elementów graficznych): – ggplot2 – nazwy pakietów oznaczono pogrubioną czcionką Consolas, – mtcars – nazwy zbiorów danych oznaczono pogrubioną czcionką tekstu głównego, – mpg – zmienne oznaczono kursywą czcionką tekstu głównego, – plot – funkcje oznaczono kursywą czcionką Consolas. Kody w języku R zostały wyróżnione na szarym tle i zapisywane w pracy są w następujący sposób. # To jest forma zapisu kodów w języku R ggplot(mtcars,aes(wt,mpg))+ geom_point() Wyniki wykonania prezentowanych kodów poleceń przedstawiono w pracy następująco. ## WYNIKI OBLICZEŃ ## SUMMARY Variable Pop.1 Pop.2 n.1 n.2 Statistic Observed ## STATISTICS x A B 8 5 diff.mean 0.45025 ## HYPOTHESIS Null Alternative P.value ## TEST identical shifted 0.0238 W książce zamieszczono wiele kodów w języku R pozwalających na ob- róbkę danych oraz na konstrukcję różnorodnych wykresów. Kody te, niekiedy w nieznacznie zmodyfikowanej postaci, a także z wieloma pomocnymi dodatka- mi, dostępne są pod adresem: http://stat.ue.katowice.pl/wwbn (Kończak 2024).
Publisher
Wydawnictwo Uniwersytetu Ekonomicznego w Katowicach
Reference105 articles.
1. Aigner W., Miksch S., Schumann H., Tominski C. (2011). Visualization of Time--Oriented Data. Springer. London. DOI: 10.1007/978-0-85729-079-3.
2. R by Example;Albert J.;Springer Science+Business Media,2012
3. Building SPSS Graphs to Understand Data;Aldrich J.O.;SAGE Publications,2013
4. Biecek P. (2014). Odkrywać! Ujawniać! Objaśniać! Zbiór esejów o sztuce prezentowania danych. Fundacja Naukowa SmarterPoland.pl. Warszawa.
5. Biecek P., Baranowska E., Sobczyk P. (2019). Wykresy unplugged. Fundacja Naukowa SmarterPoland.pl. Warszawa.