Jesteś tutaj: Blog Jak wykonać bazę danych do analizy statystycznej?

Jak wykonać bazę danych do analizy statystycznej?

Często otrzymuję bazy danych do analizy statystycznej wykonane w niewłaściwy sposób. Niewłaściwy czyli jaki?  Studencka pomysłowość i kreatywność nie ma granic. :)

Niekiedy bazy wymagają tylko niewielkich zmian. Wtedy nawet o tym nie informuję i po prostu koryguję bazę tak, aby później poddać ją analizie statystycznej. Zdarzają się jednak sytuacje, gdy:

  1. Baza danych wymaga tak dużych zmian, że zwiększają one koszt analizy statystycznej lub wymagają od Was wprowadzenia samodzielnych korekt. Wtedy wyjaśniam co i jak należy zmienić. To od Was zależy, czy chcecie zrobić to sami, czy zamówić korekty w bazie.
  2. Baza danych wymaga zmian bez których wprowadzenia jej analiza statystyczna nie jest możliwa i których nie mogę wykonać, ponieważ wymagają wglądu do oryginalnych narzędzi, np. wypełnionych kwestionariuszy ankiet. Wtedy wyjaśniam co i jak należy zmienić.
  3. Baza danych jest wykonana w taki sposób, że jej analiza statystyczna nie jest możliwa. Wtedy wyjaśniam jak należy bazę wykonać lub ... szukamy innego rozwiązania. :) 

 

Dostaję również bazy w dwóch formach, o których warto wspomnieć osobno.

A. Gdy badania ankietowe realizujecie za pomocą tzw. formularzy (kwestionariuszy) Google.

Baza wygląda tak:

To bardzo wygodny i szybki sposób badania. Dostajecie wówczas wyniki już na wykresach oraz bazy danych w kilku formatach. Teoretycznie – wszystko super! Niestety (a właściwie niestety x 2) tak nie jest.

  1. Wykresów nie możemy edytować, więc jeżeli Badacz (lub Jego Promotor) ma choć odrobinę wyczucia i graficznego gustu, to od razu zorientuje się, że umieszczenie ich w pracy, czy innej publikacji naukowej poprzez kopiuj / wklej nie jest dobrym pomysłem. Często jedynym ratunkiem jest wykonanie wykresów od nowa – najprościej (w Excelu), albo w sposób bardziej zaawansowany np. w SPSS, PSPP, Statistica.
  2. Baza danych generowana przez formularze Google wymaga dużych zmian zanim będzie można umieścić ją w programie statystycznym. Więc jeżeli chcemy, aby analiza statystyczna zawierała jakiekolwiek zaawansowane obliczenia (testy, współczynniki, korelacje), to proste wykresy i zestawienia generowane przez Google nie wystarczą. Plik z bazą danych w formie csv w praktyce nie nadaje się do zaimportowania do SPSS. Lepszym rozwiązaniem jest praca na bazie xlsx w formie odpowiedzi tekstowych. Wtedy należy wykonać kilka prostych, ale niestety czasochłonnych czynności. W największym skrócie – w bazie zamiast odpowiedzi tekstowych powinny znajdować się kody liczbowe: odpowiedź pierwsza to kod 1, druga kod 2 itd. Natomiast w przypadku pytań wielokrotnego wyboru każda odpowiedź powinna być kodowana w osobnej kolumnie na zasadzie:  1 – jeżeli ją zaznaczono, 0 – jeżeli jej nie zaznaczono. Podsumowując – baza w formie tekstowej, generowanej przez Google nie jest błędna – wymaga jednak czasochłonnej pracy przed przystąpieniem do właściwej analizy statystycznej danych. 

B. O ile sytuacja opisana w punkcie A jest tylko utrudnieniem, o tyle to, o czym piszę niżej uniemożliwia zrobienie z Waszymi danymi czegokolwiek, co można nazwać analizą statystyczną. Zdarza się bowiem, że otrzymuję wyniki badania już podliczone, np. tak jak poniżej.

Ktoś wykonał ogromną pracę, ręcznie zliczył odpowiedzi (ewentualnie je wymyślił :) ) i przesłał wyniki swojego badania, pisząc ile osób w danym pytaniu udzieliło danej odpowiedzi. Niekiedy nawet z podziałem na płeć, czy wiek. Niestety – taka żmudna praca idzie wtedy na marne. Na podstawie tego zestawienia mogę wykonać jedynie podstawowe opracowanie danych – tzn. wykresy lub tabele, które pokażą ile osób (lub ile % osób) udzieliło danej odpowiedzi, w danym pytaniu. Jakakolwiek analiza statystyczna, jakiekolwiek obliczenia statystyczne, jakiekolwiek korelacje, porównania itp. nie są wówczas możliwe do wykonania. Oczywiście – niekiedy Promotor w ogóle ich nie wymaga, niekiedy w prostych pracach badawczych faktycznie nie są one potrzebne i wtedy możemy poprzestać na takich podstawowych zestawieniach. Jednak wykonanie bazy danych w poprawny sposób zajęłoby znacznie mniej czasu, niż zliczenie odpowiedzi, a z mojego punktu widzenia wykonanie wykresów, czy tabel będzie tak samo czasochłonne w obu przypadkach. Więc Ty napracujesz się bardziej, a jednocześnie Twoja analiza statystyczna wbrew pozorom nie będzie tańsza. Osobną kwestią jest natomiast sytuacja, gdy badanie nie było realizowane, a ilości odpowiedzi są wymyślone. Podliczone wyniki zamiast bazy danych od razu budzą takie podejrzenia. Wtedy proszę…. Nie wstydź się o tym napisać. Nie jestem Promotorem – mnie nie interesuje, czy wyniki są prawdziwe (zresztą Promotora często również, jeżeli wyglądają wiarygodnie) Wyjaśnię co i jak możemy z tym dalej zrobić.

A więc - Jak poprawnie wykonać bazę danych do analizy statystycznej?

Przede wszystkim nie musisz od razu wprowadzać danych do SPSS, czy Statistica. Wystarczy zwykły Excel, choć niewątpliwie dane umieszczone w SPSS, odpowiednio zaetykietowane itd. ułatwią pracę nad Twoją analizą statystyczną. W dalszym tekście opieram się na Excelu oraz zakładam, że kodujemy dane z badania ankietowego, co ma miejsce najczęściej. Jeżeli chcesz wprowadzać swoje dane do programu statystycznego (SPSS lub Statistica), to prawdopodobnie  masz już o tym co najmniej podstawowe pojęcie, a wtedy ten artykuł i tak na niewiele Ci się przyda.

Należy bezwzględnie przestrzegać kilku zasad:

  • Każdy wiersz w bazie danych to oddzielny respondent (oddzielna obserwacja), a każda kolumna to oddzielna zmienna (np. oddzielne pytanie w ankiecie).
  • Do jednej komórki możemy wpisać tylko jeden kod (jedną liczbę). Dlatego niektóre pytania, np. wielokrotnego wyboru, złożone w formie tabel itp. wymagają więcej niż jednej kolumny.
  • Nigdy nie wpisujemy do bazy danych liter (oczywiście z wyjątkiem nazw kolumn - etykiet).
  • Zazwyczaj nie ma potrzeby kodowania tego, co respondenci wpisują w odpowiedziach „inne”, ponieważ robią to rzadko, a ich odpowiedzi są na tyle zróżnicowane, że nie nadają się do ilościowej analizy statystycznej. Jeżeli w Twoim badaniu jest inaczej, to napisz do mnie o tym – wyjaśnię jak takie odpowiedzi zakodować. Jest to specyficzna sytuacja, a możliwości różne, więc popisanie tego w tej instrukcji za bardzo by ją skomplikowało.
  • Braki danych oznaczamy zawsze tym samym sposobem, np. jako 999, czy 99. Ważne, aby zawsze był to taki sam kod i jednocześnie taki, co do którego mamy pewność, że nie wystąpi w odpowiedziach naszych respondentów. Ważne jest również, aby nie pozostawić pustych komórek w przypadku braków danych. Wówczas nie wiadomo, czy to faktycznie brak danych, czy niedopatrzenie osoby kodującej, czy może przyczyna jest jeszcze inna.

 

Zatem do dzieła! Wyobraźmy sobie ankietę z takimi przykładowymi pytaniami jak poniżej. Podkreślenia i X oznaczają odpowiedzi zaznaczone przez respondenta. Mamy więc do czynienia z sytuacją, gdy analiza statystyczna, jest de facto analizą ankiet. Jak będziemy kodować odpowiedzi?

Przykład ankiety

Pytanie numer 1 kodujemy w kolumnie P1, drugie w P2 itd. Jeżeli w pytaniu numer 1 zaznaczono odpowiedź pierwszą – tak, to wpisujemy 1, jeżeli odpowiedź drugą – nie, to wpisujemy 2, jeżeli odpowiedź trzecią – nie mam zdania, to wpisujemy 3 itd. Analogicznie wszystkie pozostałe pytania tego typu, czyli: 2,3,5,6.

Pytanie numer 4 (otwarte) kodujemy w kolumnach od P4.1 do P4.3. Należy samodzielnie nadać kody liczbowe różnym odpowiedziom i nimi kodować, np. ból – kod 1, pieczenie – kod 2, rumień – kod 3, itd. W bazie umieszczamy tyle kolumn ile najwięcej odpowiedzi wymieniali respondenci (tak aby móc wszystkie zakodować) np. w przykładowej bazie są to 4 kolumny. Natomiast gdyby respondenci wpisywali więcej odpowiedzi, to należy po prostu użyć większej liczby kolumn. W przykładowej ankiecie były to 2 odpowiedzi: ból i pieczenie stąd kody 1 (ból) i 2 (pieczenie) oraz dwa braki danych (999)

Pytanie numer 7 kodujemy w kolumnach od P7.1 do P7.10. Odpowiedź pierwszą -  łagodny lub umiarkowany odczyn w P7.1, odpowiedź drugą - ostra choroba o umiarkowanym lub ciężkim przebiegu w P7.2 itd. Jeżeli dana odpowiedź została zaznaczona, to kodujemy to jako 1. Jeżeli nie została, to jako 0.

Pytanie numer 8 kodujemy w kolumnach od P8.1 do P8.4. Wiersz pierwszy - uważam, że stan mojego zdrowia jest lepszy niż innych osób, które znam – w P8.1, wiersz drugi - jestem zdrowszy od innych osób, które znam w P8.2 itd. Jeżeli zaznaczono odpowiedź pierwszą: prawdziwe – wpisujemy 1, jeżeli zaznaczono odpowiedź drugą: raczej prawdziwe – wpisujemy 2 itd.

 

Wprowadzona do Excela jedna ankieta (ta która była podana jako przykład) powinna wyglądać jak niżej.

 

 

Co zrobić gdy Twoje badanie nie było typową analizą ankiet? Generalnie zasady kodowania zawsze są takie same. Bazę do analizy statystycznej należy po prostu dostosować do danych, które chcemy tej analizie poddać.

Jeżeli było to badanie oparte o kwestionariusze standaryzowane, które posiadają klucze obliczeniowe (tak jest najczęściej np. w badaniach psychologicznych), to wówczas masz dwie możliwości:

  1. Zakodować odpowiedzi badanych osób na takiej samej zasadzie jak pytanie numer 8 w przykładowej ankiecie lub wpisując wartości liczbowe zgodnie z cyframi jakie zaznaczali w kwestionariuszu respondenci (w zależności od tego jak skonstruowane było narzędzie). Wówczas pamiętaj o przesłaniu kluczy do swoich narzędzi.
  2. Obliczyć samodzielnie wyniki zgodnie z kluczami, a do bazy wprowadzić jedynie obliczone już wyniki (czyli po prostu liczby) dla poszczególnych zmiennych. Wtedy pamiętaj, aby te zmienne nazwać pełnymi słowami, a nie P1, P2, P3. 

Jeżeli było to badanie z zakresu medycyny oparte o wyniki wyrażone liczbami (typowe zmienne ilościowe), to do bazy wpisujemy właśnie te liczby, stosując się do zasady zgodnie z którą każdy wiersz w bazie danych to oddzielna obserwacja, np. pacjent, a każda kolumna to oddzielna zmienna (np. wynik badania). Należy wówczas pamiętać, aby zmienne precyzyjnie nazwać – precyzyjnie tzn. tak aby jasne było czego dotyczy dany wynik a nie P1, P2, P3, np. wiek (wpisujemy liczbę lat), temperatura ciała (wpisujemy wartość w stopniach Celsjusza), wzrost (wpisujemy liczbę cm), wynik badania CRP (wpisujemy uzyskany wynik w liczbach) itd. W takich sytuacjach ważne jest aby zawsze używać tych samych jednostek, np. nie podawać wzrostu u niektórych osób w centymetrach (170), a u innych w metrach (1,7). Zgodnie z zasadą, że do bazy nie wpisujemy żadnych liter nie umieszczamy w niej jednostek. Informacja o jednostkach może się znaleźć np. w nagłówku wraz z nazwą zmiennej (kolumny).

Jeżeli Twoje badanie statystyczne było nietypowe np. nietypowe pytania w ankiecie, czy też ogólnie nietypowy charakter danych i nadal nie wiesz jak przygotować bazę do swojej analizy danych, to skontaktuj się ze mną. Wyjaśnię jak najłatwiej i najszybciej będzie można to wykonać.

 

Oczywiście jeżeli nie masz czasu, czy ochoty na kodowanie danych, to nie musisz tego robić. Możesz przesłać zarówno narzędzia w formie papierowej, jak i w formie skanów mailem lub w innej dowolnej formie i zamówić wykonanie bazy danych na potrzeby swojej analizy statystycznej.