Függelék


Adatfeldolgozás

Az adatfeldolgozás folyamata

 

Kódolás (Coding)

Adatlapok és kérdőívek megszerkesztése során elengedhetetlen, hogy olyan kérdéseket tegyünk fel, melyekre a kitöltő vagy válaszadó szabadon tudja leírni, illetve elmondani véleményét. A sokféle szöveges válaszhoz egyenként számokat rendelünk hozzá, amelyek egyértelműen meghatározzák az egyes válaszkategóriákat, továbbá a kutatás kiértékelése során ezen kódok alapján tudunk egyértelműen hivatkozni rájuk. A kódolás minőségét a kutatás témájában való jártasság erősen befolyásolja, így mi a legelemibb munkafolyamathoz is alapos szakmai felkészülés után fogunk hozzá.

Rögzítés (Data entry)

A nyomtatott formátumban rendelkezésre álló információs tömeget át kell alakítani elektronikus és így feldolgozható, kiértékelhető adatállomány formátummá. Az adatstruktúra általában úgy néz ki, hogy az oszlopokban vannak az egyes kérdésekre adott válaszok, a sorokban pedig az esetek, tehát a vizsgálatba bevont személyek, illetve a válaszadók. Az adatmátrix ideális esetben csak számokat tartalmaz, hiszen a kódolás során az összes szöveges válaszhoz hozzárendeltünk egy egyértelmű azonosító számértéket.
A különböző fázisú klinikai vizsgálatok során a rögzítés ellenőrzését okvetlenül el kell végezni. A rögzítés befejezése után minden információ veszteség nélkül átkerült elektronikus formátumba, ami után megkezdődhet az adatok feldolgozása.

Változók és válaszlehetőségek megcímkézése (Variable label and value label)

Az adatok rögzítése után az egyes kérdésekhez hozzárendelt változókat el kell látni a kérdés eredeti alakjával, így az adatfeldolgozás során mindig tudni fogjuk, hogy egy adott változóhoz melyik kérdés tartozik.
Azon változók esetében, ahol különböző válaszkategóriákat kellett megjelölni, illetve szabadon lehetett válaszolni a feltett kérdésre, ott az egyes válaszokhoz hozzárendelt kódokat kell az eredeti válaszlehetőségekkel megcímkézni.

Egyváltozós eloszlások statisztikái, leíró statisztikák (Descriptive statistics)

Az egyes szempontokra, illetve változókra adott válaszok összességét kell bemutatni az egyváltozós eloszlások mérőszámainak ismertetésével.
Kategoriális változók esetében azt tudjuk megmondani, hogy az egyes válaszkategóriákat hányan választották, továbbá hogy egy kategóriát az összes válaszadó hány százaléka jelölte meg.
Folytonos változóknál az összes válaszból adódó számtani átlagot és szórást tudjuk megmondani.

Statisztikai próbák (Statistical tests)

Kereszttábla-elemzések: khí-négyzet próba (The analysis of contingency tables: chi-square test) Két kategóriális változó közötti kapcsolat vizsgálata khí-négyzet statisztiai próba segítségével. Nullhipotézisünk az, hogy a két változó független egymástó.
Folytonos változók várható értékeinek összehasonlítása: t-próba, ANOVA (The compare of expected values of continuous variables: t-test, ANOVA) Az eljárás többek között arra ad lehetőséget, hogy folytonos mérési szintű változók átlagait hasonlítsuk össze egymással különböző csoportosításban.
Esélyhányadosok kiszámítása (Calculating odds ratio)
Esélyhányadosok alkalmazása az egészségügyi kutatások területén meglehetősen elterjedtek, különösen gyakran találkozunk klinikai vizsgálatok kiértékelése során. Például kimutatható, hogy két különböző terápia alkalmazása során mennyivel nagyobb a túlélés esélye az egyik terápia esetén, mint a másik terápia bevetésekor.

Többváltozós elemzések I. (Multidimensional analysis I.)

Korreláció számítás (Correlate) A korreláció két folytonos változó közötti asszociációt méri. Azt mutatja meg, hogy az egyik ismérv milyen erős kapcsolatot mutat a másik ismérvvel. A korrelációs együttható nem csak az asszociáció mértékét fejezi ki, hanem annak irányát is. Meg tudjuk mondani, hogy két ismérv között milyen irányú kapcsolat áll fenn. A korrelációs együttható -1 és +1 között változik, a változók függetlensége esetén az együttható a nulla környezetében mozog.
Regresszió-analízis (Regression analysis) A regresszió szintén két folytonos változók közötti kapcsolatot vizsgál, de sokkal pontosabb képet fog adni a két változó együttes leírásáról. A meglévő adatokra a legjobban illeszkedő meredekségű és konstans értékű egyenest fogja kiválasztani – ez lesz a becslőfüggvényünk. Ezek után meg tudjuk becsülni, hogy az egyik változó adott értékéhez legnagyobb valószínűséggel milyen érték várható. Természetesen egy adatstruktúrára nem csak lineáris egyenesek illeszthetők, hanem különböző függvények.

Többváltozós elemzések II. (Multidimensional analysis II.)

Klaszteranalízis (Cluster analysis) Főleg folytonos változók esetében alkalmazott eljárás. Az eljárásnak az a lényege, hogy a megadott változók segítségével csoportokat alakít ki. A csoportképzés távolságok mérésén alapul. Azokat tekintjük egy csoportban lévőknek, akik elkülönülten közel vannak egymáshoz. Az elemzés nehézsége leginkább abban áll, hogy a kialakult csoportoknak tudunk-e olyan nevet adni, ami jól leírja az adott csoportot a több csoporthoz képest.
Főkomponens- és faktorelemzés (Principal components and factor analysis) Folytonos változók esetén alkalmazott dimenziócsökkentő eljárások.
Főkomponens-elemzés segítségével azt tudjuk megmondani, hogy több változó közül melyik az az egy változó, amelyik a legnagyobb magyarázó erővel bír a többihez képest.
A faktorelemzés több változó viselkedését írja le mesterségesen képzett változók segítségével. Tehát például, hat változóból készít két képzett változót, azaz faktort. Az első faktor két változó, míg a második faktor négy változó transzformált adatait tartalmazza. A faktorokat sok esetben használjuk regresszió-analízisek készítése során.
Többdimenziós skálázás (Multidimensional scaling) Több sorba rendezhető válaszlehetőségű változó esetén alkalmazható eljárás. Dimenzió csökkentésre használjuk abban az esetben, ha több változó hasonló dolgot mér. Tipikus eset erre, amikor 1-től 5-ig, illetve 10-ig terjedő skálán kell értékelni például egy adott készítményt különböző ismérvek szerint. Az elemzés során az ismérvek egy csoportja fogja meghatározni az egyik, míg egy mások csoportja a másik tengelyt. Ebben az esetben viszonyításunkat a tengelyeket alkotó képzett változók fogják meghatározni.

 

Adatfeldolgozás röviden

Kódolás (Coding) Nyitott válaszokhoz egyedi azonosító kódok hozzárendelése.
Rögzítés (Data entry)
Kérdőívek, adatlapok eredményeinek adatmátrixba történő rendezése.
Változók és válaszlehetőségek megcímkézése (Variable label and value label) Változók felcímkézése a hozzájuk tartozó kérdésekkel, illetve megnevezésekkel. Az egyedi azonosító kódok felcímkézése.
Relatív gyakoriságok, leíró statisztikák (Descriptive statistics) Kategoriális változók gyakorisága és relatív gyakorisága. Folytonos változók leíró statisztikája.

Statisztikai próbák (Statistical tests) Kezelések, terápiák hatásának kimutatása, továbbá adott szempont különböző csoportosítás szerinti vizsgálata paraméteres és nemparaméteres próbák segítségével. Például: khí-négyzet próba, t-próba, ANOVA, esélyhányadosok számítása.

Többváltozós elemzések I. (Multidimensional analysis I.)
Korreláció számítás
(Correlate) A korreláció két folytonos változó közötti asszociációt méri.
Regresszió-analízis
(Regression analysis) A lineáris regresszió szintén két folytonos változók közötti kapcsolatot vizsgál úgy, hogy a meglévő adatokra a legjobban illeszkedő meredekségű és konstans értékű egyenest fogja kiválasztani. Az adatokra nem csak lineáris függvények illeszthetők.

Többváltozós elemzések II. (Multidimensional analysis II.)
Klaszteranalízis (Cluster analysis)
Főleg folytonos változók esetében alkalmazott eljárás, a megadott változók segítségével csoportokat alakít ki távolságmérések alapján.
Főkomponens- és faktorelemzés (Principal components and factor analysis) Főkomponens-elemzés segítségével azt tudjuk megmondani, hogy több változó közül melyik az az egy változó, amelyik a legnagyobb magyarázó erővel bír a többihez képest. A faktorelemzés több változó viselkedését írja le mesterségesen képzett változók segítségével.
Többdimenziós skálázás (Multidimensional scaling) Több sorba rendezhető válaszlehetőségű változó esetén alkalmazható dimenziócsökkentő eljárás. Használata akkor ajánlott, ha több változó hasonló módon mér. Például, amikor egy adott dolgot 1-től 5-ig, vagy 10-ig terjedő skálán kell értékelni több szempont szerint.