Koreliacija

Kas yra koreliacija:

Koreliacija reiškia dviejų dalykų, žmonių ar idėjų panašumą ar santykį . Tai yra panašumas ar lygiavertiškumas tarp dviejų skirtingų hipotezių, situacijų ar objektų.

Statistikos ir matematikos srityje koreliacija susijusi su dviejų ar daugiau susijusių kintamųjų matu.

Terminas „koreliacija“ yra moteriškas daiktavardis, kilęs iš lotynų kalbos koreliacijos.

Žodžio koreliacija gali būti pakeista sinonimais, tokiais kaip: ryšys, lygtis, ryšys, korespondencija, analogija ir ryšys.

Koreliacijos koeficientas

Statistikoje Pearson koreliacijos koeficientas (r), kuris taip pat vadinamas produkto momento koreliacijos koeficientu, matuoja dviejų kintamųjų santykį toje pačioje metrinėje skalėje.

Koreliacijos koeficiento funkcija yra nustatyti ryšį, kuris egzistuoja tarp žinomų duomenų rinkinių arba informacijos.

Koreliacijos koeficiento vertė gali skirtis nuo -1 iki 1, o gautas rezultatas apibrėžia, ar koreliacija yra neigiama, ar teigiama.

Norint išaiškinti koeficientą, reikia žinoti, kad 1 reiškia, kad kintamųjų koreliacija yra tobula teigiama, o -1 reiškia, kad jis yra tobulas neigiamas . Jei koeficientas yra lygus 0, tai reiškia, kad kintamieji nepriklauso vienas nuo kito.

Statistikoje taip pat yra „ Spearman“ koreliacijos koeficientas, kuris turi šį pavadinimą statytojo Charleso Spearmano garbei. Šio koeficiento funkcija yra matuoti dviejų kintamųjų santykio intensyvumą, nesvarbu, ar jie yra tiesiniai, ar ne.

Spearmano koreliacija padeda įvertinti, ar dviejų analizuojamų kintamųjų santykio intensyvumas gali būti matuojamas monotonine funkcija (matematinė funkcija, kuri išsaugo arba invertuoja pradinį užsakymo santykį).

Pearson koreliacijos koeficiento apskaičiavimas

1 metodas) Pearson koreliacijos koeficiento apskaičiavimas naudojant kovariaciją ir standartinį nuokrypį.

Kur

S _XY yra kovariacija;

S _x ir S _y yra atitinkamai kintamųjų x ir y standartinis nuokrypis.

Tokiu atveju apskaičiavimas apima pirmąjį kintamumo nustatymą tarp kintamųjų ir kiekvieno iš jų standartinį nuokrypį. Tada kovariacija yra padalinta iš standartinių nuokrypių dauginimo.

Dažnai pareiškime jau pateikiami standartiniai kintamųjų nuokrypiai arba jų kovariacija, tiesiog taikant formulę.

2 metodas) Pearson koreliacijos koeficiento apskaičiavimas su neapdorotais duomenimis (be kovariacijos ar standartinio nuokrypio).

Naudojant šį metodą, tiesioginė formulė yra tokia:

Pavyzdžiui, darant prielaidą, kad mes turime duomenų su n = 6 dviejų kintamųjų stebėjimais: gliukozės lygiu (y) ir amžiumi (x), skaičiavimas atliekamas pagal šiuos veiksmus:

1 žingsnis) Sudarykite lentelę su esamais duomenimis: i, x, y ir pridėkite tuščių stulpelių xy, x² ir y²:

2 veiksmas: padauginkite x ir y, kad užpildytumėte „xy“ stulpelį. Pavyzdžiui, 1 eilutėje turėsime: x1y1 = 43 × 99 = 4257.

3 žingsnis: pakelkite x stulpelio reikšmes ir įrašykite rezultatus stulpelyje x². Pavyzdžiui, pirmoje eilutėje turėsime x ₁ 2 = 43 × 43 = 1849.

4 veiksmas: atlikite tą patį, kaip 3 veiksme, dabar naudodami y stulpelį ir įrašykite savo vertybių kvadratą stulpelyje y². Pavyzdžiui, pirmoje eilutėje turėsime: y ₁ 2 = 99 × 99 = 9801.

5 veiksmas: gauti visų stulpelių numerių sumą ir įterpkite rezultatą į stulpelio poraštę. Pavyzdžiui, amžiaus X stulpelio suma yra lygi 43 + 21 + 25 + 42 + 57 + 59 = 247.

6 veiksmas: naudokite aukščiau pateiktą formulę, kad gautumėte koreliacijos koeficientą:

Taigi, mes turime:

Spearmano koreliacijos koeficientas

Spearmano koreliacijos koeficiento apskaičiavimas yra šiek tiek kitoks. Tam mes turime organizuoti savo duomenis šioje lentelėje:

1. Nustačius 2 duomenų poras, turime jas įtraukti į lentelę. Pavyzdžiui:

2. Stulpelyje „A reitingas“ mes klasifikuosime stebėjimus, kurie yra „Datos A“, didėjančiu būdu, o „1“ yra mažiausia reikšmė stulpelyje, en (bendras stebėjimų skaičius), didžiausia reikšmė stulpelyje „Data A ". Mūsų pavyzdyje yra:

3. Mes darome tą patį, kad gautume stulpelį „Reitingas B“, dabar naudodami „Duomenų B“ stulpelio pastabas:

4. „d“ stulpelyje išskiriame skirtumą tarp dviejų reitingų (A-B). Čia signalas nesvarbu.

5. Pakelkite kiekvieną vertę stulpelyje "d" ir įrašykite stulpelyje d²:

6. Pridėkite visus duomenis iš stulpelio „d²“. Ši vertė yra Σd². Mūsų pavyzdyje Σd² = 0 + 1 + 0 + 1 = 2

7. Dabar mes naudojame Spearmano formulę:

Mūsų atveju, n yra lygus 4, kai žiūrime į duomenų eilučių skaičių (kuris atitinka stebėjimų skaičių).

8. Galiausiai pakeičiame ankstesnės formulės duomenis:

Tiesinė regresija

Tiesinė regresija yra formulė, naudojama įvertinti kintamojo (y) vertę, kai yra žinomi kitų kintamųjų (x) reikšmės. "X" reikšmė yra nepriklausomas arba aiškinamasis kintamasis, o "y" yra priklausomas kintamasis arba atsakas.

Linijinė regresija naudojama siekiant patikrinti, kaip "y" reikšmė gali kisti kaip kintamojo "x" funkcija. Linija, kurioje yra dispersijos patikros vertės, vadinama linijine regresijos linija.

Jei aiškinamasis kintamasis „x“ turi vieną vertę, regresija bus vadinama paprasta linijine regresija .