Kā aprēķināt dispersiju: 15 soļi (ar Fotoattēlu) - Padomi

Saturs

Soļi
Padoms

Dispersija mēra datu kopas izkliedi. Tas ir ļoti noderīgi statistikas modeļu veidošanā: zema dispersija var liecināt par to, ka jūs aprakstāt nejaušu kļūdu vai troksni, nevis pamatā esošo datu saistību. Ar šo rakstu wikiHow iemāca jums aprēķināt dispersiju.

Soļi

1. metode no 2: aprēķiniet parauga dispersiju

Uzrakstiet savu datu kopas paraugu. Lielākajā daļā gadījumu statistiku rīcībā ir tikai informācija par izlasi vai tās pētāmās sabiedrības apakškopu. Piemēram, tā vietā, lai analizētu "katras automašīnas izmaksas Vācijā", statistikas speciālists varētu atrast dažus tūkstošus nejaušas izlases veida izmaksas. Statistiķis var izmantot šo paraugu, lai iegūtu labu aplēsi par automašīnu izmaksām Vācijā. Tomēr, visticamāk, tas precīzi neatbilst faktiskajiem skaitļiem.
- Piemēram: Analizējot kafijas veikalā dienā pārdoto smalkmaizīšu skaitu, jūs nejauši izlasījāt sešu dienu paraugu un saņēmāt šādus rezultātus: 38, 37, 36, 28, 18, 14, 12, 11, 10,7, 9,9. Šis ir paraugs, nevis populācija, jo jums nav datu par katru dienu, kad veikals ir atvērts.
- Ja katrs Datu punkti galvenajā ierīcē, lūdzu, pārejiet uz tālāk norādīto metodi.
Pierakstiet dispersijas parauga formulu. Datu kopas dispersija norāda datu punktu izkliedi. Jo tuvāk dispersija ir nulle, jo tuvāk datu punkti ir grupēti. Strādājot ar datu kopu paraugiem, dispersijas aprēķināšanai izmantojiet šādu formulu:
- = /_{(n - 1)}
- ir dispersija. Dispersiju vienmēr aprēķina kvadrātā.
- apzīmē vērtību jūsu datu kopā.
- ∑, kas nozīmē "summa", liek aprēķināt šādus parametrus katrai vērtībai un pēc tam tos saskaitīt kopā.
- x̅ ir parauga vidējais lielums.
- n ir datu punktu skaits.
Aprēķiniet vidējo paraugu. Simbolu x̅ vai "x-horizontal" izmanto, lai norādītu vidējo paraugu. Aprēķiniet tāpat kā jebkuru vidējo rādītāju: saskaitiet visus datu punktus un daliet to ar punktu skaitu.
- Piemēram: Vispirms summējiet savus datu punktus: 17 + 15 + 23 + 7 + 9 + 13 = 84
  Pēc tam daliet rezultātu ar datu punktu skaitu, šajā gadījumā sešus: 84 ÷ 6 = 14.
  Vidējais paraugs = x̅ = 14.
- Jūs varat domāt par vidējo kā par datu "centrālo punktu". Ja dati ir centrēti ap vidējo, dispersija ir maza. Ja tie ir izkliedēti tālu no vidējā, tad dispersija ir liela.
No katra datu punkta atņemiet vidējo. Tagad ir pienācis laiks aprēķināt - x̅, kur tas ir katrs jūsu datu kopas punkts. Katrs rezultāts norāda novirzi no katra attiecīgā punkta vidējā vai, vienkārši sakot, attālumu no tā līdz vidējam.
- Piemēram:
  - x̅ = 17 - 14 = 3
  - x̅ = 15 - 14 = 1
  - x̅ = 23 - 14 = 9
  - x̅ = 7 - 14 = -7
  - x̅ = 9 - 14 = -5
  - x̅ = 13 - 14 = -1
- Aprēķinus ir ļoti viegli pārbaudīt, jo rezultātiem jāsasniedz nulle. Tas ir tāpēc, ka, definējot vidējo, negatīvie rezultāti (attālums no vidējā līdz maziem skaitļiem pozitīvie rezultāti (attālums no vidējā līdz lielākiem skaitļiem) tiek pilnībā izslēgti.
Kvadrātveida visus rezultātus. Kā minēts iepriekš, pašreizējā noviržu saraksta (- x̅) summa ir nulle. Tas nozīmē, ka "vidējā novirze" arī vienmēr būs nulle un nevar neko pateikt par datu izkliedi. Lai atrisinātu šo problēmu, mēs atrodam katras novirzes kvadrātu. Rezultātā visi ir pozitīvi skaitļi, negatīvās vērtības un pozitīvās vērtības vairs neatceļ viena otru un dod summu nulle.
- Piemēram:
  (- x̅)
  - x̅)
  9 = 81
  (-7) = 49
  (-5) = 25
  (-1) = 1
- Tagad katram izlases datu punktam ir (- x̅).
Atrodiet kvadrātu vērtību summu. Ir pienācis laiks aprēķināt visu formulas skaitītāju: ∑. Lielajam ciklam ∑ katrai vērtībai ir jāpievieno šāda elementa vērtība. Jūs esat aprēķinājis (- x̅) katrai izlases vērtībai, tāpēc jums atliek tikai saskaitīt rezultātus kopā.
- Piemēram: 9 + 1 + 81 + 49 + 25 + 1 = 166.
Daliet ar n - 1, kur n ir datu punktu skaits. Jau sen, aprēķinot izlases dispersiju, statistiķi dalīja tikai ar n. Šis sadalījums sniegs vidējo novirzi kvadrātā, kas precīzi atbilst minētā parauga dispersijai. Tomēr paturiet prātā, ka izlase ir tikai lielākas populācijas novērtējums. Ja jūs ņemat citu nejaušu paraugu un veicat to pašu aprēķinu, jūs saņemsiet citu rezultātu. Kā izrādās, dalot ar n -1, nevis n, jūs labāk novērtējat lielākas populācijas dispersiju - kas jums patiešām rūp. Šī korekcija ir tik izplatīta, ka tagad tā ir pieņemtā parauga dispersijas definīcija.
- Piemēram: Izlasē ir seši datu punkti, tātad n = 6.
  Parauga dispersija = 33,2
Izprotiet dispersiju un standartnovirzi. Ņemiet vērā, ka, tā kā formulā ir jaudas, dispersiju mēra sākotnējo datu vienību kvadrātā. Tas vizuāli mulsina. Tā vietā bieži vien standartnovirze ir diezgan noderīga. Bet nav jēgas tērēt pūles, jo standartnovirzi nosaka dispersijas kvadrātsakne. Tāpēc izlases dispersija tiek rakstīta izteiksmē, un parauga standartnovirze ir.
- Piemēram, iepriekšminētā parauga standartnovirze = s = √33,2 = 5,76.
reklāma

2. metode no 2: Aprēķiniet populācijas dispersiju

Sākot ar galveno datu kopu. Terminu "populācija" lieto, lai apzīmētu visus attiecīgos novērojumus. Piemēram, ja jūs pētāt Hanojas iedzīvotāju vecumu, jūsu kopējais iedzīvotāju skaits ietvers visu Hanojā dzīvojošo cilvēku vecumu. Parasti jūs izveidotu izklājlapu šādai lielai datu kopai, taču šeit ir mazāks datu kopas piemērs:
- Piemēram: Akvārija telpā ir tieši seši akvāriji. Šajās sešās tvertnēs ir šāds zivju skaits:
Pierakstiet kopējās dispersijas formulu. Tā kā populācijā ir visi nepieciešamie dati, šī formula dod mums precīzu populācijas dispersiju. Lai to atšķirtu no izlases dispersijas (kas ir tikai aptuvena vērtība), statistiķi izmanto citus mainīgos:
- σ = /_n
- σ = parauga dispersija. Šī ir parasti kvadrātveida desa. Dispersiju mēra kvadrātā.
- apzīmē elementu jūsu datu kopā.
- Elementu ∑ aprēķina katrai vērtībai un pēc tam summē.
- μ ir kopējais vidējais.
- n ir datu punktu skaits populācijā.
Atrodiet vidējo iedzīvotāju skaitu. Analizējot populāciju, simbols μ ("mu") apzīmē vidējo aritmētisko. Lai atrastu vidējo rādītāju, saskaitiet visus datu punktus un pēc tam daliet ar punktu skaitu.
- Jūs varat domāt par vidējo kā "vidējo", bet esiet uzmanīgs, jo šim vārdam ir daudz matemātisku definīciju.
- Piemēram: vidējā vērtība = μ = = 10,5
No katra datu punkta atņemiet vidējo. Datu punktiem, kas atrodas tuvāk vidējam, atšķirība ir tuvāka nullei. Atkārtojiet atņemšanas problēmu visiem datu punktiem, un jūs, iespējams, sāksit izjust datu izkliedi.
- Piemēram:
  - μ = 5 – 10,5 = -5,5
  - μ = 5 – 10,5 = -5,5
  - μ = 8 – 10,5 = -2,5
  - μ = 12 - 10., = 1,5
  - μ = 15 – 10,5 = 4,5
  - μ = 18 – 10,5 = 7,5
Katru zīmi kvadrātveida. Šajā brīdī daži no iepriekšējā solī iegūtajiem rezultātiem būs negatīvi, bet citi - pozitīvi.Ja vizualizējat datus uz izomorfas līnijas, šie divi vienumi apzīmē skaitļus vidējā kreisajā un labajā pusē. Tas nebūtu lietderīgi, aprēķinot dispersiju, jo šīs divas grupas viena otru atceltu. Tā vietā sakārtojiet tos visus, lai viņi visi būtu pozitīvi.
- Piemēram:
  (- μ) katrai vērtību i ilgst no 1 līdz 6:
  (-5,5) = 30,25
  (-5,5) = 30,25
  (-2,5) = 6,25
  (1,5) = 2,25
  (4,5) = 20,25
  (7,5) = 56,25
Atrodiet vidējo rezultātu. Tagad katram datu punktam ir vērtība, kas ir saistīta (nevis tieši) ar to, cik tālu šis datu punkts ir no vidējā. Vidējais, saskaitot tos kopā un dalot ar jūsu iegūto vērtību skaitu.
- Piemēram:
  Kopējā dispersija = 24,25
Kontaktu recepte. Ja neesat pārliecināts, kā tas atbilst metodes sākumā aprakstītajai formulai, pierakstiet visu problēmu ar roku un nesaīsiniet:
- Atrodot atšķirību no vidējā un kvadrātā, jūs saņemat (- μ), (- μ) un tā tālāk līdz (- μ), kur ir pēdējais datu punkts. datu kopā.
- Lai atrastu šo vērtību vidējo lielumu, saskaitiet tos kopā un daliet ar n: ((- μ) + (- μ) + ... + (- μ)) / n
- Pēc skaitītāja pārrakstīšanas ar sigmoīdu apzīmējumu jums ir /_n, formulas dispersija.
reklāma

Padoms

Tā kā dispersiju ir grūti interpretēt, šo vērtību bieži aprēķina kā sākumpunktu, lai atrastu standartnovirzi.
Izmantojot saucējā "n-1", nevis "n", ir tehnika, ko sauc par Besela korekciju. Izlase ir tikai pilnīgas populācijas novērtējums, un izlases vidējam ir noteikta tendence, lai tā atbilstu šai aplēsei. Šis labojums novērš iepriekš minēto neobjektivitāti. Tas attiecas uz faktu, ka, tiklīdz ir uzskaitīti n - 1 datu punkti, pēdējais trešais punkts n bija konstante, jo, lai aprēķinātu dispersijas formulas vidējo paraugu (x̅), tika izmantotas tikai noteiktas vērtības.