On-line učionica

6. novembar 2011.

Opisivanje podataka: numeričke deskriptivne mere

Filed under: Sistemi za obradu podataka,Vežbe — jelena100janovic @ 11:44 pm

Pre više od 100 godina H. G. Wells je rekao: „statističko mišljenje će jednog dana biti podjednako potrebno za efikasnog građanina kao što je danas sposobnost da čita i piše.“ Taj dan je došao. Danas, ne možemo da izbegnemo da budemo bombardovani svim vrstama brojčanih podataka. Statističke tehnike se intenzivno koriste u skoro svim poslovnim poljima: društvenim naukama, prirodnim naukama, marketingu, knjigovodstvu, kontroli kvaliteta, medicini, obrazovanju, profesionalnom sportu, politici da spomenemo samo neke. Ovaj članak će Vam pokazati koliko je lako koristiti Excel da bi našli pozicione mere, centralne tendencije i disperzije, mere koje su osnova za korišćenje i razumevanje statističkih podataka.

Pozicione mere: koristićemo Excel da pronađemo jednu vrednost ili prosek da bi opisali skup podataka. Ova jedna vrednost se odnosi na pozicionu meru. Često nam je potreban jedan broj da bi predstavili skup podataka – jedan broj o kome se može misliti kao „tipičnom“ predstavniku svih podataka. Većina ljudi pomisli na aritmetičku sredinu kada čuje reč prosek. Međutim, postoji nekoliko mera koje pokazuju centralnu vrednost skupa podataka. U ovom članku ćemo pokazati da možete koristiti Excel-ove naredbe da biste pronašli aritmetičku sredinu, medijanu, mod i geometrijsku sredinu. Takođe ćemo napraviti šablon za pronalaženje ponderisane sredine.

Aritmetička sredina je najčešće korišćena mera centralne tendencije. Kada saberete svoje ocene i podelite ih sa brojem predmeta, izračunali ste aritmetičku sredinu, ili prosek. Ono što sledi je primer kako da izračunate sredinu korišćenjem ove formule. Na primer, tokom polugodišta agonije, Pera je dobio sledeći broj poena na 9 kontrolnih zadataka iz matematike (poređanih u rastućem poretku): 2, 7, 11, 20, 30, 40, 55, 71 i 71. Perina srednja ocena na polugodištu je, onda, bila (2 + 7 + 11 + 20 + 30 + 40 + 55 + 71 + 71) : 9 = 34,111 ili 34, zaokruženo.

Medijana je poziciona mera. Ako poređate seriju vrednosti u rastućem ili opadajućem poretku, srednji broj u nizu vrednosti se zove medijana. U slučaju Perinih ocena, srednja ocena ili medijana je bila 30. Obe ocene sredina od 34 poena i medijana od 30 poena se čine da otkrivaju istu stvar: Pera je imao velikih problema da svari matematiku. Čak kada bi Perin nastavnik izbacio Perinu najnižu ocenu, medijana bi bila na pola puta između 30 i 40, to jest, 35, ne velika promena. Iako se Perina srednja ocena od 34 poena razlikovala samo malo od medijane od 30 poena, moguće je u drugim slučajevima da razlika između sredine i medijane bude znatna.

Mod se definiše kao najčešće pojavljivana vrednost u seriji. U primeru Perinih ocena, mod je 71 (vrednost koja bi mogla da odgovara Peri, ali ne i njegovom nastavniku). Iako nije posebno korisan u našem primeru, mod je takođe važan, na primer, odeljenju za prodaju muških odela koje hoće da naruči najpopularnije modele, boje i veličine.

Geometrijska sredina je korisna kod pronalaženja proseka relativnih brojeva kao što su procenti, odnosi, indeksi, ili stope rasta. Pretpostavimo da je neka kompanija, recimo marketing kompanija, imala rast prodaje od 3,2 procenta, 1,5 procenata, 4,8 procenata i 38,5 procenata. Prosečan procenat rasta kao što je pokazano ispod bi bio 11 što se razlikuje od aritmetičke sredine od 12.

 

GS = 1,11042 ili 11%

Geometrijska sredina će uvek biti manja od ili jednaka (nikad veća od) aritmetičke sredine. Takođe primetite da sve vrednosti podataka moraju biti pozitivne da bi se odredila geometrijska sredina.

Ponderisana sredina je poseban oblik aritmetičke sredine. Pojavljuje se kada jedna vrednost ima veću važnost ili veću težinu od druge ili samo veću frekvenciju. Na primer, ako je Aleksandra dobila ocenu 9 14 puta, ocenu 8 11 puta, ocenu 10 5 puta, kolika je njena prosečna ocena?

 

Mere disperzije. Ako dve raspodele imaju istu sredinu, medijanu i mod, da li to znači da nema razlike između raspodela? Ne obavezno. Raspodele ispod su normalnog, unimodalnog, simetričnog, ili oblika zvona. One imaju iste mere centralne tendencije, ali nisu identične. Raspodela B je raširenija, veće disperzije ili promenljivosti nego raspodela A.

Sledi jedna ilustracija koja će Vam pomoći da razumete važnost disperzije. Jedan profesor fizičkog, na koga je izvršen pritisak da trenira atletski klub, izvršio je neke provere i otkrio da: 4 skakača u vis u proseku preskaču visinu od 1,2 metara, 3 skakača s motkom mogu u proseku da preskoče samo 2,7 metara, a prosečni trkač može da pretrči 1 kilometar za celih 5 minuta i 20 sekundi. Zaključio je da ne želi da vodi takvu sigurnu propast. Da li je njegova ocena tačna? Možda, ali ne iz podataka koje je prikupio. Da je pogledao dalje, otkrio bi da 1 od 4 skakača u vis konstantno preskače 2m (dovoljno dobro za bilo koje takmičenje na kojem bi mogao učestvovati) dok se ostali sapliću o visinu od 1m. U skoku s motkom, jedan atleta preskače 4,5 metara, dok se ostali retko vinu iznad 2 metra. I tim ima jednog trkača koji može da trči ispod 2,5 minuta po kilometru. Pouka ove priče: bez znanja disperzije, proseci sami ne daju kompletnu sliku.

Zapamtite, ako je jedno Vaše stopalo zamrznuto u ledu (0°C) a drugo u skoro ključaloj vodi (74°C), u proseku bi trebalo da Vam je prijatna telesna temperatura od 37°Celzijusa.

Najjednostavnija mera disperzije je interval, što je razlika između najveće i najmanje vrednosti. Najčešća statistička mera disperzije je standardna devijacija σ za populacijske podatke, a s za podatke iz uzorka, ili drugačije rečeno, s se koristi da oceni σ. Standardna devijacija je pozitivni kvadratni koren iz varijanse. Varijansa je mera proseka kvadratnih devijacija između svake posmatrane vrednosti i sredine. Ali šta je standardna devijacija? Šta ona radi i šta ona znači? Gornja definicija stvarno ne govori mnogo. Možda je bolji način definisanja standardne devijacije gledajući kako se koristi u mnogim oblastima u kojima je korisna.

Iskustveno pravilo kao što je ilustrovano dole je smernica koja kaže, kada je raspodela podataka normalno raspoređena ili skoro u obliku gomile, oko 68% vrednosti podataka upada u jednu standardnu devijaciju sredine, 95% upada u dve standardne devijacije, a skoro 100% (99,7%) u tri standardne devijacije.

Pošto je mnogo fenomena raspoređeno u skoro zvonastom obliku, uključujući većinu ljudskih osobina kao što su visina i težina, iskustveno pravilo se široko koristi. U oblasti kontrole kvaliteta, mnoge kompanije koriste sredinu ±2 standardne devijacije, ili sredinu ±3 standardne devijacije kao kritične oblasti za prihvatanje ili odbijanje smernice.

Na primer, u 2000.-oj godini prosečna potrošnja goriva u Srbiji je bila 9l na 100km. Da je standardna devijacija bila 2,5l na 100km mogli bismo koristiti iskustveno pravilo da ocenimo raspodelu potrošnje goriva automobila. Oko 2/3 (68%) vrednosti potrošnje goriva bi upale između 6,5 i 11,5l (9±2,5). 95% vrednosti potrošnje goriva bi upale između 4 i 14 (9 ± 2 · 2,5). I skoro svi automobili bi imali potrošnju goriva između 1,5 i 16,5 (9 ± 3 · 2,5).

Razumevanje standardne devijacije je važno u statistici.

  1. To je najčešće korišćena mera disperzije. Zbog matematičkih osobina koje poseduje, primerenija je od bilo koje druge mere disperzije koja uključuje proceduru statističkog zaključivanja.
  2. Na nju utiče svaka posmatrana vrednost u seriji. Promena bilo koje posmatrane vrednosti će promeniti vrednost standardne devijacije. Njena vrednost može biti izobličena od relativno malo ekstremnih vrednosti.
  3. Često se koristi za pravljenje kontrolnih grafikona, s obzirom da se većina kontrolnih grafikona bazira na činjenici da 95% normalne raspodele upada u ±2 standardne devijacije sredine. Bilo koja stavka u raspodeli koja je manje od 2 standardne devijacije od sredine se smatra kontrolisanom. Razlika se pripisuje grešci uzorkovanja i prilikama u okviru kojih se proces koristi. Bilo koja stavka van ±2 standardne devijacije sredine se smatra nekontrolisanom. Razlika se pripisuje nekom prenosivom uzroku koji bi mogao biti ispravljen.

Nastavak …

Ostavite komentar »

Nema komentara.

RSS feed for comments on this post. TrackBack URI

Ostavite odgovor

Popunite detalje ispod ili pritisnite na ikonicu da biste se prijavili:

WordPress.com logo

Komentarišet koristeći svoj WordPress.com nalog. Odjavite se / Promeni )

Slika na Tviteru

Komentarišet koristeći svoj Twitter nalog. Odjavite se / Promeni )

Fejsbukova fotografija

Komentarišet koristeći svoj Facebook nalog. Odjavite se / Promeni )

Google+ photo

Komentarišet koristeći svoj Google+ nalog. Odjavite se / Promeni )

Povezivanje sa %s

Create a free website or blog at WordPress.com.

%d bloggers like this: