On-line učionica

13. novembar 2011.

Opisivanje podataka: prikazivanje i proučavanje podataka

Filed under: Sistemi za obradu podataka,Vežbe — jelena100janovic @ 3:41 pm

Prethodna lekcija Vas je upoznala sa nekoliko pozicionih mera kao što su sredina i medjana koje nam dozvoljavaju da izvestimo o tipičnoj vrednosti u skupu obeležja. Takođe ste računali nekoliko mera disperzije kao što su sredina i standardna devijacija koje nam dozvoljavaju da opišemo varijaciju ili širenje u skupu podataka. Nastavićemo sa opisnom statistikom i u ovoj lekciji.

Iako je standardna devijacija najviše korišćena mera disperzije ponekad je korisno podeliti skup obeležja na jednake delove i meriti pozicije koristeći kvartile, decile ili percentile. Prvi, drugi i treći kvartil dele skup obeležja na četiri jednaka dela. Setite se u prošloj lekciji kada smo poređali skup podataka od najmanjeg do najvećeg srednja vrednost je bila medijana. Kada poređamo skup podataka od najmanjeg do najvećeg i podelimo ga na 4 jednaka dela vrednost ispod koje se pojavljuje 25 procenata obeležja je prvi kvartil. Srednja tačka, medijana, je drugi kvartil. Vrednost ispod koje se pojavljuje 75 procenata obeležja je treći kvartil. Srednjih 50 procenata podataka, kvartilni interval, je između prvog kvartila i trećeg kvartila.

Decili i percentili su takođe mere pozicije. Nakon što poređamo podatke u rastući niz ako ga podelimo na 10 jednakih delova imamo decile, a ako ga podelimo na 100 jednakih delova imamo percentile. Ako je Vaš džeparac u 7. decilu možete zaključiti da 70 procenata đaka ima niži džeparac a 30 procenata ima veći džeparac. Ako je Vaša drugarica završila u 42. percentilu na Beogradskom Maratonu onda je ona završila pre 42 procenta trkača i iza 58 procenata trkača.

Još jedna karakteristika skupa podataka je njegov oblik. Oblik je simetričan ako su sredina i medijana iste i podaci su raspoređeni jednako tako da su vrednosti podataka ispod i iznad sredine i medijane osno simetrične. Oblik je pozitivno asimetričan kada je sredina veća od medijane i vrednosti se protežu dalje desno od vrha. Oblik je negativno asimetričan kada je sredina manja od medijane i podaci se protežu dalje levo od vrha. Kada skup podataka ima dva vrha on je bimodalni, tri vrha tri-modalni itd.

Da bi pokazali kako da koristite Excel da biste izračunali mere centralne tendencije, disperzije, pozicije i oblika evo tipičnog primera.

Vežba 1: Odeljenje za kontrolu kvaliteta jedne kompanije za proizvodnju džemova je odgovorno za proveravanje težine tegli od 225g džema od maline. Težine uzorka od 13 tegli su:

216      220      228      226      222      223      227      218      221      225      228      225      226

Izračunajte deskriptivnu statistiku.

Rešenje: Nakon što dobijete svoje rezultate, proverite šta piše pod count u dobijenoj tabeli da biste bili sigurni da imate tačan broj ulaznih stavki.

Ova lekcija se bavi pozicijom i oblikom ali s obzirom da izlazna tabela prikazuje dodatne termine, iskoristićemo ovu priliku da definišemo šta Excel prikazuje, kao što smo to uradili u prethodnoj lekciji.

Excel-ova Descriptive Statistics izlazna tabela sadrži tri mere centralne tendencije: sredinu, medijanu i mod. Sredina (223,5) se računa tako što se suma (2905) deli sa brojem stavki (13).

Medijana (225) je poziciona mera u sortiranom skupu podataka. To je srednji broj u skupu podataka sa neparnim brojem vrednosti. U parnom skupu brojeva, to je vrednost između dve srednje vrednosti.

Mod (228) je mera frekvencije, to je najčešće pojavljivana vrednost. Kada postoje dve ili više vrednosti koje se pojavljuju isti broj puta (višestruki modovi), Excel prikazuje vrednost koja se prva pojavljuje u skupu podataka. U nekim skupovima podataka, svaka vrednost je jedinstvena pa Excel prikazuje „#N/A“. Mod se često koristi kod grupisanih podataka. Raspodela frekvencija sa najvećim brojem pojavljivanja se zove modalni interval.

Izlazna tabela sadrži nekoliko mera varijacije. Interval (12) je jednak maksimalnoj vrednosti (228) minus minimalna vrednost (216). Zapamtite, kod nekih skupova podataka interval može biti varljiva mera varijacije s obzirom da sadrži samo dve ekstremne vrednosti.

Standardna devijacija (3,8) je najčešća mera varijacije ili disperzije. U normalnom ili simetričnom skupu podataka oko 68 procenata će biti u plus minus jednoj standardnoj devijaciji sredine (219,7 – 227,3), 95 procenata će biti u plus ili minus dve standardne devijacije sredine (215,9 – 231,1) i skoro svi podaci (99,7 procenata) će biti u plus ili minus tri standardne devijacije sredine (212,1 – 234,9).

Varijansa je kvadrat standardne devijacije. Excel-ova izlazna tabela prikazuje standardnu devijaciju i varijansu uzorka računate korišćenjem n-1 u imeniocu. Da biste našli standardnu devijaciju populacije i varijansu populacije, računate korišćenjem n kao imenioca, koristite STDEVP i VARP funkcije.

Najveća (2) i najmanja (2) vrednost u Excel-ovoj izlaznoj tabeli su druga najveća (228) i druga najmanja (218) težina. Ove vrednosti se mogu koristiti da bi se uklonili ekstremi. Oni se takođe mogu koristiti da bi se odredili kvartili u podacima sa velikim brojem frekvencija. Na primer ako ste imali 1600 u svom skupu podataka, podelili biste broj (1600) sa 4 i uneli 400 kao parametar za najveću i najmanju vrednost. Izlazna tabela bi onda pokazala približno treći i prvi kvartil. Ako su podaci poređani redom od najmanjeg do najvećeg i podelite broj (1600) sa deset onda biste imali 160. stavku kao prvi decil i 1440. stavku kao deveti decil. Mogli biste takođe podeliti sa 100 i oceniti percentile.

Standardna greška (1,1) prikazana u izlaznoj tabeli će se koristiti više u našim kasnijim vežbama. Standardna greška je standardna devijacija podeljena sa kvadratnim korenom veličine uzorka. To je mera nesigurnosti oko sredine i koristi se za statistička predviđanja (intervali poverenja, regresiona analiza i testovi hipoteza.)

Nivo poverenja (90,0%) (1,9) je polovina 90%-nog intervala poverenja za sredinu. U ovom merenju možemo biti 90% sigurni da će interval, 221,6 grama do 225,4 grama, sadržati populacijski parametar ili pravu sredinu težine tegle.

Spljoštenost (-0,6) meri stepen zašiljenosti u simetričnim raspodelama. Ako je simetrična raspodela zašiljenija od normalne raspodele, to jest, ako ima manje vrednosti na krajevima, mera spljoštenosti je negativna. Ako je raspodela ravnija od normalne raspodele, to jest ako ima više vrednosti na krajevima od odgovarajuće normalne raspodele, mera spljoštenosti je pozitivna. (Za više detalja o tome kako Excel računa spljoštenost pretražite Help za „KURT function“).

Asimetričnost (-0,6) je mera nedostatka simetrije u raspodeli. Ako postoji nekoliko ekstremno malih vrednosti i kraj raspodele vuče na levo kažemo da je raspodela negativno asimetrična i naša vrednost asimetričnosti bi bila negativna. Ako postoji nekoliko ekstremno velikih vrednosti na kraju raspodele koji vuče na desno, kažemo da je raspodela pozitivno asimetrična i vrednost asimetričnosti bi bila pozitivna. Formula za nalaženje asimetričnosti koju koristi Excel se razlikuje od Pearson-ovog koeficijenta asimetričnosti koji ćete učiti na teorijskim časovima (Excel računa vrednost asimetričnosti koristeći treći stepen odstupanja od sredine. Za više detalja o tome kako Excel računa asimetričnost pretražite Help za „SKEW function“).

Uputstvo…

Tačkasti dijagrami

Kada proučavamo jednu promenljivu to nazivamo podacima sa jednom promenljivom. Kada želimo da pogledamo dve promenljive i vidimo da li su one u nekom odnosu to nazivamo podacima sa dve promenljive. Primeri pitanja sa dve promenljive bi bili: Postoji li odnos između novca potrošenog na reklamiranje i prodaje? Kakav je odnos između godina i prihoda? Da li visoki roditelji imaju visoku decu? Tačkasti dijagram se često koristi da bi prikazali odnos između dve promenljive. Da bismo nacrtali tačkasti dijagram skaliramo jednu promenljivu duž horizontalne ose (x-ose) grafika a drugu promenljivu duž vertikalne ose (y-ose). U jednoj od kasnijih lekcija ćemo ulaziti u više detalja o tačkastim dijagramima i o merama veze između podataka sa dve promenljive. Postoji nekoliko upozorenja kada koristite tačkaste dijagrame. Prvo, podaci moraju biti manji od intervala skale. Drugo, budite svesni da skaliranje koje koristite za vertikalnu i horizontalnu osu, mogu uticati na očiglednost vizuelne jačine odnosa.

Vežba 2: Jedna prodavnica tehnike ima prodajna mesta u nekoliko većih gradova. Generalni menadžer prodaje planira da emituje reklamu za digitalnu kameru na izabranim lokalnim TV stanicama pre nego što prodaja počne u subotu i završi se u nedelju. Ona planira da uzme informacije o vikend prodaji digitalne kamere na raznim prodajnim mestima i upari ih sa brojem emitovanja reklame na lokalnoj TV stanici. Namera je da nađe da li postoji odnos između broja emitovanja reklame i prodaje digitalne kamere. Uparivanja su:

Lokacija Broj Vikend prodaja
TV stanice emitovanja (u hiljadama dinara)
Beograd 4 15
Aranđelovac 2 8
Niš 5 21
Smederevo 6 24
Novi Sad 3 17

Formirajte tačkasti dijagram.

Rešenje:

Kao što možete videti iz tačkastog dijagrama postoji pozitivan odnos između broja emitovanja reklame i prodaje digitalne kamere. U gore pomenutoj kasnijoj lekciji proučavaćemo odnos između promenljivih.

Uputstvo…

Ostavite komentar »

Nema komentara.

RSS feed for comments on this post. TrackBack URI

Ostavite odgovor

Popunite detalje ispod ili pritisnite na ikonicu da biste se prijavili:

WordPress.com logo

Komentarišet koristeći svoj WordPress.com nalog. Odjavite se / Promeni )

Slika na Tviteru

Komentarišet koristeći svoj Twitter nalog. Odjavite se / Promeni )

Fejsbukova fotografija

Komentarišet koristeći svoj Facebook nalog. Odjavite se / Promeni )

Google+ photo

Komentarišet koristeći svoj Google+ nalog. Odjavite se / Promeni )

Povezivanje sa %s

Create a free website or blog at WordPress.com.

%d bloggers like this: