Minta fejezet – Statisztika – Középszintű

iKurzusok
iFeladatok

Megértés
A középszintű statisztika megértése három részből áll. Először is tisztában kell lenni minden használatos fogalommal, pontos definíciójával és kiszámítási módjával. Másodszor fontos, hogy az adatokat rendszerezni tudjuk, illetve a rendszerezett adatokból ki tudjuk olvasni az értékeket. Ebben az esetben a táblázatokra és diagramokra kell gondolni. Elvárás, hogy a grafikonok alkalmazásának szabályait, illetve a manipulációból eredő torzításokat felismerd és tudd korrigálni. Segítségedre lehet a kapcsolódó két elméleti rész is. A megértés harmadik fázisa már egy kicsit összetettebb, ugyanis érdemes tisztában lenni a mögöttes tartalommal, a nagyságrendi viszonyokkal az egyes mutatók, grafikonok esetén.
Diagramok
A megfelelő diagram kiválasztására egyszerű elveket állíthatunk fel, amelyek a fejezethez kapcsolódó elméleti részben megtalálható. A grafikonok nagy részénél az adatok leolvasása nem okoz problémát, jól teljesítik a velük szembeni elvárást, hogy könnyen adjanak információt. Kivételt képez a box-plot diagram és a hisztogram, ha gyakorisági osztályokat használunk. A box-plot diagramot külön is tárgyaljuk, ezért most csak a osztályba sorolásra és ezek ábrázolására térünk ki. Tekintsünk egy adatsort, az alábbi táblázatban összefoglalt gyakoriságokkal.
IQ pontok
IQ pontszám 97 103 107 109 110 112 115 117 120 122 127
gyakoriság (db) 7 8 10 11 6 7 10 25 24 8 5
Az IQ pontokat szeretnénk osztályokba sorolni, amelyet kétféle módon teszünk meg. Az első esetben 10-es osztályokat hozunk létre, a másodikban pedig 5-ös osztásközt alkalmazunk. Számítsuk ki az átlag IQ pontot a három esetben, azaz a gyakorisági tábla és a két hisztogram alapján. A hisztogramok esetén az osztályközép értékekkel számolunk.
\[ \begin{aligned} \overline{X_1}&=\frac{97\cdot 7+103\cdot 8+107\cdot 10+109\cdot 11+110\cdot 6+112\cdot 7+1115\cdot 10+117\cdot 25+120\cdot 24+122\cdot 8+127\cdot 5}{121}=113,901\\ \overline{X_2}&=\frac{95\cdot 7+105\cdot 29+115\cdot 48+125\cdot 37}{121}=114,504\\ \overline{X_3}&=\frac{97,5\cdot 7+102,5\cdot 8+107,5\cdot 21+112,5\cdot 13+117,5\cdot 35+122,5\cdot 32+127,5\cdot 5}{121}=114,814\\ \end{aligned}\notag \]
Természetesen \(\overline{X_1}\) értéke a legpontosabb, mert azokat az alapadatokból számítottuk ki. A másik két átlag már az osztályba sorolás, és az osztályokhoz kapcsolódó gyakoriság alapján lett kalkulálva, az osztályközepeket tekintve átlagértéknek.
Box-plot diagram
A fentiekre példaként a box-plot diagramot és a középértékeket nézzük át egy részletesebben. A box-plot diagram egy szemléletes módja annak, hogy a sorba rendezett adatokat négy részre vágjuk, amelyek a kvartilisek által kerülnek elválasztásra. Áttekinthetővé válik a teljes terjedelem, illetve a minta középső 50%-nak a terjedelemhez viszonyított nagysága és helyzete. Azonban a box-plot diagramból nem tudunk az egyes adatokra, azok átlagára vagy szórására vonatkozó pontos következtetéseket levonni.
Középértékek
A számtani átlag, a módusz és a medián olyan középértékek, amelyeket könnyen ki tudunk számítani, bár mindháromnak vannak kisebb nagyobb hiányosságai, és persze előnyei is a többihez képest. Vegyük sorra ezeket. Az átlag minden adatot tartalmaz, bár helyzete nagyban függ a szélsőséges értékektől, érzékeny ha kiugróan nagy vagy kicsi értékeket tartalmaz a minta. A módusz nagy előnye, hogy minőségi ismérvek esetén is használható, azonban segítségével csak a leggyakoribb elemekről kapunk képet, a többi értéket lényegében figyelmen kívül hagyjuk. Hátránya még, hogy nem egyértelmű, egy adatmintának lehet több módusza is, amely ha 2-nél több, akkor lényegében nem is javasolt ennek a mutatónak a használata. Végül a mediánt nézzük meg. Definíciójából következik, hogy középen helyezkedik el, de csak sorba rendezett adatok esetén tudjuk értelmezni, és az átlaghoz hasonlóan csak mérhető tulajdonságok esetén használható.
A feladatokban előfordul, hogy valamelyik statisztikai mutató, vagy grafikon ismeretében kell meghatározni a többi adat ismeretlen értékeit. Ilyen esetekben fontos, hogy ismerjük az adott mutató tulajdonságait.
Az átlag esetén például ki lehet használni, hogy ha az adatokat úgy osztjuk csoportokba, hogy mindegyik átlaga megegyezzen, akkor a teljes minta átlaga is ez az érték lesz. Természetesen ha ez nem sikerül, akkor ennek ellenére képezhetünk csoportokat és azok súlyozott átlagát vesszük a teljes minta átlagának meghatározásához. \[ \begin{aligned} 23;\,\underbracket{\mathop{22,7}^{-0,3};\,\mathop{23,3}^{+0,3}}{\text{\’atlaga: 23}};\,\underbracket{\mathop{22,9}^{-0,1};\,\mathop{23,2}^{+0,2};\,\mathop{22,9}^{-0,1}}{\text{\’atlaga: 23}} \end{aligned}\notag \] Ha a móduszt ismerjük, és szeretnénk a minta többi lehetséges elemét meghatározni, akkor nagy szabadságunk van, csak azt kell figyelembe venni, hogy a módusz értékéből legyen a legtöbb. A medián képzése más páros vagy páratlan sok adat esetén, azonban mindkét esetben közös, hogy ha készítünk egy képzeletbeli adatsorrendet, akkor ezzel középen kettévágjuk, és a két részbe a középső (vagy páros minta elemszám esetén a két középső átlaga) kivételével tetszőleges értékeket írhatunk figyelembe véve a nagyságrendi elvárásokat (az így kapott sorozat növekvő).
\(\mathit{Feladat}\)
Egy diák statisztika tanulmányai elején azt a feladatok kapta, hogy készítsen felmérést a környezetében élők moziba járási szokásairól. A szorgalmas adatgyűjtés eredményeként 80 családról tudjuk, hogy az elmúlt hónapban hányszor voltak moziban. Sajnos a grafikon választás nem volt szerencsés, mivel az adatok box-plot diagramban kerültek ábrázolásra. Amikor az iskolában kiderült, akkor a tanár lemondóan legyintett mielőtt láthatta volna az ábrát, azonban megnézve a grafikont azt mondta, hogy a választás az egyik legrosszabb volt, de az adatok rekonstruálhatók. Írd le a hibákat, illetve határozd meg, hogy milyen diagram típus lenne megfelelő! A box-plot diagramból rekonstruálhatók az adatok, ábrázold a választott grafikontípussal!
A box-plot diagramot nézve azonnal szembeötlik, hogy szerepel rajta az átlag, amely nem eleme a standard grafikonnak. Szerencsére most jól fog jönni. Olvassuk le az ábráról a szokásos adatokat. \[ \begin{aligned} &\text{minimum \’ert\’ek: }0\\ &\text{als\’o kvartilis: }0,5\\ &\text{medi\’an: }1,5\\ &\text{felső kvartilis: }3,5\\ &\text{maximum \’ert\’ek: }4\\ \end{aligned}\notag \]
Azt biztosan megállapíthatjuk, hogy volt olyan család, akik az elmúlt hónapban nem voltak moziban, illetve 4-szer mentek a legtöbbször. Az elhibázott diagram választás miatt itt meg is rekedhetne az elemzésünk, azonban az a szerencsés helyzet állt elő, hogy mindkét kvartilis és a medián is tört szám, amely csak úgy állhat elő, hogy páros sok elem miatt átlagot kellett számolni. Összesen 80 család adatait vizsgáljuk, így az alsó és a felső kvartisisbe is 20-20 adat kerül. Az alábbi összefüggéseket írhatjuk fel a sorba rendezett adatok esetén, ha az \(i\)-dik adatot \(x_i\)-vel jelöljük. \[ \begin{aligned} x_1 &=0\\ Q_1=\frac{x_{20}+x_{21}}{2} &=0,5\\ Me=\frac{x_{40}+x_{41}}{2} &=1,5\\ Q_2=\frac{x_{60}+x_{61}}{2} &=3,5\\ x_{80}&=4\\ \end{aligned}\notag \] Az értékekre teljesül, hogy \(0\leq x_i\leq 4\), ezért \(Q_1=0,5\) csak úgy teljesülhet, hogy \(x_{20}=0,\, x_{21}=1\). Mivel az adatok sorba lettek rendezve, így ebből már az is következik, hogy az első \(20\) elem \(0\). Hasonlóan az előző gondolatmenethez, belátható, hogy \(Q_3=3,5\) miatt az utolsó \(20\) elem \(4\) és előtte \(3\)-as van, azaz \(x_{60}=3,\,x_{61}=4\). Foglaljuk össze, amit eddig tudunk.
\[ \begin{aligned} \underbrace{0,0,\ldots,0}_{\text{20 darab}},1,x_{22},\ldots,x_{40},Me,x_{41},\ldots,x_{59},3,\underbrace{4,4,\ldots,4}_{\text{20 darab}} \end{aligned}\notag \]
A medián értéke \(Me=1,5\), ami a fentieket is figyelembe véve csak úgy lehet ha \(x_{40}=1,\,x_{41}=2\) (az \(x_{40}=0,\,x_{41}=3\) nem lehet \(x_{21}=1\) miatt).
\[ \begin{aligned} \underbrace{0,0,\ldots,0}_{\text{20 darab}},\underbrace{1,1,\ldots,1}_{\text{20 darab}},2,x_{42},\ldots,x_{59},3,\underbrace{4,4,\ldots,4}_{\text{20 darab}} \end{aligned}\notag \]
Az adatok lehetséges értékei \(0,1,2,3,4\), illetve azt is tudjuk hogy 20-20 család volt, akik az elmúlt hónapban nem voltak moziban, egyszer, vagy négyszer voltak. Tudjuk továbbá, hogy volt olyan család, akik kétszer, és olyan is, akik háromszor voltak moziban. A box-plot diagramból ennél többet nem is tudnánk megállapítani, de szerencsére az ábrán szerepel az átlag is (hibásan, mert ez nem rész a box-plot-nak). Írjuk fel az átlagot úgy, hogy \(x\)-szel jelöljük azok számát, akik \(2\)-szer voltak moziban. Azt tudjuk, hogy összesen \(20\)-an vannak, akikről eddig nem tudtuk megállapítani, hogy hányszor voltak moziban.
\[ \begin{aligned} \frac{20\cdot 0+20\cdot 1+x\cdot 2+(20-x)\cdot 3+20\cdot 4}{80}&=1,875\\ 20+2x+60-3x+80&=150\\ 10&=x \end{aligned}\notag \]
Tehát, \(10\)-en voltak kétszer, és \(10\)-en háromszor moziban az elmúlt hónapban.
\[ \begin{aligned} \underbrace{0,0,\ldots,0}_{\text{20 darab}},\underbrace{1,1,\ldots,1}_{\text{20 darab}},\underbrace{2,2,\ldots,2}_{\text{10 darab}},\underbrace{3,3,\ldots,3}_{\text{10 darab}},\underbrace{4,4,\ldots,4}_{\text{20 darab}} \end{aligned}\notag \]
Nem tudtuk volna egyértelműen megoldani a feladatot, ha az adatok szerkezete nem lett volna ennyire speciális, illetve nem ismertük volna az átlagot. Az ábrázoláshoz a hisztogram lett volna megfelelő (esetleg a kördiagram). A box-plot diagram nem alkalmas osztályok, gyakoriság megjelenítésére, amelyek ismerete fontos a feladatban szereplő adatok elemzésénél. Az alábbi diagramokról minden mutató leolvasható, vagy számítható, amelyet a box-plot diagram mutat. Mindemellett a hisztogram vagy a kördiagram további elemzésekre is alkalmas adatokat tartalmaz, így például az átlag és a szórás is kiszámítható ezek alapján.\(\qquad\square\)

Most kedvező áron az előkészítő csomag

2023 iFeladatok I.

Interaktív feladatok felvételire és emelt szintű érettségire
4.590 Ft 2022/23 tanévre
  • 20 iFeladat automatikus javítással
  • 19 témakör
  • 121 megoldási lépés
  • Megoldássegítő felépítés
  • 2,15 átlagos nehézség (1-3 skálán)
  • A tananyag 2023. június 30-ig érhető el

2023 Emelt szintű
matematika előkészítő

Kidolgozott feladatok felvételire és emelt szintű érettségire
59.900 Ft 2022/23 tanévre
  • 25 kidolgozott témakör
  • Több mint 200 kidolgozott példa
  • 13 interaktív feladatsor
  • 21 elméleti összefoglaló
  • Felkészülés folyamatos követése, naplózása
  • 2024-től érvényes követelményekkel kiegészítve
  • 25 szóbeli tétel - teljes tételsor
  • A tananyag 2023. június 30-ig érhető el

2023 Középszintű matematika kurzusok

Tananyag középszintű matematika felkészüléshez
1.750 Ft 2022/23 tanévre, kurzusonként
  • Témakörönkénti előfizetés
  • Megértést segítő magyarázat
  • Definíciók, tételek
  • Kidolgozott típuspéldák
  • Online feladatok, azonnali javítással
  • Felkészülés folyamatos követése, naplózása
  • 2024-től érvényes követelmények alapján
  • A tananyag 2023. június 30-ig érhető el