
Box-Plot diagram
A sodrófa diagram vagy angol nevén box plot egy statisztikai grafikon, amelyet leggyakrabban egy adathalmaz eloszlásának szemléltetésére használnak. Egyszerű, de hatékony eszköz arra, hogy az adatok eloszlásának változását, szóródását és esetleges kiugró értékeit ábrázolja. Elsősorban kvantitatív, numerikus adatok jellemzésére alkalmazzák.
A sodrófa diagram felépítése és elemei
A sodrófa diagram több fontos elemből áll, amelyek segítségével az adatok eloszlását és a kiugró értékeket tudjuk megjeleníteni. Az egyes elemek jelentése az alábbi:
1. Medián (középső vonal a dobozban): A doboz belsejében található vízszintes vonal az adathalmaz mediánját (az 50. percentilist) jelzi. Ez az érték két egyenlő részre osztja az adatokat: az adatok fele ennél kisebb, a másik fele ennél nagyobb.
2. Első és harmadik kvartilis (Q1 és Q3): A doboz alsó oldala az első kvartilis (Q1, az adatok kb. 25%-a alatta van), míg a felső oldala a harmadik kvartilis (Q3, az adatok kb. 75%-a alatta van). Ez a két érték az adatok középső kb. 50%-ának eloszlását határozza meg, ezt nevezzük interkvartilis tartománynak (IQR – Interquartile Range).
3. Interkvartilis tartomány (IQR): Az IQR az adatok szóródásának egyik fontos mutatója, és a Q3 és Q1 közötti különbséget jelenti. Ez jelzi, hogy az adatok középső 50%-a milyen széles tartományban helyezkedik el. Matematikailag:
\[
IQR = Q3-Q1\notag
\]
4. Alsó és felső határvonalak (whiskerek): Az alsó és felső határvonalak a diagram „sodrófa” részei, amelyek a Q1 és Q3 értékekhez viszonyítva kerülnek meghatározásra. A határvonalak hossza általában 1,5-szerese az IQR-nek, vagyis a whiskerek a következő értékekig terjednek:
\[
\begin{aligned}
\text{Als\’o hat\’arvonal}\\ Q1 – 1,5 \times IQR
\end{aligned}\notag\]
\[\begin{aligned}\text{Fels\Hooe \;hat\’arvonal}\\
Q3 + 1,5 \times IQR
\end{aligned}\notag
\]
Ezek az értékek mutatják az adatok „szokásos” tartományát. Az ebbe a tartományba eső értékeket a rendszer normálisnak tekinti.
Az alsó határvonal értékét az adathalmazból választjuk, amely a \(Q1-1,5\times IQR\) érték alattiak közül a legnagyobb.
A felső határvonal értékét az adathalmazból választjuk, amely a \(Q3+1,5\times IQR\) érték felettiek közül a legkisebb.
5. Kiugró értékek: Az alsó és felső határvonalakon kívül eső adatok kiugrónak (outlier) számítanak. Ezeket a diagramon külön pontokkal szokták jelölni. Kétféle kiugró értéket különböztetünk meg:
– Kiugró értékek: Azok az értékek, amelyek a \(Q1 – 1,5 \times IQR\) és \(Q1 – 3 \times IQR\) közé esnek (alsó tartomány), illetve a \(Q3 + 1,5 \times IQR\) és \(Q3 + 3 \times IQR\) közötti (felső tartomány). Ezeket általában kisebb körökkel jelölik.
– Extrém értékek: Azok az értékek, amelyek a \(Q1 – 3 \times IQR\) alatti vagy \(Q3 + 3 \times IQR\) feletti tartományba esnek. Ezek már extrém kiugrásoknak számítanak, és általában nagyobb vagy más szimbólummal jelennek meg.
Sodrófa diagram előnyei
A sodrófa diagram legnagyobb előnye abban rejlik, hogy könnyen érthető és kompakt formában képes bemutatni egy adathalmaz legfontosabb jellemzőit.
– Eloszlás szemléltetése: A medián, kvartilisek és interkvartilis tartomány gyors áttekintést ad az adatok eloszlásáról.
– Szélsőséges értékek azonosítása: A kiugró és extrém értékek gyorsan felismerhetők a sodrófa diagramon.
– Összehasonlíthatóság: Több csoport adatait egymás mellé helyezve könnyen összehasonlíthatók az adathalmazok eloszlása és szóródása.
– Tömör megjelenítés: Nagy adathalmazok esetében is áttekinthető, könnyen olvasható ábrázolást nyújt.
Sodrófa diagram hátrányai
– Nincs részletes eloszlás: Bár a diagram az eloszlás néhány alapvető statisztikai jellemzőjét mutatja, nem mutatja a teljes eloszlás formáját (pl. nem derül ki, hogy az adatok normális vagy bimodális eloszlásúak-e).
– Átlag nincs ábrázolva: Az átlag értékét nem mutatja meg a diagram, ami néha fontos lehet egy adathalmaz megítéléséhez.
– Nem jól alkalmazható kis adathalmazokra: Kis adatszám esetén a kvartilisek nem adnak kellően informatív képet, így más típusú diagramok hasznosabbak lehetnek.
A dobozdiagram (sodrófa diagram) széles körben alkalmazható különböző tudományterületeken és iparágakban, mivel kompakt és informatív módon ábrázolja az adatok eloszlását és a kiugró értékeket. Néhány érdekes alkalmazási terület:
1. Oktatás és hallgatói teljesítmény értékelése
Az iskolák és egyetemek felhasználhatják a dobozdiagramokat a hallgatói eredmények elemzésére. Például egy vizsga pontszámait meg lehet jeleníteni dobozdiagramon, hogy lássuk a teljesítmény eloszlását, az átlagos eredményeket, valamint azokat a diákokat, akik kiugróan jó vagy gyenge eredményt értek el.
2. Orvosi kutatások és klinikai vizsgálatok
Az egészségügyi kutatások során, például egy új gyógyszer tesztelésekor, a dobozdiagramok használhatók a betegek egyes jellemzőinek (pl. vérnyomás, vércukorszint) eloszlásának ábrázolására. Ezek segítségével megfigyelhető, hogy a gyógyszer hatása hogyan változik a különböző páciensek esetében, illetve könnyen felismerhetők az extrém reakciók.
3. Pénzügyi adatelemzés
A pénzügyi szektorban a dobozdiagramokat gyakran használják árfolyamok, hozamok vagy vállalati teljesítmény változásainak vizsgálatára. Egy adott részvény árfolyamának eloszlása vagy egy befektetési portfólió hozamainak szóródása dobozdiagrammal könnyen áttekinthető, és azonnal láthatók a szokatlan ingadozások vagy kiugró értékek.
4. Gyártás és minőségellenőrzés
A gyártásban a dobozdiagramokat használják a termékminőség elemzésére és ellenőrzésére. Például a gyártott alkatrészek méreteinek vagy a gyártási folyamat különböző mérőszámainak szóródását ábrázolhatják. Ez segít azonosítani, ha egy gyártási tétel túl nagy eltéréseket mutat, vagy ha néhány termék kiugróan eltér a specifikációtól.
5. Időjárás- és környezetvédelmi adatok elemzése
A meteorológusok és környezetvédelmi szakemberek gyakran használják a dobozdiagramokat a hőmérsékleti, csapadék- vagy levegőszennyezettségi adatok ábrázolására. Például egy adott időszak hőmérsékleti adatait vizsgálva megfigyelhetik az átlagos hőmérsékletet, a szélsőséges hideg és meleg napokat, valamint a kiugró időjárási jelenségeket.
6. Piackutatás és fogyasztói elégedettség
A piackutatásban a dobozdiagramokat használják különböző termékek vagy szolgáltatások értékelésekor. A felhasználói vélemények eloszlását könnyen ábrázolhatjuk dobozdiagrammal, ami segít megérteni, hogy mennyire változó az ügyfelek elégedettsége, és melyik pontszámokat adták többségében.
7. Sportteljesítmény elemzése
Sportelemzők dobozdiagramokat használhatnak a sportolók teljesítményének vizsgálatára. Például egy futballcsapat játékosainak átlagos futóteljesítménye vagy egy versenyző sorozatos eredményei ábrázolhatók, ami segíti a kiugróan jó vagy gyenge teljesítmények azonosítását.
8. Társadalomtudományok és pszichológiai kutatások
A szociológiai és pszichológiai kutatások során a dobozdiagramokat használják például a kérdőívek eredményeinek vagy a viselkedésminták eloszlásának bemutatására. A diagram segítségével a kutatók könnyebben észreveszik, ha egyes válaszadók szélsőséges nézeteket képviselnek, vagy ha bizonyos csoportok átlagos értékei eltérnek egymástól.
Az alábbiakban egy példát mutatunk be, amelynek adatai tetszőlegesen változtathatóak, így saját adatokon is használható. Egy adathalmazból négyféle dobozdiagramot készítünk, különböző tulajdonságokat kiemelve, illetve egyszerűsítéseket alkalmazva.
- Az első diagram egy pontdiagram és egy sodrófa diagram kombinációja. Az egyes adatokat pontfelhő mutatja, amely segít értelmezni az eloszlást. A kiugró és az extrém értékeket jelöltük, de nem különböztettük meg őket.
- A második diagramon nem jelöltük a kiugró és az extrém értékeket, minden adatot figyelembe vettünk a sodrófa diagram elkészítésekor.
- A harmadik diagramon az kiugró és az extrém értékeket külön színnel jelöltük
- A negyedik diagram csak abban tér el az előzőtől, hogy a kiugró és extrém értékeket nem jelöltük külön színnel.