Hogyan (és miért) kell használni a Outliers függvényt az Excelben

A kiugró érték olyan érték, amely lényegesen magasabb vagy alacsonyabb, mint az adatok legtöbb értéke. Ha Excelt használ az adatok elemzésére, a kiugró értékek torzíthatják az eredményeket. Például egy adatkészlet átlagos átlaga valóban tükrözheti az Ön értékeit. Az Excel néhány hasznos funkciót kínál a kiugró értékek kezeléséhez, ezért vessünk egy pillantást.

Egy gyors példa

Az alábbi képen a kiugró értékek meglehetősen könnyen észrevehetők – az Eric-hez rendelt kettős, Ryanhez rendelt 173-as érték. Egy ilyen adathalmazban elég könnyű ezeket a kiugró értékeket manuálisan észrevenni és kezelni.

Nagyobb adathalmazban ez nem így lesz. Fontos, hogy képesek legyünk azonosítani a kiugró értékeket, és eltávolítani őket a statisztikai számításokból – és ebben a cikkben ezt vizsgáljuk meg.

Hogyan találhat kiugró értékeket az adatokban

A kiugró értékek megkereséséhez egy adatkészletben a következő lépéseket használjuk:

Számítsd ki az 1. és 3. kvartiliseket (arról egy kicsit beszélünk, hogy ezek miben vannak).
Értékelje az interkvartilis tartományt (ezeket egy kicsit lejjebb is elmagyarázzuk).
Adja vissza adattartományunk felső és alsó határát.
Használja ezeket a határokat a külső adatpontok azonosítására.

Az alábbi képen látható adatkészlet jobb oldalán található cellatartomány fogja ezeket az értékeket tárolni.

Lássunk neki.

Első lépés: Számítsa ki a kvartiliseket

Ha az adatokat negyedekre osztja, mindegyik halmazt kvartilisnek nevezzük. A tartományban lévő számok legalacsonyabb 25%-a alkotja az 1. kvartilist, a következő 25%-a a 2. kvartilist, és így tovább. Először azért tesszük meg ezt a lépést, mert a kiugró érték legszélesebb körben használt definíciója egy olyan adatpont, amely több mint 1,5 interkvartilis tartománnyal (IQR) van az 1. kvartilis alatt, és 1,5 interkvartilis tartományral a 3. kvartilis felett. Az értékek meghatározásához először ki kell találnunk, hogy mik a kvartilisek.

Az Excel egy QUARTILE függvényt biztosít a kvartilisek kiszámításához. Két információ kell hozzá: a tömb és a quart.

=QUARTILE(array, quart)

A tömb az Ön által kiértékelt értéktartomány. A kvartilis egy szám, amely a visszaadni kívánt kvartilist jelöli (pl. 1 az 1. kvartilishez, 2 a 2. kvartilishez stb.).

Megjegyzés: Az Excel 2010 programban a Microsoft kiadta a QUARTILE.INC és a QUARTILE.EXC függvényeket a QUARTILE függvény továbbfejlesztéseként. A QUARTILE visszafelé jobban kompatibilis, ha az Excel több verzióján dolgozik.

Térjünk vissza példatáblázatunkhoz.

Az 1. kvartilis kiszámításához a következő képletet használhatjuk az F2 cellában.

=QUARTILE(B2:B14,1)

Ahogy beírja a képletet, az Excel megadja a quart argumentum opcióinak listáját.

A 3. kvartilis kiszámításához az előzőhöz hasonló képletet írhatunk be az F3 cellába, de egy hármast használunk egy helyett.

=QUARTILE(B2:B14,3)

Most a cellákban megjelennek a kvartilis adatpontok.

Második lépés: Értékelje az interkvartilis tartományt

Az interkvartilis tartomány (vagy IQR) az adatok középső 50%-a. Kiszámítása az 1. kvartilis érték és a 3. kvartilis érték különbségeként történik.

Egy egyszerű képletet fogunk használni az F4 cellában, amely kivonja az 1. kvartilist a 3. kvartilisből:

=F3-F2

Most láthatjuk az interkvartilis tartományunkat.

Harmadik lépés: Adja vissza az alsó és felső határt

Az alsó és felső határ a használni kívánt adattartomány legkisebb és legnagyobb értéke. A korlátos értékeknél kisebb vagy nagyobb értékek a kiugró értékek.

Az F5 cellában az alsó határt úgy számítjuk ki, hogy az IQR értéket megszorozzuk 1,5-tel, majd kivonjuk a Q1 adatpontból:

=F2-(1.5*F4)

Megjegyzés: Ebben a képletben a zárójelek nem szükségesek, mert a szorzórész a kivonási rész előtt számít, de megkönnyíti a képlet olvashatóságát.

Az F6 cella felső határának kiszámításához ismét megszorozzuk az IQR-t 1,5-tel, de ezúttal hozzáadjuk a Q3 adatponthoz:

=F3+(1.5*F4)

Negyedik lépés: Azonosítsa a kiugró értékeket

Most, hogy az összes mögöttes adatot beállítottuk, ideje azonosítani a külső adatpontjainkat – azokat, amelyek alacsonyabbak az alsó határértéknél vagy magasabbak a felső határértéknél.

Használjuk a VAGY funkciót a logikai teszt végrehajtásához és a kritériumoknak megfelelő értékek megjelenítéséhez a következő képlet C2 cellába történő beírásával:

=OR(B2$F$6)

Ezután ezt az értéket a C3-C14 celláinkba másoljuk. A TRUE érték kiugró értéket jelez, és amint látja, adataink között kettő szerepel.

A kiugró értékek figyelmen kívül hagyása az átlagos átlag kiszámításakor

A QUARTILE függvény segítségével számítsuk ki az IQR-t, és dolgozzunk a kiugró érték legszélesebb körben használt definíciójával. Azonban egy értéktartomány átlagos átlagának kiszámításakor és a kiugró értékek figyelmen kívül hagyásakor van egy gyorsabb és egyszerűbb függvény használata. Ez a technika nem azonosítja a kiugró értéket, mint korábban, de lehetővé teszi számunkra, hogy rugalmasak legyünk azzal kapcsolatban, hogy mit tekinthetünk a kiugró résznek.

A szükséges függvény neve TRIMMEAN, és alább láthatja a szintaxisát:

=TRIMMEAN(array, percent)

A tömb az átlagolni kívánt értéktartomány. A százalék az adathalmaz tetejéről és aljáról kizárandó adatpontok százalékos aránya (megadhatja százalékban vagy tizedes értékként).

Példánkban a D3 cellába írtuk be az alábbi képletet az átlag kiszámításához és a kiugró értékek 20%-ának kizárásához.

=TRIMMEAN(B2:B14, 20%)

Itt két különböző funkciója van a kiugró értékek kezelésére. Akár bizonyos jelentéskészítési igényekhez szeretné azonosítani őket, akár kizárni őket a számításokból, például az átlagokból, az Excel rendelkezik az Ön igényeinek megfelelő funkcióval.