Ismerje meg a főbb sémát: Star vs. Snowflake

A többdimenziós séma adattárház-rendszermodell felépítésére szolgál.

Ezeknek a sémáknak a fő célja az elemzési célokra (OLAP) épített nagyobb adatbázisok igényeinek kielégítése.

Ezt a módszert az adatbázisban lévő adatok rendezésére használják az adatbázis tartalmának megfelelő elrendezésével. A séma lehetővé teszi az ügyfelek számára, hogy kérdéseket tegyenek fel az üzleti vagy piaci trendekkel kapcsolatban.

Ezenkívül egy többdimenziós séma az adatokat adatkockák formájában ábrázolja, amelyek lehetővé teszik az adatok megtekintését és modellezését különböző perspektívákból és dimenziókból.

Három típusa van, de sokan összekeverik a csillagot és a hópehelyet. Emiatt nehéz lesz kiválasztani a megfelelő modellt.

Ha Ön is közéjük tartozik, beszéljük meg a csillag- és hópehely-séma közötti különbségeket, kezdve a definícióval és megértve előnyeiket, kihívásaikat, diagramjukat és jellemzőit.

Tartalomjegyzék

Mi az a többdimenziós séma?

A séma egy teljes adatbázis és adatpiacok logikai leírására utal. Tartalmazza a rekordok nevét és leírását, beleértve az aggregátumokat és a kapcsolódó adatelemeket.

Az adatbázisok általában relációs modellt használnak a leíráshoz, míg az adattárházrendszerek sémamodellt használnak.

A többdimenziós séma a Data Mining Query Language (DMQL) segítségével definiálható.

Az adatpiacok és adattárházak meghatározásához két primitívet használ – a dimenziódefiníciót és a kockadefiníciót.

A többdimenziós séma különböző típusú sémamodelleket használ. Ők:

Csillag séma
Hópehely séma
Galaxis séma

Beszéljük meg, mi a csillag és a hópehely séma.

Star vs. Snowflake: Mik ezek?

Mi az a Star Schema?

A csillagséma olyan architekturális adattárolási és üzleti intelligencia modell, amely egyetlen ténytáblázatot igényel a mért és tranzakciós adatok tárolásához. Különböző kisebb dimenziós táblákat is használ az üzleti adatok attribútumainak tárolására.

Felépítése szerint nevezték el. Mint egy csillag, a ténytáblázat a diagram közepén helyezkedik el, a kis méretű táblázatok pedig ágakként helyezkednek el a középső asztalon, és csillagszerű szerkezetet alkotnak.

Minden csillagséma egyetlen ténytáblázatból, de több kisméretű táblázatból áll. A ténytáblázatok konkrét, mérhető adatokat tartalmaznak, amelyeket elemezni kell, például naplózott teljesítményt, pénzügyi adatokat vagy értékesítési rekordokat. Ez lehet egy pillanatnyi előzményadat vagy egy tranzakció.

Sőt, a Star séma a legegyszerűbb és legalapvetőbb az adattárházak és az adatpiaci sémák között. Hatékonyan kezeli az alapvető lekérdezéseket. A csillagséma általában támogatja az üzleti intelligenciát, az ad hoc lekérdezéseket, az elemző alkalmazásokat és az online analitikai feldolgozási kockákat.

Adjon hozzá egy térképet offline területekhez a Google Térképen, és használja, amikor nincs internet

A csillagséma számos rekord számának, átlagának, összegének és egyéb összesítését is támogatja. A felhasználók egyszerűen szűrhetik és csoportosíthatják az aggregációkat dimenziók szerint. A felhasználók például olyan lekérdezéseket generálnak, mint „keresse meg az összes értékesítési rekordot júniusban” vagy „elemezze az XYZ-iroda teljes bevételét 2022-ben”.

Mi az a hópehelyséma?

A hópehelyséma egy többdimenziós adatmodell, amely a csillagséma kiterjesztéseként is ismert. Ennek az az oka, hogy a hópehely-séma dimenziótáblázatai aldimenziókra bomlanak.

A séma hópehely, ha egy vagy több dimenziótábla nem kapcsolódik közvetlenül a ténytáblához, hanem más dimenziótáblákon keresztül kapcsolódik.

A hópelyhek egy olyan jelenség, amely normalizálja a dimenziótáblákat egy csillagsémában. Ha az összes dimenziótáblát normalizálja, az eredményül kapott struktúra egy hópehelyhez hasonlít, amely a struktúra közepén egy ténytáblázatot tartalmaz.

Egyszerűen fogalmazva, a hópehely séma egy ténytáblából áll a modell közepén, amely a dimenziótáblákhoz kapcsolódik, amelyek ismét más dimenziótáblákhoz vannak kapcsolva. Ez a séma a lekérdezések teljesítményének javítására szolgál.

A modell az összetett kapcsolatok és dimenziók közötti gyors, rugalmas lekérdezéshez készült. Hasznos egy-sok és sok-sok kapcsolat számára a különböző dimenziós szintek között.

A több normalizálási szabvány szigorúbb betartása miatt nagyobb tárolási hatékonyságot érhet el. Az adatredundancia azonban elhanyagolható, és a teljesítmény alacsony a denormalizált adatmodellekhez, például a csillagsémához képest.

Star vs. Snowflake: Hogyan működnek?

Hogyan működik a Star Schema?

A csillagmodell közepén található ténytáblázat kétféle információt tárol – numerikus és dimenziós attribútumértékeket. Értsük meg őket egy értékesítési adatbázis példájával.

A numerikus értékek minden sorhoz és adatponthoz egyediek. Ez nem kapcsolódik a másik sorban tárolt adatokhoz. Ezek egy adott tranzakcióval kapcsolatos tények, például teljes összeg, rendelési mennyiség, pontos idő, nettó nyereség, rendelésazonosító stb.
A dimenziós attribútumértékek nem tárolnak közvetlenül adatokat, hanem egy dimenziós táblázatban tárolják a sor idegen kulcsértékeit. A középső tábla különböző sorai hivatkoznak erre az információra, például adatértékre, értékesítői azonosítóra, fiókirodai azonosítóra, termékazonosítóra stb.

A dimenziótáblázatok mindig a ténytáblázatból tárolnak alátámasztó információkat. Minden dimenziótábla egy ténytábla oszlopához kapcsolódik egy dimenzióértékkel együtt, és további adatokat tárol az értékről.

Példa: Az alkalmazotti dimenziótábla kulcsértékként használja az alkalmazotti azonosítót, és olyan információkat is tartalmaz, mint a név, nem, cím és telefonszám. Hasonlóképpen, a termékdimenziós táblázat információkat tárol, beleértve a termék nevét, színét, a piacra jutás első dátumát, a gyártási költséget stb.

Hogyan működik a hópehelyséma?

Gondoljon egy hópehely kialakításra egy központi dobozzal és a dobozon keresztül a különböző pontokhoz vezető különböző csatlakozásokkal. Az adatpiacok és adattárházak karbantartásához a hópehelyséma kialakítása kerül a képbe.

Hasonló a csillagsémához, de apró változtatásokkal. A csillagsémától eltérően a hópehelyséma kiterjeszti az aldimenziós táblázatait, amelyek dimenziótáblázatokhoz vannak kapcsolva.

Ennek a modellnek az elsődleges célja a csillagmodell denormalizált információinak normalizálása. Így megoldhatja a csillagsémával kapcsolatos gyakori problémákat.

Hogyan távolítsuk el az összes formázást a vágólapról egy billentyűparancs segítségével

A séma középpontjában egy ténytáblázat található, amely a dimenziótáblázatokban található információkhoz kapcsolódik. Ezek a táblázatok ismét kifelé sugároznak az aldimenziós táblázatok felé, amelyek részletes információkkal rendelkeznek a dimenziótábla információit leíró.

Példa: A hópehely séma értékesítési ténytáblázatot és üzlethelyiség-, vonal-, család-, termék- és idődimenzió-táblázatot tartalmaz. A piaci dimenziók két dimenziótáblából állnak, amelyekben az üzlet elsődleges dimenziótábla, az üzlet helye pedig aldimenziós táblázat. A termékdimenzió három aldimenziós táblázattal rendelkezik, amelyek megemlítenek egy terméket, vonalat és család aldimenziós táblázatot.

Star vs. Snowflake: Jellemzők

A Star Schema jellemzői

A Star séma képes kiszűrni az adatokat a normalizált adatokból, hogy megfeleljen az adattárházi igényeknek. Az egyedi kulcsot az egyes ténytáblázatokhoz tartozó kapcsolódó információkból állítják elő az egyes sorok azonosítása érdekében.
Gyors számításokat és aggregációkat biztosít, például a megszerzett bevétel bevételét és az összes eladott tételt minden hónap végén. Ezek a részletek az igények szerint szűrhetők megfelelő lekérdezések keretezésével.
Ez az események mérése, amely az idegen kulcsból álló véges számértékeket tartalmazza. Ezek a kulcsok a mérettáblázatokhoz kapcsolódnak. Különféle típusú ténytáblázatok léteznek, amelyek atomi szintű értékekkel vannak keretezve.
A tranzakció ténytáblája konkrét eseményekre, például értékesítésekre és ünnepnapokra vonatkozó adatokat tartalmaz.
A rögzítési tények adott időszakokat tartalmaznak, például a számlainformációkat az év végén vagy minden negyedévben.
A mérettáblázat részletes adatokat ad a középső táblában található attribútumokról vagy rekordokról.
A felhasználó saját igényei szerint tud asztalt tervezni.
A csillagsémát használhatja pillanatkép-táblázatok összegyűjtésére.

A hópehelyséma jellemzői

A hópehelyséma kis lemezterületet igényel.
Ez a modell könnyen megvalósítható a különálló és a fő mérettáblázatoknak köszönhetően.
A dimenziótáblázatok legalább két attribútumot tartalmaznak több szemcsés információ meghatározásához.
A több tábla miatt a teljesítmény alacsony a csillagsémához képest.
A hópehelyséma rendelkezik a legmagasabb adatintegritási szinttel és a normalizálás miatt alacsony redundanciával.

Star vs. Snowflake: Előnyök

A Star Schema előnyei

A csillagséma a legegyszerűbb módja az adatpiaci sémák közül.
Egyszerű jelentési logikával rendelkezik. Ez a logika dinamikusan érvényesül.
Úgy tervezték, hogy az online tranzakciós folyamaton keresztül alkalmazott adagolókockákat használjon, hogy a kockák hatékonyan és eredményesen működjenek.
A csillagséma egyszerű logikával és lekérdezésekkel van kialakítva, amelyek könnyen kinyerhetők a tranzakciós folyamatból.
Fokozott teljesítményt kínál a jelentéskészítő alkalmazások számára.
Az adatok gyors helyreállításának szabályozására szolgál.
A szűrt és kiválasztott információk könnyen alkalmazhatók különböző esetekben.

A hópehely séma előnyei

A Star sémát a lekérdezés teljesítményének fejlesztésére használják a kevesebb lemeztárolási követelmény miatt.
Nagyobb skálázhatóságot kínál az összetevők és a dimenziószintek közötti kapcsolatokban.
Könnyebb karbantartani.
A Star séma gyors adatlekérést tesz lehetővé.
Ez egy általános és egyszerű adatséma adattárházhoz.
Segít javítani az adatminőséget.
A strukturált adatok csökkentik az adatintegritás problémáját.

OLED képernyő beégés: Mennyire kell aggódnia?

Star vs. Snowflake: Korlátozások

A Star Schema korlátai

Magas denormalizált és integritási állapota van. A teljes folyamat összeomlik, ha a felhasználó nem frissíti az adatokat. A biztonság és a védelem is korlátozott. Ráadásul a csillagséma nem olyan rugalmas, mint az analitikus modell. Nem nyújt hatékony támogatást a különféle kapcsolatokhoz.

A hópehelyséma korlátai

A Snowflake fő korlátja a kisméretű táblázatok növekvő száma miatti további karbantartási erőfeszítések. Sok összetett lekérdezés megnehezíti a szükséges adatok megtalálását. Ráadásul a kérdés megvalósítási ideje magas a magasabb táblák miatt. Ez a modell is merev, és magasabb karbantartási költségeket igényel.

Star vs. Snowflake: Különbségek

A Csillag és a Hópehely a többdimenziós séma típusai, de eltérő szerkezettel és tulajdonságokkal rendelkeznek. Az előbbi olyan, mint egy csillag, az utóbbi pedig egy hópehelyre emlékeztet, meghatározva a nevüket.

A csillagsémában csak egyetlen csatlakozás hoz létre kapcsolatot a központi ténytábla és az oldalsó dimenziótáblák között. Másrészt a hópehely sémában több összekapcsolásra van szükség a mérettáblázatokhoz való hivatkozáshoz.

A csillagsémát általában akkor használják, ha kevesebb sor van a dimenziótáblában, míg a hópehely sémát akkor használják, ha a dimenziótábla viszonylag nagy.

Az alábbi diagram megkülönbözteti a két modellt, valamint azt, hogy a dimenziótáblázatok és a ténytáblázat hogyan kapcsolódnak össze különböző sémákban.

ParaméterekStar SchemaHópehely sémaDisk spaceStar séma több lemezterületet használ.A hópehely séma kevesebb lemezterületet használ.AdatredundanciaMagas adatredundancia.Alacsony adatredundanciával rendelkezik.NormalizálásA dimenziótáblák denormalizáltak, ami azt jelenti, hogy ugyanazt az értéket kell megismételni a táblán belül. teljesen normalizált.A lekérdezés teljesítményeA lekérdezések végrehajtása minimális időt vesz igénybe, ami jobb teljesítményt eredményez.A lekérdezés végrehajtása több időt vesz igénybe, mint a csillagséma, így kevésbé teljesít, mint a csillagséma.Lekérdezés összetettségeA lekérdezés összetettsége alacsony.A lekérdezés összetettsége magasabb, mint a csillagséma.KarbantartásA nagy adatredundancia miatt a csillagséma fenntartása kissé nehézkes.Az alacsony adatredundancia miatt könnyen karbantartható és módosítható a hópehelyséma.Az adatok integritása Az adatok integritása magas, mert az adatokat redundánsan tárolják, ahol többszörös példányok léteznek a dimenziótáblákban. Az adatok integritása alacsony, mivel teljesen normalizálja a dimenziótáblákat. Hierarchiák A csillagséma dimenziótábláinak hierarchiái a dimenziótáblában vannak tárolva.A hierarchiák külön dimenziótáblákra vannak osztva.DB-tervezésEgyszerű DB-tervezés.Nagyon összetett DB-tervvel rendelkezik.Ténytáblázat Több dimenziótáblázat vesz körül egy ténytáblát. A ténytáblázatot dimenziótáblák veszik körül, amelyeket szintén aldimenziós táblázatok vesznek körül. A Set upStar séma könnyen megtervezhető és beállítható, mivel a közvetlen kapcsolatok képviselik őket. Másrészt a hópehelyséma beállítása kissé bonyolult. A kocka feldolgozása A kocka feldolgozása gyorsabb. Az összetett összekapcsolás miatt a kocka feldolgozása kissé lassú. Idegen kulcsokMinimális számú idegen kulcsot tartalmaz. Maximális számú idegen kulcsot tartalmaz.

Következtetés

Mind a Star, mind a Snowflake séma hasznos a különböző szektorokban. Tehát az igényeik alapján kell eldönteni, melyik a jobb közülük.

A hópehelyséma a csillagséma kiterjesztése, ahol normalizálja a csillagséma dimenziótábláit.

A csillagséma egyszerű kialakítású, gyorsabban futtatja a lekérdezéseket, és egyszerű a beállítás. Másrészt a hópehelyséma könnyebben karbantartható, kevesebb lemezterületet foglal el, és kevésbé hajlamos az adatintegritási problémákra.

Tehát egy csillagséma lehet a jobb megoldás, ha egyszerű kialakításra, kevesebb idegen kulcsra és gyorsabb kockafeldolgozásra van szüksége. De ha kevesebb lemezterületre, alacsony adatintegritásra és alacsony karbantartási igényre van szüksége, a hópehelyséma megfelelőbb lehet.

Megtalálhat néhány legjobb gráf adatbázis-megoldást is.