Amit nem tudtál az AWS ragasztóról

Az Amazon Glue egyre népszerűbb, mert sok cég elkezdte használni a menedzselt adatintegrációs szolgáltatásokat.

Az ETL egy olyan folyamat, amely adatokat továbbít egy forrásadatbázisból egy adattárházba. Az ETL összetett és bonyolultsága miatt nehezen implementálható minden vállalati adat esetében. Az Amazon bemutatta az AWS Glue-t a probléma megoldására.

Az ETL-fejlesztők és adatmérnökök a Glue-t használják az ETL-munkafolyamatok létrehozására, figyelésére és futtatására.

Mi az AWS ragasztó?

Az AWS Glue, egy kiszolgáló nélküli adatintegrációs szolgáltatás, amely megkönnyíti a több forrásból származó adatok megtalálását, előkészítését, mozgatását és integrálását. Ez hasznos a gépi tanuláshoz (ML) és az elemzéshez.

Jelentősen lecsökkenti az adatok elemzésre való előkészítéséhez szükséges időt. Automatikusan megkeresi és listázza az adatokat, Scala vagy Python kódot generál az adatok forrásból való továbbításához, valamint betölti és átalakítja a munkát az időzített eseményeknek megfelelően.

Ez rugalmas ütemezést tesz lehetővé, és olyan Apache Spark környezetet hoz létre, amely méretezhető a célzott adatbetöltéshez. Ezenkívül az AWS Glue komplex adatfolyam-felügyeletet és -módosítást biztosít. Az AWS Glue egy szerver nélküli szolgáltatás, amely leegyszerűsíti az alkalmazásfejlesztés bonyolult műveleteit.

Lehetővé teszi több érvényes adat gyors integrálását. Ezenkívül gyorsan lebontja és engedélyezi az adatokat.

Mire használható az AWS ragasztó?

Fontos tudni, hogy hol lehet legjobban használni az Amazon Glue-t. Ez csak néhány példa az AWS ragasztó használatára, amelyet érdemes megfontolni.

  • A Glue egy olyan eszköz, amely lehetővé teszi szerver nélküli lekérdezések futtatását az Amazon S3 adattókon. Az Amazon Glue nagyszerű eszköz az induláshoz. Egy interfészen elérhetővé teszi az összes adatot, lehetővé téve az elemzést anélkül, hogy át kellene őket helyezni.
  • Az Amazon Glue használható az adatvagyon megértéséhez. Az Amazon Glue megkönnyíti a különböző AWS-adatkészletek közötti keresést az adatkatalógus használatával. Az adatkatalógus használatával több AWS-szolgáltatásban is mentheti az adatokat, miközben továbbra is egységes nézetet biztosít.
  • A ragasztó hasznos lehet eseményvezérelt ETL-munkafolyamatok felépítésénél. ETL-műveleteit az Amazon S3-ból hajthatja végre, ha meghívja a Glue ETL-feladatokat egy AWS Lambda szolgáltatáson keresztül.
  • Az AWS Glue az adatok tisztítására, ellenőrzésére, formázására és rendszerezésére is használható adattóban vagy raktárban való tárolás céljából.

Mik az AWS ragasztó összetevői?

Az alábbiakban bemutatjuk az AWS ragasztó fő összetevőit:

  • Adatkatalógus: Ez az adatkatalógus metaadatokat és adatstruktúrát tartalmaz.
  • Adatbázis: Ez a kulcs a források és célpontok adatbázisának eléréséhez és létrehozásához.
  • Táblázat: Hozzon létre egy vagy több táblát az adatbázisban, amelyeket a cél és a forrás egyaránt használhat.
  • Bejáró és osztályozó: A bejáró beépített vagy egyéni besorolások használatával kéri le az adatokat a forrásból. Előre meghatározott metaadattáblázatokat hoz létre/használ az adatkatalógusban.
  • Munka: Ez az üzleti logika feladata egy ETL feladat elvégzésére. Ezt az üzleti logikát belsőleg az Apache Spark írja python és scala nyelvek használatával.
  • Trigger: Az ETL trigger egy olyan eszköz, amely igény szerint vagy egy adott időpontban elindítja egy ETL-feladat végrehajtását.
  • Fejlesztési végpont: Ez egy olyan környezetet hoz létre, amelyben az ETL-feladatszkript tesztelésre, fejlesztésre és hibakeresésre kerül.
  A Dropbox használata Linuxon

Az AWS ragasztó előnyei

Ezek a munkahelyen vagy szervezeten belüli használat előnyei.

  • Az AWS Glue minden elérhető adatot átvizsgál egy bejáróval.
  • A végső feldolgozott adatok sok helyen tárolhatók (Amazon RDS és Amazon Redshift, Amazon S3 stb.
  • Ez egy felhő alapú szolgáltatás. Nem kell pénzt költeni a helyszíni infrastruktúrákra.
  • Mivel ez egy szerver nélküli ETL, költséghatékony választás.
  • Ez gyors. Azonnal megadja a Python/Scala ETL kódot.

Az AWS ragasztó legfontosabb tulajdonságai?

Az Amazon Glue minden olyan funkcióval rendelkezik, amelyre szüksége van az adatok integrálásához, így jobb betekintést nyerhet, és tudását hónapok helyett percek alatt új fejlesztésekre használhatja. Íme néhány olyan funkció, amelyet tudnia kell.

  • Fogd és vidd interfész: A fogd és vidd feladatszerkesztővel ETL-folyamatokat hozhat létre. Az AWS Glue azonnal elkészíti az adatok kinyeréséhez, konvertálásához és feltöltéséhez szükséges kódot.
  • Automatikus sémafelderítés: Különböző adatforrásokhoz csatlakozó bejárók létrehozásához használhatja a Glue szolgáltatást. Rendszerezi az adatokat és kivonja a releváns információkat. Ezek az adatok ezután felhasználhatók az ETL-folyamatok ETL-feladatok általi figyelésére.
  • Munkaütemezés: A ragasztó igény szerint vagy ütemezett ütemezés szerint használható. Az ütemező használható összetett ETL-folyamatok felépítésére, függőségek létrehozására a feladatok között.
  • Kódgenerálás: A Glue Elastic Views lehetővé teszi, hogy egyszerűen olyan materializált nézeteket hozzon létre, amelyek kombinálják és replikálják a különböző adatforrásokból származó adatokat anélkül, hogy saját kódot kellene írnia.
  • Beépített gépi tanulás: A Glue egy „FindMatches” nevű beépített gépi tanulási funkcióval rendelkezik. Deduplikálja azokat a rekordokat, amelyek nem tökéletes másolatai egymásnak.
  • Fejlesztői végpontok: Ha aktívan szeretné fejleszteni ETL-kódját, a Glue olyan fejlesztői végpontokat biztosít, amelyek lehetővé teszik az általa létrehozott kód módosítását, hibakeresését és tesztelését.
  • Glue DataBrew: Ez egy adat-előkészítő eszköz, amelyet adatelemzők és adattudósok használhatnak az adatok tisztítására és normalizálására. A Glue DataBrew aktív és vizuális felületét használja.

Hogyan működik az AWS ragasztóárazás?

Az AWS Glue óradíjat számít fel, amelyet másodpercenként számlázunk ki a bejárókért (az adatok feltárása) és az ETL-feladatokért (az adatok feldolgozása és betöltése). Egyszerű havi díjat számítanak fel az AWS ragasztóadat-katalógusában lévő metaadatok eléréséért és tárolásáért.

Az Amazon Glue 0,44 dollártól indul. Négy terv közül választhatsz:

  • Az ETL-feladatok, a fejlesztési végpontok és az egyéb ETL-feladatok 0,44 USD áron érhetők el
  • A Crawlers interaktív munkamenetei 0,44 USD áron érhetők el
  • A DataBrew munkái 0,48 dollártól kezdődnek
  • A havi tárolás és az adatkatalógus kérelmei 1,00 dollárba kerülnek
  Minecraft békák: hogyan lehet megtalálni őket

Az AWS nem kínál ingyenes ragasztócsomagot. Minden óra 0,44 dollárba kerül DPU-nként. Átlagosan napi 21 dollárba kerülne. Az árak a lakóhelytől függően változhatnak.

Az AWS ragasztó beállításának lépései

Az adatkatalógus segítségével gyorsan megkereshet és kereshet több AWS-adatkészletben az adatok áthelyezése nélkül. Az adatok katalogizálása után azonnal lekérdezhetők és kereshetők az Amazon Athena és az Amazon EMR segítségével.

Ref: https://aws.amazon.com/glue/

  • Amazon Redshift, Amazon S3, Amazon RDS és adatbázisok az Amazon EC2-n – Fedezze fel adatait, tárolja a metaadatokat, és használja az AWS ragasztóadat-katalógust a felfedezéshez
  • AWS Glue Data Catalog – Adatok kezelése az adatkatalógussal, amely a metaadatok központi tárházaként működik
  • AWS Glue ETL – Olvasson és írjon metaadatokat adatkatalógusába
  • Amazon Athena és Amazon Redshift, Amazon EMR, Amazon ETL – Szerezze be az adatkatalógust az ETL-hez, az elemzésekhez és egyebekhez.

Hogyan állítsuk be az AWS ragasztót?

Először jelentkezzen be az AWS Management Console-ba, és nyissa meg az IAM-konzolt. Kattintson a Szerep létrehozása elemre. Ezután a szereptípushoz keresse meg a Ragasztót, és válassza az Engedélyek lehetőséget.

Az AWSGlueServiceRole-t választom az általános AWS Glue Studio és AWS Glue engedélyekhez, valamint az AWS által felügyelt AmazonS3FullAccess házirendet az Amazon S3 erőforrásokhoz való hozzáféréshez.

Adjon meg egy szerepnevet.

Kattintson a Szerep létrehozása elemre.

Hozzon létre egy Amazon S3 vödröt.

Hozzon létre egy mappát az S3 vödörben.

Válassza ki a feltölteni kívánt fájlt.

Végül töltse fel a fájlt a vödörbe.

Ezután nyissa meg az AWS Glue alkalmazást az AWS felügyeleti konzolról, és hozzon létre egy adatbázist.

Most, hogy van egy adatbázisa az AWS Glue-ban, hozzon létre egy bejárót.

Az adatforrásban válassza ki a létrehozott S3 tárolót.

Ezután válassza ki az AWS Glue IaM szerepét, amelyet az elején hozott létre.

Végül a kimenetben válassza ki a létrehozott gluedb-t.

Tekintse át az összes beállítást, és hozza létre a bejárót.

A bejáró létrehozása után jelölje ki, és kattintson a Futtatás gombra. Egy idő után készen áll az állapot.

A bejáró futtatásával az adatbázis egy táblázatot kap a CSV-fájl összes adatával.

Amikor az adatok megtekintése lehetőségre kattint, az Amazon Athena (lekérdezésszerkesztő) oldalra kerül. A lekérdezés futtatásakor láthatja a táblázat adatait.

Mostantól sikeresen használhatja ezt az AWS Glue bejárót bármely ETL-feladatban.

Mi az AWS Glue Databrew?

Az AWS Glue DataBrew lehetővé teszi a felhasználók számára az adatok normalizálását és megtisztítását kód írása nélkül. A DataBrew akár 80 százalékkal is csökkentheti az adatok gépi tanuláshoz és elemzéshez való előkészítéséhez szükséges időt az egyedi fejlesztésű adat-előkészítéshez képest.

Több mint 250 előre elkészített adatátalakítás létezik, amelyek segítségével automatizálhatók az adat-előkészítési feladatok, például az anomáliák kiszűrése, az érvénytelen értékek javítása és az adatok szabványos formátumokba konvertálása.

  Színszűrők hozzáadása az iPhone-on lévő videókhoz

A DataBrew megkönnyíti az adattudósok, üzleti elemzők és mérnökök együttműködését a nyers adatokból történő betekintések kinyerésében. A DataBrew szerver nélküli, így nem kell infrastruktúrát kezelnie vagy fürtöket létrehoznia a terabájtnyi nyers adat felfedezéséhez és átalakításához.

DataBrew funkciók Vállalkozásoknak

Vizualizált adatok előkészítése

A DataBrew egy másik módja az oszlopos adatbázisokban általában alfanumerikus számokként megjelenített adatok megtekintésének. A DataBrew megjeleníti az összes betöltött adatforrást, hogy segítsen megérteni az adatkapcsolatokat és a hierarchiát.

250+ adat-előkészítő automatizálás

Az adattudósoknak munkájuk részeként számos megismételhető, elszigetelt munkafolyamatot kell követniük. Ezeket a munkafolyamatokat és folyamatokat az AWS nyelvi és adatagnosztikus modulokként modellezte. Ez a könyvtár olyan műveleteket tartalmaz, amelyeket a végfelhasználók használhatnak.

Adatvonal

Az IT-hálózat IT-hálózatában az ügyfelek tevékenységének nyomon követésére használt auditnaplókhoz hasonlóan az adatsor lehetővé teszi az adatátalakítási tevékenységek nyomon követését az AWS DataBrew-n belül. Ez az információ magában foglalja az adatforrást, az alkalmazott átalakításokat és az adatkimenetet, beleértve a célhelyet is.

Adatleképezés

A Databrew segítségével két adatforrásban találhat egyező mezőket. A megfelelő mezők azonosítása után betölthetők egy sémába.

AWS Glue DataBrew: Előnyök

Az alábbiakban bemutatjuk az AWS Glue DataBrew szolgáltatásait:

  • Alacsonyabb korlát az adatok előkészítéséhez
  • Automatizált adatprofil generálás
  • 250+ adat-előkészítési folyamat automatizálása
  • Intelligens előíró javaslatok

Az AWS ragasztó alternatívái

Légáramlat

Az Airflow egy technológiai verem Munkafolyamat-kezelő részéhez tartozik. Ez egy nyílt forráskódú eszköz, amely támogatja a GitHub csillagokat, GitHub fork-okat és egyéb szolgáltatásokat. Az Airflow lehetővé teszi munkafolyamatok létrehozását irányított aciklikus diagramok (DAG) segítségével. Az Airflow ütemező a feladatokat egy sor dolgozó segítségével és a megadott függőségek követésével hajtja végre.

Matillion

A Matillion ETL, egy ETL/ELT eszköz, kifejezetten az olyan felhőalapú adatbázis-platformokhoz készült, mint az Amazon Redshift és a Google BigQuery. Ez egy modern, böngésző alapú felhasználói felület erőteljes lenyomható ETL/ELT képességekkel. Egy gyors beállítással percek alatt üzemkész lehet.

Öltés

A Stitch egy nyílt forráskódú ETL-szolgáltatás, amely több adatforrást köt össze, és replikálja az adatokat a kívánt célhelyekre. Használata nagyon egyszerű, mivel nincs szükség semmilyen kódolási ismeretre az adatok Stitchben történő mozgatásához a források és a célhelyek között. Könnyen használható, barátságos grafikus felülettel rendelkezik, és gyors.

A Stitch más ETL-eszközökkel ellentétben nem teszi lehetővé előre elkészített műszerfal kiválasztását. Ehelyett integrálnia kell adatait a célként kiválasztott nyílt adattárházakba. Nehéz lehet eligazodni a készletekben.

Alteryx

Az Alteryx egy analitikai automatizálási platform, amely segít az adatgyűjtés előkészítésében és keverésében. Ezek az adatok a folyamatok felgyorsítására és az üzleti betekintés biztosítására használhatók. Mivel ez egy drag and drop eszköz, nincs szükség programozási ismeretekre. Az Alteryx remek hely, ahol tanácsokat és válaszokat kérhet az iparág szakembereitől.

Következtetés

Tehát ennyi volt az AWS Glue-ról, amely egy felhő alapú megoldás, amely lehetővé teszi az ETL-folyamatokkal való munkát. Összefoglalva, az AWS Glue felhasználói interakciós folyamata három szakaszból áll. Adatkatalógus létrehozásához először adatbejárókat kell használnia. Ezután létre kell hoznia az AWS adatfolyam által igényelt ETL-kódot. Végül létrejön az ETL ütemezés. Remélem, ez a blog jó áttekintést adott az Amazon Glue-ról.

Megtalálhatja az AWS S3 tárhely biztonságossá tételére vonatkozó legjobb tippeket is.