18 alapvető szoftver, amelyről minden adatkutatónak tudnia kell

Az adattudomány mindenkinek szól, aki szereti a kusza dolgokat feltárni és rejtett csodákat felfedezni egy látszólagos rendetlenségben.

Mintha tűket keresnénk a szénakazalban; csak az adattudósoknak egyáltalán nem kell bepiszkolni a kezüket. Színes diagramokkal ellátott divatos eszközöket használva és számok halmát tekintve egyszerűen belemerülnek az adatok szénakazaljába, és értékes tűket találnak a nagy üzleti értékű betekintések formájában.

Egy tipikus adattudós Az eszköztárnak tartalmaznia kell legalább egy elemet a kategóriák mindegyikéből: relációs adatbázisok, NoSQL-adatbázisok, big data keretrendszerek, vizualizációs eszközök, kaparóeszközök, programozási nyelvek, IDE-k és mély tanulási eszközök.

Relációs adatbázisok

A relációs adatbázis attribútumokkal ellátott táblázatokba strukturált adatok gyűjteménye. A táblák egymáshoz kapcsolhatók, relációkat és megszorításokat definiálva, és úgynevezett adatmodellt hozhatunk létre. A relációs adatbázisokkal való munkához általában az SQL (Structured Query Language) nevű nyelvet használjuk.

A relációs adatbázisok szerkezetét és adatait kezelő alkalmazásokat RDBMS-nek (Relational DataBase Management Systems) nevezik. Nagyon sok ilyen alkalmazás létezik, és a legrelevánsabbak a közelmúltban az adattudomány területére helyezték a hangsúlyt, funkcionalitást adva a nagy adattárolókkal való munkavégzéshez és az olyan technikák alkalmazásához, mint az adatelemzés és a gépi tanulás.

SQL szerver

Microsoft RDBMS, több mint 20 éve fejlődik vállalati funkcionalitásának következetes bővítésével. 2016-os verziója óta az SQL Server szolgáltatások portfólióját kínálja, amely magában foglalja a beágyazott R-kód támogatását. Az SQL Server 2017 növeli a tétet azáltal, hogy átnevezte R Services szolgáltatásait Machine Language Servicesre, és támogatja a Python nyelvet (erről a két nyelvről lentebb olvashat).

Ezekkel a fontos kiegészítésekkel az SQL Server olyan adattudósokat céloz meg, akik esetleg nem rendelkeznek tapasztalattal a Transact SQL-lel, a Microsoft SQL Server natív lekérdezési nyelvével.

Az SQL Server messze nem ingyenes termék. Licenceket vásárolhat a Windows Serverre való telepítéséhez (az ár az egyidejű felhasználók számától függően változik), vagy díjköteles szolgáltatásként használhatja a Microsoft Azure felhőn keresztül. A Microsoft SQL Server megtanulása egyszerű.

MySQL

A nyílt forráskódú szoftverek oldalán MySQL az RDBMS-ek népszerűségének koronája. Bár jelenleg az Oracle birtokolja, továbbra is ingyenes és nyílt forráskódú a GNU General Public License feltételei szerint. A legtöbb web-alapú alkalmazás a MySQL-t használja alapul szolgáló adattárként, köszönhetően az SQL-szabványnak való megfelelésnek.

Népszerűségét az egyszerű telepítési eljárások, a fejlesztők nagy közössége, a rengeteg átfogó dokumentáció és a mindennapi felügyeleti tevékenységeket egyszerűsítő külső eszközök, például a phpMyAdmin is elősegítik. Bár a MySQL-nek nincsenek natív funkciói az adatok elemzéséhez, nyitottsága lehetővé teszi, hogy szinte bármilyen vizualizációs, jelentéskészítő és üzleti intelligencia eszközzel integrálható legyen.

PostgreSQL

Egy másik nyílt forráskódú RDBMS lehetőség PozíciótgreSQL. Bár nem olyan népszerű, mint a MySQL, a PostgreSQL kiemelkedik rugalmasságával és bővíthetőségével, valamint az összetett lekérdezések támogatásával, amelyek túlmutatnak az olyan alapvető utasításokon, mint a SELECT, WHERE és GROUP BY.

Ezek a funkciók lehetővé teszik, hogy népszerűvé váljon az adatkutatók körében. Egy másik érdekes szolgáltatás a többkörnyezet támogatása, amely lehetővé teszi felhőben és helyszíni környezetben, vagy mindkettő keverékében, közismert nevén hibrid felhőkörnyezetben.

A PostgreSQL képes az online analitikai feldolgozást (OLAP) az online tranzakciófeldolgozással (OLTP) kombinálni, a hibrid tranzakciós/elemző feldolgozásnak (HTAP) nevezett módban. A földrajzi adatokhoz a PostGIS-nek, a dokumentumokhoz pedig a JSON-B-nek köszönhetően kiválóan alkalmas nagy adatokkal való munkavégzésre is. A PostgreSQL támogatja a strukturálatlan adatokat is, ami lehetővé teszi, hogy mindkét kategóriában legyenek: SQL és NoSQL adatbázisok.

NoSQL adatbázisok

Más néven nem relációs adatbázisok, az ilyen típusú adattárak gyorsabb hozzáférést biztosítanak a nem táblázatos adatstruktúrákhoz. Néhány példa ezekre a struktúrákra: grafikonok, dokumentumok, széles oszlopok, kulcsértékek stb. A NoSQL adattárak félretehetik az adatok konzisztenciáját, és más előnyökkel járnak, mint például a rendelkezésre állás, a particionálás és a hozzáférési sebesség.

Mivel a NoSQL adattárolókban nincs SQL, az ilyen típusú adatbázisok lekérdezésének egyetlen módja az alacsony szintű nyelvek használata, és nincs olyan nyelv, amely olyan széles körben elfogadott lenne, mint az SQL. Emellett a NoSQL-hez nincsenek szabványos specifikációk. Ezért ironikus módon egyes NoSQL-adatbázisok kezdik támogatni az SQL-parancsfájlokat.

  A Caps Lock története: Miért létezik a Caps Lock billentyű?

MongoDB

MongoDB egy népszerű NoSQL adatbázisrendszer, amely JSON dokumentumok formájában tárolja az adatokat. Középpontjában a méretezhetőség és az adatok nem strukturált módon történő tárolásának rugalmassága áll. Ez azt jelenti, hogy nincs rögzített mezőlista, amelyet minden tárolt elemnél be kell tartani. Ezenkívül az adatstruktúra idővel megváltozhat, ami egy relációs adatbázisban nagy kockázatot jelent a futó alkalmazások befolyásolására.

A MongoDB technológiája lehetővé teszi az indexelést, az ad-hoc lekérdezéseket és az összesítést, amelyek erős alapot biztosítanak az adatelemzéshez. Az adatbázis elosztott jellege magas rendelkezésre állást, skálázást és földrajzi eloszlást biztosít anélkül, hogy kifinomult eszközökre lenne szükség.

Redis

Ez az egyik egy másik lehetőség a nyílt forráskódú, NoSQL fronton. Alapvetően egy adatszerkezeti tároló, amely memóriában működik, és az adatbázis-szolgáltatások mellett gyorsítótárként és üzenetközvetítőként is működik.

Számtalan nem szokványos adatszerkezetet támogat, beleértve a hash-eket, a térinformatikai indexeket, a listákat és a rendezett készleteket. Kiválóan alkalmas adattudományhoz, köszönhetően az adatintenzív feladatokban nyújtott nagy teljesítményének, mint például halmazmetszetek számítása, hosszú listák rendezése vagy összetett rangsorok létrehozása. A Redis kiemelkedő teljesítményének oka a memórián belüli működés. Beállítható úgy, hogy az adatokat szelektíven megőrizze.

Big Data keretrendszerek

Tegyük fel, hogy elemeznie kell a Facebook-felhasználók által egy hónap alatt generált adatokat. Fényképekről, videókról, üzenetekről, mindenről beszélünk. Tekintettel arra, hogy naponta több mint 500 terabájt adatot adnak hozzá a közösségi hálózathoz annak felhasználói, nehéz mérni, hogy egy teljes hónapnyi adatmennyiséget jelent.

Ennek a hatalmas adatmennyiségnek a hatékony kezeléséhez megfelelő keretrendszerre van szükség, amely képes statisztikákat számítani egy elosztott architektúrán. A piacot két keretrendszer vezeti: a Hadoop és a Spark.

Hadoop

Big data keretrendszerként Hadoop a hatalmas adathalmok lekérésével, feldolgozásával és tárolásával kapcsolatos bonyolultságokkal foglalkozik. A Hadoop elosztott környezetben működik, egyszerű algoritmusokat feldolgozó számítógép-fürtökből áll. Létezik egy MapReduce nevű összehangoló algoritmus, amely a nagy feladatokat kis részekre osztja, majd szétosztja azokat a rendelkezésre álló fürtök között.

A Hadoop olyan vállalati szintű adattárak számára ajánlott, amelyek gyors hozzáférést és magas rendelkezésre állást igényelnek, mindezt alacsony költségű rendszerben. De kell egy Linux rendszergazda mély Hadoop tudás a keret fenntartása és működése.

Szikra

A Hadoop nem az egyetlen elérhető keretrendszer a nagy adatkezeléshez. Egy másik nagy név ezen a területen Szikra. A Spark motort úgy tervezték, hogy az analitikai sebesség és a könnyű használhatóság tekintetében felülmúlja a Hadoopot. Nyilvánvalóan elérte ezt a célt: egyes összehasonlítások szerint a Spark akár 10-szer gyorsabban fut, mint a Hadoop, amikor lemezen dolgozik, és 100-szor gyorsabban működik a memóriában. Ugyanennyi adat feldolgozásához kisebb számú gépre is szükség van.

A sebesség mellett a Spark másik előnye az adatfolyam-feldolgozás támogatása. Ez a fajta adatfeldolgozás, más néven valós idejű feldolgozás, az adatok folyamatos bevitelét és kiadását foglalja magában.

Vizualizációs eszközök

Az adattudósok közt elterjedt vicc szerint ha elég sokáig kínozod az adatokat, akkor bevallják, amit tudnod kell. Ebben az esetben a „kínzás” azt jelenti, hogy az adatok átalakításával és szűrésével manipulálják azokat a jobb vizualizáció érdekében. És itt lépnek színre az adatvizualizációs eszközök. Ezek az eszközök több forrásból nyernek előre feldolgozott adatokat, és grafikusan, érthető formában mutatják meg annak feltárt igazságait.

Több száz eszköz tartozik ebbe a kategóriába. Akár tetszik, akár nem, a legszélesebb körben használt a Microsoft Excel és annak diagramkészítő eszközei. Az Excel diagramokat bárki elérheti, aki használja az Excelt, de korlátozott a funkcionalitásuk. Ugyanez vonatkozik más táblázatkezelő alkalmazásokra is, mint például a Google Sheets és a Libre Office. De itt konkrétabb eszközökről beszélünk, amelyeket kifejezetten az üzleti intelligencia (BI) és az adatelemzés számára szabtak.

Power BI

Nem sokkal ezelőtt a Microsoft kiadta Power BI vizualizációs alkalmazás. Különböző forrásokból, például szöveges fájlokból, adatbázisokból, táblázatokból és számos online adatszolgáltatásból, köztük a Facebookból és a Twitterből tud adatokat fogadni, és diagramokkal, táblázatokkal, térképekkel és sok más vizualizációs objektummal telepakolt irányítópultok létrehozására használhatja. Az irányítópult-objektumok interaktívak, ami azt jelenti, hogy a diagramon lévő adatsorokra kattintva kiválaszthatja azt, és szűrőként használhatja a tábla többi objektumához.

  Hogyan készítsünk átlátszó képet a Microsoft PowerPointban

A Power BI egy Windows asztali alkalmazás (az Office 365 csomag része), egy webalkalmazás és egy online szolgáltatás kombinációja, amely az irányítópultokat az interneten teszi közzé, és megosztja azokat a felhasználókkal. A szolgáltatás lehetővé teszi olyan engedélyek létrehozását és kezelését, amelyek csak bizonyos személyek számára biztosítanak hozzáférést a táblákhoz.

Csoportkép

Csoportkép egy másik lehetőség interaktív irányítópultok létrehozására több adatforrás kombinációjából. Asztali verziót, webes verziót és online szolgáltatást is kínál az Ön által létrehozott irányítópultok megosztásához. Természetes módon működik „ahogyan gondolod” (ahogyan állítja), és könnyen használható a nem technikusok számára, amit számos oktatóanyag és online videó továbbfejleszt.

A Tableau néhány legkiemelkedőbb funkciója a korlátlan adatcsatlakozók, az élő és a memóriában tárolt adatok, valamint a mobilra optimalizált kialakítás.

QlikView

QlikView letisztult és egyszerű felhasználói felületet kínál, amely segít az elemzőknek új betekintést felfedezni a meglévő adatokból a mindenki számára könnyen érthető vizuális elemeken keresztül.

Ez az eszköz az egyik legrugalmasabb üzleti intelligencia platformról ismert. Az Associative Search nevű funkciót kínálja, amely segít a legfontosabb adatokra összpontosítani, így időt takaríthat meg a kereséshez.

A QlikView segítségével valós időben együttműködhet partnereivel, összehasonlító elemzést végezve. Az összes vonatkozó adat egy alkalmazásban kombinálható olyan biztonsági funkciókkal, amelyek korlátozzák az adatokhoz való hozzáférést.

Kaparó szerszámok

Azokban az időkben, amikor az internet még csak kialakult, a webrobotok elkezdtek utazni, miközben a hálózatok információkat gyűjtöttek az útjukban. A technológia fejlődésével a webes feltérképezés kifejezés megváltozott a webkaparás fogalmára, de továbbra is ugyanazt jelenti: információk automatikus kinyerése a webhelyekről. A webkaparáshoz automatizált folyamatokat vagy botokat használnak, amelyek egyik weboldalról a másikra ugrálnak, adatokat nyernek ki és exportálnak különböző formátumokba, vagy beillesztik őket adatbázisokba további elemzés céljából.

Az alábbiakban összefoglaljuk a ma elérhető három legnépszerűbb webkaparó jellemzőit.

Octoparse

Octoparse A webes kaparó néhány érdekes tulajdonságot kínál, beleértve a beépített eszközöket, amelyek segítségével információkat szerezhet a webhelyekről, amelyek nem könnyítik meg a robotok kaparását a munkájuk elvégzésében. Ez egy olyan asztali alkalmazás, amely nem igényel kódolást, felhasználóbarát felhasználói felülettel, amely lehetővé teszi a kibontási folyamat grafikus munkafolyamat-tervezőn keresztül történő megjelenítését.

Az önálló alkalmazással együtt az Octoparse felhőalapú szolgáltatást kínál az adatkinyerési folyamat felgyorsítására. A felhasználók 4-10-szeres sebességnövekedést tapasztalhatnak, ha a felhőszolgáltatást használják az asztali alkalmazás helyett. Ha ragaszkodik az asztali verzióhoz, ingyenesen használhatja az Octoparse-t. De ha inkább a felhőszolgáltatást szeretné használni, akkor ki kell választania a fizetős csomagok egyikét.

Content Grabber

Ha funkciókban gazdag kaparóeszközt keres, figyeljen rá Content Grabber. Az Octoparse-tól eltérően a Content Grabber használatához fejlett programozási ismeretekre van szükség. Cserébe script-szerkesztést, hibakereső felületeket és egyéb fejlett funkciókat kap. A Content Grabber segítségével .Net nyelveket használhat reguláris kifejezések írásához. Így nem kell a kifejezéseket beépített eszközzel generálnia.

Az eszköz API-t (Application Programming Interface) kínál, amellyel lekaparási képességeket adhat asztali és webes alkalmazásaihoz. Az API használatához a fejlesztőknek hozzáférést kell szerezniük a Content Grabber Windows szolgáltatáshoz.

ParseHub

Ezt a kaparót képes kezelni a különféle típusú tartalmak széles listáját, beleértve a fórumokat, a beágyazott megjegyzéseket, a naptárakat és a térképeket. Olyan oldalakkal is foglalkozhat, amelyek hitelesítést, Javascriptet, Ajaxot stb. tartalmaznak. A ParseHub webalkalmazásként vagy asztali alkalmazásként használható, amely Windows, macOS X és Linux rendszeren fut.

A Content Grabberhez hasonlóan ajánlott némi programozási ismeretekkel rendelkezni, hogy a legtöbbet hozhassa ki a ParseHubból. Ingyenes verziója van, 5 projektre korlátozva, és futtatásonként 200 oldal.

Programozási nyelvek

Csakúgy, mint a korábban említett SQL nyelvet kifejezetten relációs adatbázisokkal való együttműködésre tervezték, vannak más nyelvek is, amelyek egyértelműen az adattudományra összpontosítanak. Ezek a nyelvek lehetővé teszik a fejlesztők számára, hogy olyan programokat írjanak, amelyek nagy mennyiségű adatelemzéssel, például statisztikákkal és gépi tanulással foglalkoznak.

  Hogyan alakítsunk át egy visszhanggombot otthoni zárolás gombpá

Az SQL-t szintén fontos készségnek tekintik, amellyel a fejlesztőknek adattudományt kell végezniük, de ez azért van, mert a legtöbb szervezet még mindig sok adattal rendelkezik a relációs adatbázisokról. Az „igazi” adattudományi nyelvek az R és a Python.

Piton

Piton egy magas szintű, értelmezett, általános célú programozási nyelv, amely kiválóan alkalmas gyors alkalmazásfejlesztésre. Egyszerű és könnyen megtanulható szintaxisa meredek tanulási görbét tesz lehetővé, és csökkenti a program karbantartási költségeit. Számos oka van annak, hogy miért ez az előnyben részesített nyelv az adattudományban. Hogy néhányat említsünk: szkriptelési lehetőségek, bőbeszédűség, hordozhatóság és teljesítmény.

Ez a nyelv jó kiindulópont azoknak az adattudósoknak, akik sokat kísérleteznek, mielőtt belevágnának a valódi és kemény adatrögzítési munkába, és akik komplett alkalmazásokat szeretnének fejleszteni.

R

Az R nyelv főként statisztikai adatfeldolgozásra és grafikonok készítésére használják. Bár nem célja teljes értékű alkalmazások fejlesztése, mint a Python esetében, az R nagyon népszerűvé vált az elmúlt években az adatbányászatban és az adatelemzésben rejlő lehetőségek miatt.

A funkcionalitását kiterjesztő, szabadon elérhető csomagok folyamatosan bővülő könyvtárának köszönhetően az R mindenféle adattörő munkát képes elvégezni, beleértve a lineáris/nemlineáris modellezést, osztályozást, statisztikai teszteket stb.

Nem könnyű megtanulni a nyelvet, de miután megismerkedsz a filozófiájával, profiként fogsz statisztikai számításokat végezni.

Idus

Ha komolyan fontolgatja, hogy az adattudománynak szenteli magát, akkor körültekintően kell kiválasztania az igényeinek megfelelő integrált fejlesztői környezetet (IDE), mert Ön és IDE-je sok időt fog együtt dolgozni.

Egy ideális IDE-nek össze kell állítania minden olyan eszközt, amelyre a mindennapi kódolói munkában szüksége van: szövegszerkesztő szintaktikai kiemeléssel és automatikus kiegészítéssel, hatékony hibakereső, objektumböngésző és könnyű hozzáférés a külső eszközökhöz. Ezenkívül kompatibilisnek kell lennie az Ön által preferált nyelvvel, ezért célszerű az IDE kiválasztása után, hogy tudja, melyik nyelvet fogja használni.

Spyder

Ez Az általános IDE leginkább olyan tudósok és elemzők számára készült, akiknek szintén kódolniuk kell. A kényelmesebbé tétel érdekében nem korlátozódik az IDE funkcionalitására – eszközöket is biztosít az adatok feltárásához/vizualizálásához és interaktív végrehajtásához, amint az egy tudományos csomagon is megtalálható. A Spyder szerkesztője több nyelvet is támogat, és hozzáad egy osztályböngészőt, ablakfelosztást, ugrást a definícióra, automatikus kódkiegészítést és még egy kódelemző eszközt is.

A hibakereső segít az egyes kódsorok interaktív nyomon követésében, a profilkészítő pedig segít megtalálni és kiküszöbölni a nem megfelelő hatékonyságot.

PyCharm

Ha Pythonban programoz, nagy eséllyel a választott IDE lesz PyCharm. Intelligens kódszerkesztővel rendelkezik intelligens kereséssel, kódkiegészítéssel, valamint hibafelismeréssel és -javítással. Egyetlen kattintással a kódszerkesztőből bármelyik kontextushoz kapcsolódó ablakba ugorhat, beleértve a tesztet, a szupermetódusokat, a megvalósítást, a deklarációt stb. A PyCharm támogatja az Anacondát és számos tudományos csomagot, mint például a NumPy és a Matplotlib, hogy csak kettőt említsünk ezek közül.

Integrációt kínál a legfontosabb verzióvezérlő rendszerekkel, valamint tesztfuttatóval, profilkészítővel és hibakeresővel. Az ügylet lezárásaként a Docker és a Vagrant programokkal is integrálódik, hogy platformok közötti fejlesztést és konténerezést biztosítson.

RStudio

Azon adattudósok számára, akik az R-csoportot részesítik előnyben, az IDE-t kell választani RStudio, rengeteg funkciója miatt. Telepítheti Windows, macOS vagy Linux rendszerű asztali számítógépre, vagy futtathatja webböngészőből is, ha nem szeretné helyben telepíteni. Mindkét verzió olyan finomságokat kínál, mint a szintaktikai kiemelés, az intelligens behúzás és a kódkiegészítés. Van egy integrált adatmegjelenítő, amely jól jöhet, amikor táblázatos adatok között kell böngészni.

A hibakeresési mód lehetővé teszi, hogy lépésről lépésre megtekintse, hogyan frissülnek az adatok dinamikusan egy program vagy parancsfájl végrehajtásakor. A verzióvezérléshez az RStudio integrálja az SVN és a Git támogatását. Jó plusz az interaktív grafika készítésének lehetősége a Shiny és ad könyvtárakkal.

Az Ön személyes eszköztára

Ezen a ponton teljes képet kell kapnia azokról az eszközökről, amelyeket tudnia kell ahhoz, hogy kitűnjön az adattudományban. Reméljük, hogy elegendő információt adtunk ahhoz, hogy eldöntse, melyik a legkényelmesebb lehetőség az egyes szerszámkategóriákon belül. Most rajtad múlik. Az adattudomány virágzó terület volt karriert alakítani. De ha ezt akarja, akkor lépést kell tartania a trendek és a technológiák változásaival, hiszen ezek szinte napi szinten jelentkeznek.