26 fantasztikus nyílt adatkészlet adattudományi/ML projektjeihez

A megfelelő adatkészletek keresése ijesztő lehet, különösen akkor, ha gépi tanuláshoz (ML) és adattudományi projektekhez van szüksége rájuk. Csökkentjük kutatási erőfeszítéseit azáltal, hogy biztosítjuk az ingyenes adatkészletek végső listáját.

Az adatkészletek egyszerűen adatgyűjtemények. Lehetnek pénzügyi, közösségi egészségügyi, tőzsdei adatok, banki adatok, földrajzi adatok, részecsketudományi kutatási adatok, termékek minősítése egy e-kereskedelmi webhelyen stb.

Az adatkészletek tudományos felmérési szabványon keresztül gyűjtött adatokat tartalmaznak, és fontosak a további vizualizáció, kinyerés, előrejelzés stb. szempontjából. Mivel az adatok a digitális univerzumban a nyersolajjal egyenértékűek, az adatkészletek kereskedelmi jellegűek és ritkák.

Folytassa az olvasást, hogy megtudja az adatkészletekkel kapcsolatos alapokat. Felfedezhet néhány nyílt forráskódú adatkészletet is, amelyek valóban ingyenesek a gépi tanulási (ML) vagy adattudományi projektjeihez.

Mik azok az adatkészletek?

Az adatkészletek egy strukturált és szervezett tárolóban lévő adatok gyűjtése. Általában a földmérők az adatkészleteket egyedi testülettel társítják, például a Világbanki nyílt adatokkal.

Az adatgyűjtők ismét megőrzik az olyan témához kapcsolódó adatkészleteket, mint az Amerikai Egyesült Államok Népszámlálási Hivatala által közzétett 2020. évi népszámlálási adatok.

Számos adatkészletet talál a globális és helyi problémákról. A legtöbb adatkészlet egymáshoz kapcsolódó adatpontokat tartalmaz. Például egy ország lakossága, és hogy az elhízás hogyan viszonyul a népesség különböző osztályaihoz.

Előfordulhat, hogy az adatkutatóknak meg kell tisztítaniuk, átstrukturálniuk és feldolgozniuk az ilyen adatkészleteket big data eszközök segítségével, hogy olyan értékes következtetésekre jussanak, mint a műanyaghulladék csökkentése a műanyaghasználati adatok elemzésével, a munkaerő-problémák orvoslása a béradatok elemzésével, a mesterséges intelligencia képzése stb. tovább.

Adatkészletek típusai

Az adatkészletek forrásától függően lehetnek nyilvánosak vagy privátak. A nyilvános adatkészletek mindenki számára nyitottak, és nagyban hozzájárulnak a kutatáshoz és fejlesztéshez.

Az adatkészletek a bennük lévő információktól függően a következő típusúak lehetnek:

  • Többváltozós: Az ilyen adatok több változót tartalmaznak.
  • Kategorikus: Az emberek sok kategóriáját ábrázolja.
  • Numerikus: Az ilyen adatkészletek olyan számokban mérik az adatokat, mint az életkor, magasság stb.
  • Korreláció: Ebben a típusban az adatpontok egymással összefüggenek.
  • Fájl alapú: Itt az adatkészletek fájlokban tárolódnak.
  • Kétváltozós: Adatkészlet két változóval és a köztük lévő kapcsolattal.
  • Webes adatkészlet: egy vagy több hasonló internetes portálról gyűjtött adatok.
  • Adatbázis: Az ilyen adatkészletek táblázatokban, oszlopokban és sorokban tárolják az adatokat.
  A Flash szelektív engedélyezése webhelyeken a Chrome-ban

Nyílt forráskódú adatkészletek adattudományi projektekhez

Az ingyenes adatkészletek táplálják az adattudományi karrier iránti szenvedélyét. Mert ha adattudományi karrierje kezdeti szakaszában jár, érdemes személyes és nem kereskedelmi projekteket vállalnia önbizalom vagy portfólióépítés céljából.

Először is könnyedén tesztelheti újonnan elsajátított készségeit, ha eszközöket és technikákat alkalmaz a valós adatkészlet-problémák megoldására.

Vannak például szabadon elérhető rákkutatási adatok, Covid-19 adatok, FBI bűnügyi nyilvántartási adatok, részecskeelemzési adatok a CERN-től stb. Az ilyen adatok felhasználásával adattudományi modellt építhet a létfontosságú társadalmi, pénzügyi és egészségügyi kérdések megválaszolására. .

Másodszor, az ilyen projektek portfóliójavítóként szolgálnak a karrieredhez. Ha fel tud építeni egy sikeres adatelemzési modellt, amely használható betekintést nyújt, akkor ezeket a modelleket online portfóliówebhelyek létrehozásával bemutathatja. A munkaadók előnyben részesítik a projekteket a célkifejezésekkel szemben.

Ingyenes adatkészletek gépi tanulási projektekhez

Az adattudományi szakemberhez hasonlóan az ML-szakembernek is önállóan kezelt projekteken kell dolgoznia, hogy megvizsgálja készségeit. Ha a projekt sikeressé válik, ideális összetevőjévé válik az ML projektek online vagy offline portfóliójának.

Ezért most már megértheti, hogy az adattudomány és az ML növekedés a strukturált adatkészletektől függ. Ha az ilyen adatkészleteket túlságosan kereskedelmi forgalomba hoznák, az adattudományi kutatás és fejlesztés teljes mértékben vállalatközpontúvá válna.

Annak érdekében, hogy az adattudományi ML-kutatás mindenki számára nyitva maradjon, a következő ügynökségek, intézmények és platformok ingyenes adatkészleteket kínálnak:

Data.gov

Az Egyesült Államok kormánya által gyűjtött és feldolgozott összes nyílt adatot megtalálja. a Data.gov. A platform erőforrásokat és eszközöket is kínál kutatások lefolytatásához, adatvizualizációk tervezéséhez, mobil/webes alkalmazások fejlesztéséhez stb.

Figyelemre méltó adatkészletei közé tartoznak a fenntartható földhasználati adatok, a vidéki lakhatási adatok, a belvízi elektronikus navigációs térképek stb.

Adatkészletek megnyitása: Kaggle

A Kaggle nyilvános adatok és számítógépes kódok óceánját kínálja adattudományi projektekhez. Kiválaszthatja az Adatkészleteket a nyers adatokhoz és a kódot a programozási kódokhoz. A Kaggle felkapott adatkészletei az AMEX adatok, a Simpsons Viewership, a Chatbot képzési adatok stb.

Szegmens adatkészletek: YouTube 8-M

A YouTube 8-M szegmensadatkészletei emberi auditorok által ellenőrzött szegmensjegyzeteket kínálnak. Ugyanerről a portálról elérheti a YouTube-8M adatkészletet is. Az adatkészlet 6,1 millió videóazonosítót, 350 000 órányi videót, 2,6 milliárd audio/vizuális funkciót, 3863 videóosztályt és videónként átlagosan 3,0 címkét tartalmaz.

Nyílt adatok nyilvántartása az AWS-en

A ROD az AWS-en segít az adatkutatóknak megosztani és felfedezni az AWS-erőforrásokon tárolt adatkészleteket. Néhány érdekes adatkészletet találhat itt: The Cancer Genome Atlas, Foldingathome COVID-19 Datasets, Common Crawl stb.

Machine Learning Repository: UCI

Az UCI Machine Learning Repository jelenleg 622 adatkészletet tart fenn, amelyek alkalmasak adattudósok és ML mérnökök számára mesterséges intelligencia modelljeik képzésére. Ezenkívül van egy kereshető felület az adatbázisok kutatásához. A népszerű látnivalók a Gyorsulásmérő adatkészlet, a Szinkrongép adatkészlet, a Wikipedia Math Essentials, a Turkish Headlines adatkészlet stb.

  Az Ubuntu streamelése Windowsra a Splashtop segítségével

BigQuery nyilvános adatkészletek: Google Cloud

Sok nyilvános adatkészletet tárol a BigQuery. A Google ingyenesen hozzáférhetővé teszi az adatkészletet a Google Cloud Public Dataset Programon keresztül. Az ingyenes lekérdezés korlátja azonban havi 1 TB. Szabványos SQL és örökölt SQL lekérdezéseket hajthat végre.

Félelmetes nyilvános adatkészletek: GitHub

Az Awesome Public Datasets egy nyílt forráskódú adatkészlet, amely témaközpontú nyilvános adatokat tartalmaz. A különféle blogokból, válaszokból és felhasználói visszajelzésekből összegyűjtve és rendezve ingyenes és fizetős adatkészleteket egyesít a fizikáról, a sportról, a szoftverekről, a természetes nyelvről és a gépi tanulásról.

Világbanki adatok

A Világbank Open Data az a platform, ahol ingyenes hozzáférést kap a globális fejlesztési adatokhoz. Ezenkívül más értékes forrásokat is kínál, például előre formázott táblázatokat és jelentéseket. Könnyedén böngészhet ország vagy indikátor szerint, hogy megkapja a szükséges adatkészletet.

FiveThirtyEight: Adatok

A FiveThirtyEight egy amerikai weboldal, amely közvélemény-kutatások elemzésével, politikával, gazdasággal és sporttal foglalkozik. Ezeket a közvélemény-kutatásokat és előrejelzéseket a platformjáról származó adatkészleteken keresztül érheti el. Az adatkészleteket egy kattintással letöltheti.

ImageNet

Az ImageNet egy képadatbázis, amelyből a kutatók világszerte nyílt forráskódú adatkészleteket kaphatnak nem kereskedelmi projektjeikhez. Itt a képek a WordNet hierarchia alapján vannak rendezve. A projekt létfontosságú szerepet játszik a haladó szintű mély tanulási kutatásban.

Adatkészletek archívuma: UNICEF DATA

A Datasets Archives segítségével hozzáférhet az UNICEF által gyűjtött adatkészletekhez világszerte. Itt érhetők el adatok a migrációról, az elköltözésről, az étrendről, a kapcsolódásról, az oktatásról, az egészségről, a tanulásról, a halandóságról, az erőszakról, a gyermekkori fejlődésről, a gyermekházasságról, a gyermekmunkáról és különféle statisztikákról.

Nyílt adatok keresése: Govt. az Egyesült Királyságból

Ha projektjének szüksége van a helyi szervek és az Egyesült Királyság központi kormányzata által közzétett adatokra, a Find Open Data az a portál, amelyet érdemes megnéznie. Lefedi a kormányzati kiadásokat, az üzleti életet, az egészségügyet, az oktatást, a védelmet és további adatkészleteket.

Adatok: Egyesült Államok Népszámlálási Hivatala

Szüksége van az Egyesült Államok népszámlálási adataira egy releváns projekthez? Segítséget kérhet az USCB Data szolgáltatástól. Itt megtekintheti a 2020-as népszámlálási adatokat, táblázatokat, térképeket és adatprofilokat, miközben megjeleníti az adatokat és adateszközöket használ.

Adatok és statisztikák: CDC

Az Egyesült Államok szövetségi ügynöksége, a Centers for Disease Control and Prevention szintén ingyenes adatkészleteket biztosít a nyilvánosság számára a portálon található adatok és statisztikák eléréséhez. Az adatkészlet témakörei a következők: Környezet-egészségügy, Krónikus betegségek, Születések és születések, Halálozások és halálozások, Várható élettartam, Sérülések és erőszak, Reproduktív egészség, Nemzeti Bejelentendő betegségek stb.

Adatkészletek: MIT

Ez az adatkészlet az örvény indukálta vibrációs adatokra összpontosít. Az MIT-ben található Óceánmérnöki Központ néhány nyilvánosan elérhető adatkészletet tartalmaz a számítógépes kódok összehasonlításához. Az adatkészletek mindenki számára nyitottak, hogy új elméleteket hívjanak meg az adatokból és szinkronizálják az ugyanazon a területen dolgozó kutatókat.

  A Gnome Shell testreszabása bővítményekkel

Világbanki adatkatalógus

Az Adatkatalógus ingyenes adatsorokat gyűjt össze, amelyek könnyen hozzáférhetővé teszik a Világbank fejlesztéssel kapcsolatos adatait. Használata különféle projektekben gyerekjáték, mivel könnyedén megtalálhatja és letöltheti a kívánt információkat. Több mint 5000 adatkészletet tartalmaz, amelyek lefedik a Világbank mikroadatait, pénzügyeit és energiaplatformjait.

NASA Űrtudományi adatok

A NASA hozzáférést biztosít archív adataihoz az Űrtudományi Adatok Koordinált Archívumában. Ez a platform nagy segítség a nagyközönségnek, különösen az oktatásban és űrkutatásban dolgozóknak. 400 TB digitális adattal rendelkezik, amely 550 űrtudományról tartalmaz információt.

Szerezze be az adatokat: Az Airbnb-n belül

Az Airbnb egy világszerte elismert online piac otthoni szállások és nyaralók számára. Ezenkívül adatgyűjtést is kínál a világ különböző városairól a Get the Data alkalmazásból. Az adatok gyors lekéréséhez böngészhet a városban. Ezen a portálon kérheti továbbá a szükséges adatait és olvashat adatfeltevéseket.

Webes adatok: Amazon Reviews

A piackutatás és a termékismertetők iránt érdeklődők a Snap Web Data által biztosított adatkészleteket használják. Több mint 34 millió felhasználói véleményt tartalmaz az Amazonon 1995 júniusa és 2013 márciusa között. Az adatkészlet egyszerű szöveget, termékinformációkat, felhasználónevet, értékeléseket és véleményt tartalmaz.

IMF adatok

Az IMF Data portál minden gazdasági és pénzügyi adattípus számára értékes. Akár IMF-finanszírozási adatokat, külső szektor statisztikákat, zászlóshajó kiadványokat vagy mikroökonómiai adatokat keres, itt megtalálhatja azokat. Ezenkívül szűrőt is használhat az országonkénti adatok lekéréséhez.

Google Books Ngrams

Ha a beszéd és a nyelv részein dolgozik, a Google Books Ngrams jelentősen segíthet Önnek. Ez a nyílt forráskódú adatkészlet ötletet ad egy adott szó és kifejezés használatáról a történelem során vagy egy adott időtartományban. Ennek az adatkészletnek a forrása a Google által indexelt digitális dokumentumok.

Piaci adatok: The Financial Times

Ha megbízható és pontos globális és regionális piaci részvénypiaci adatokat szeretne megismerni, a The Financial Times Markets Data a segítségére van. Lehetővé teszi az amerikai, ázsiai-csendes-óceáni, európai, afrikai és globális piac piaci adatokkal való munkát.

Földadatok: NASA

A NASA teljes és nyílt hozzáférést biztosít tudományos adataihoz az Earth Data programon keresztül, amely segít megérteni szülőbolygónkat és projekteket végezni vele. Ingyenes adatkészleteket találhat a légkörről, a bioszféráról, a krioszféráról, az emberi méretekről, a földfelszínről, az óceánról, a szilárd földről, a nap-föld kölcsönhatásról és a szárazföldi hidroszféráról.

Dataset Search: Google

Ha Ön diák, kutató vagy adattudós, aki adatkészleteket keres projektje támogatásához, segítséget kérhet a Dataset Search portáltól. Nevezheti adathalmazok keresőmotorjának, mivel kulcsszavas kereséssel fedezheti fel a különféle jelentésekben tárolt adatkészleteket az interneten.

Nyílt adatok: CERN

A CERN európai kutatószervezetnek van egy nyílt adatportálja, amelyen keresztül hozzáférhet a CERN kutatási eredményeihez. Ez az adatkészlet-portál két petabájtnyi részecskefizikával kapcsolatos adatot tartalmaz. Ezenkívül az adatok elemzéséhez szükséges alkalmazásokat és dokumentációt is tartalmazza.

Crime Data Explorer: FBI

A Crime Data Explorer (CDE) az FBI nyílt forráskódú adatkészlete, amelynek célja, hogy könnyebb hozzáférést biztosítson a bűnügyi, nem büntetőjogi és bűnüldözési adatok megosztásához. Amellett, hogy lehetővé teszi a szükséges adatok felfedezését vizualizáció és kategóriaszűrés révén, ez a platform lehetővé teszi az adatok CSV formátumban történő letöltését is.

Végső szavak

Eddig a kiváló minőségű adatkészletek valóban kimerítő listáján ment keresztül. A cikk különböző rések adatait mutatja be, mint például a fizikai tudomány, az orvosi feljegyzések, az űrkutatás, a bűnügyi nyilvántartások, a termékminősítések stb.

Az Ön által tervezett adattudományi vagy gépi tanulási projekttől függően választhat. Szinte az összes adatkészlet rendelkezik megfelelő utasításokkal is, amelyek segítenek a projektben.

Ezek a források is érdekelhetik az adattudomány és az ML tanulásához.