Die Bedeutung von Datensätzen und wo man sie findet
Die Suche nach geeigneten Datensätzen kann eine Herausforderung darstellen, insbesondere wenn sie für Projekte im Bereich des maschinellen Lernens (ML) und der Datenwissenschaft benötigt werden. Um Ihren Rechercheaufwand zu minimieren, haben wir eine umfassende Liste kostenloser Datensätze zusammengestellt.
Datensätze sind im Grunde genommen Sammlungen von Daten. Diese können finanzielle Informationen, Gesundheitsdaten, Börsendaten, Bankdaten, geografische Informationen, Forschungsdaten aus der Teilchenphysik oder auch Produktbewertungen von E-Commerce-Websites umfassen.
Datensätze beinhalten Daten, die nach wissenschaftlichen Erhebungsstandards erfasst wurden. Sie sind unerlässlich für Visualisierungen, Extraktionen und Prognosen. Da Daten im digitalen Zeitalter als das Äquivalent zu Rohöl gelten, sind qualitativ hochwertige Datensätze wertvoll und nicht immer leicht zu finden.
Lesen Sie weiter, um mehr über die Grundlagen von Datensätzen zu erfahren und einige Open-Source-Datensätze zu entdecken, die für Ihre Machine-Learning- (ML) oder Data-Science-Projekte wirklich kostenlos sind.
Was sind Datensätze?
Datensätze sind strukturierte und organisierte Sammlungen von Daten. Oftmals werden Datensätze mit einer bestimmten Quelle in Verbindung gebracht, wie beispielsweise die Open Data der Weltbank.
Zusätzlich bewahren Datensammler Datensätze oft spezifisch zu einem Thema auf, wie die vom United States Census Bureau veröffentlichten Daten der Volkszählung 2020.
Es gibt zahlreiche Datensätze zu globalen und lokalen Themen. Die meisten Datensätze beinhalten miteinander verknüpfte Datenpunkte, wie zum Beispiel die Bevölkerungszahl eines Landes und deren Zusammenhang mit Adipositas.
Datenwissenschaftler müssen solche Datensätze möglicherweise mit Hilfe von Big-Data-Tools bereinigen, umstrukturieren und verarbeiten, um aussagekräftige Schlussfolgerungen daraus zu ziehen.
Arten von Datensätzen
Datensätze können je nach ihrer Quelle öffentlich oder privat sein. Öffentliche Datensätze sind für jedermann zugänglich und leisten einen wertvollen Beitrag zur Forschung und Entwicklung.
Darüber hinaus können Datensätze je nach den darin enthaltenen Informationen verschiedenen Typen zugeordnet werden:
- Multivariat: Diese Daten enthalten mehrere Variablen.
- Kategorisch: Sie stellen verschiedene Kategorien von Personen dar.
- Numerisch: Solche Datensätze messen Daten in Zahlen, wie Alter oder Größe.
- Korrelation: Die Datenpunkte in diesem Typ sind miteinander verknüpft.
- Dateibasiert: Hier werden Datensätze in Dateien gespeichert.
- Bivariat: Ein Datensatz mit zwei Variablen und einer Beziehung zwischen ihnen.
- Webdatensatz: Daten, die von einem oder mehreren ähnlichen Internetportalen gesammelt wurden.
- Datenbank: Solche Datensätze speichern Daten in Tabellen, Spalten und Zeilen.
Open-Source-Datensätze für Data-Science-Projekte
Kostenlose Datensätze sind die Grundlage für Ihre Leidenschaft im Bereich der Datenwissenschaft. Besonders am Anfang Ihrer Karriere in der Datenwissenschaft möchten Sie vielleicht persönliche, nicht-kommerzielle Projekte durchführen, um Ihr Selbstvertrauen zu stärken oder Ihr Portfolio zu erweitern.
Sie können Ihre neu erworbenen Fähigkeiten leicht testen, indem Sie Werkzeuge und Techniken auf realen Datensatzproblemen anwenden.
Beispielsweise gibt es frei verfügbare Daten zur Krebsforschung, Covid-19-Daten, Strafregisterdaten des FBI und Daten zur Teilchenanalyse des CERN. Mit solchen Daten können Sie datenwissenschaftliche Modelle entwickeln, um wichtige soziale, finanzielle und gesundheitliche Fragen zu beantworten.
Solche Projekte verbessern außerdem Ihr Karriereportfolio. Wenn Sie ein erfolgreiches Datenanalysemodell entwickeln, das umsetzbare Erkenntnisse liefert, können Sie diese Modelle online durch Portfolio-Websites präsentieren. Arbeitgeber ziehen Projekte oft Absichtserklärungen vor.
Kostenlose Datensätze für Machine-Learning-Projekte
Ähnlich wie ein Experte im Bereich Data Science sollte auch ein ML-Experte an selbstinitiierten Projekten arbeiten, um seine Fähigkeiten zu demonstrieren. Erfolgreiche Projekte können ein wertvoller Bestandteil Ihres Online- oder Offline-Portfolios für ML-Projekte sein.
Es ist daher klar, dass Wachstum in den Bereichen Data Science und ML von strukturierten Datensätzen abhängt. Würden solche Datensätze zu sehr kommerzialisiert, würde die Forschung und Entwicklung im Bereich Data Science hauptsächlich auf Unternehmen ausgerichtet sein.
Um die datenwissenschaftliche ML-Forschung für alle zugänglich zu halten, bieten die folgenden Agenturen, Institutionen und Plattformen kostenlose Datensätze an:
Daten.gov
Auf Data.gov finden Sie alle offenen Daten, die von der US-Regierung gesammelt und verarbeitet werden. Die Plattform bietet auch Ressourcen und Werkzeuge für Recherchen, Datenvisualisierungen und die Entwicklung von mobilen/Web-Anwendungen.
Zu den bemerkenswerten Datensätzen gehören Daten zu nachhaltiger Landnutzung, Wohnungsbau im ländlichen Raum und elektronische Binnenschifffahrtskarten.
Offene Datensätze: Kaggle
Auf Kaggle steht eine Vielzahl von öffentlichen Daten und Computercodes für Data-Science-Projekte zur Verfügung. Sie können Datensätze für Rohdaten und Code für Programmiercodes auswählen. Beliebte Datensätze auf Kaggle sind AMEX-Daten, Zuschauerzahlen der Simpsons und Chatbot-Trainingsdaten.
Segmentdatensätze: YouTube 8-M
Die Segmentdatensätze von YouTube 8-M bieten von menschlichen Prüfern verifizierte Segmentanmerkungen. Auf demselben Portal haben Sie auch Zugriff auf den YouTube-8M-Datensatz. Dieser umfasst 6,1 Millionen Video-IDs, 350.000 Stunden Videomaterial, 2,6 Milliarden audiovisuelle Merkmale, 3863 Videokategorien und durchschnittlich 3,0 Labels pro Video.
Registrierung offener Daten auf AWS
Die ROD auf AWS unterstützt Datenwissenschaftler beim Teilen und Entdecken von Datensätzen, die auf AWS-Ressourcen gehostet werden. Einige interessante Datensätze sind das The Cancer Genome Atlas, Foldingathome COVID-19 Datasets und Common Crawl.
Repository für maschinelles Lernen: UCI
Das UCI Machine Learning Repository verwaltet aktuell 622 Datensätze, die sich für Data Scientists und ML-Ingenieure eignen, um ihre KI-Modelle zu trainieren. Es gibt auch eine durchsuchbare Schnittstelle, um die Datenbanken zu durchstöbern. Beliebte Datensätze sind der Accelerometer-Datensatz, der Synchronous Machine-Datensatz, Wikipedia Math Essentials und der Turkish Headlines-Datensatz.
Öffentliche BigQuery-Datasets: Google Cloud
Viele öffentliche Datensätze werden in BigQuery gespeichert. Google stellt den Datensatz über das Google Cloud Public Dataset Program kostenlos zur Verfügung. Die kostenlose Abfrage ist jedoch auf 1 TB pro Monat beschränkt. Sie können Standard-SQL- und Legacy-SQL-Abfragen ausführen.
Fantastische öffentliche Datensätze: GitHub
Awesome Public Datasets ist ein Open-Source-Datensatz, der themenzentrierte öffentliche Daten enthält. Gesammelt aus verschiedenen Blogs, Antworten und Nutzer-Feedback kombiniert es kostenlose und kostenpflichtige Datensätze aus den Bereichen Physik, Sport, Software, natürliche Sprache und maschinelles Lernen.
Daten der Weltbank
World Bank Open Data ist eine Plattform, die freien Zugang zu globalen Entwicklungsdaten bietet. Es bietet auch andere wertvolle Ressourcen wie vorformatierte Tabellen und Berichte. Sie können ganz einfach nach Land oder Indikator suchen, um den gewünschten Datensatz zu finden.
FiveThirtyEight: Daten
FiveThirtyEight ist eine amerikanische Website, die sich mit Meinungsumfragen, Politik, Wirtschaft und Sport befasst. Sie können über Datensätze der Plattform auf diese Umfragen und Prognosen zugreifen. Die Datensätze können einfach per Klick heruntergeladen werden.
ImageNet
ImageNet ist eine Bilddatenbank, die Forschern weltweit Open-Source-Datensätze für nicht-kommerzielle Projekte zur Verfügung stellt. Die Bilder sind nach der WordNet-Hierarchie organisiert. Das Projekt spielt eine wichtige Rolle in der fortgeschrittenen Deep-Learning-Forschung.
Datensätze Archive: UNICEF DATA
Das Datensatzarchiv ermöglicht den Zugriff auf Datensätze, die von UNICEF weltweit gesammelt wurden. Verfügbare Daten beziehen sich auf Migration, Vertreibung, Ernährung, Konnektivität, Bildung, Gesundheit, Lernen, Sterblichkeit, Gewalt, Entwicklung von Kindern, Kinderheirat, Kinderarbeit und verschiedene Statistiken.
Offene Daten finden: Govt. von Großbritannien
Wenn Ihr Projekt Daten benötigt, die von lokalen Stellen und der Zentralregierung des Vereinigten Königreichs veröffentlicht wurden, ist Find Open Data das richtige Portal. Es enthält Daten zu Staatsausgaben, Unternehmen, Gesundheit, Bildung, Verteidigung und weiteren Themen.
Daten: United States Census Bureau
Benötigen Sie Daten der US-Volkszählung für ein bestimmtes Projekt? Dann kann USCB Data helfen. Hier können Daten, Tabellen, Karten und Datenprofile der Volkszählung 2020 erkundet werden, während Daten visualisiert und Datentools verwendet werden können.
Daten und Statistiken: CDC
Die US-Bundesbehörde Centers for Disease Control and Prevention stellt ebenfalls kostenlose Datensätze zur Verfügung. Sie können über dieses Portal auf Daten und Statistiken zugreifen. Die Themen umfassen Umweltgesundheit, chronische Erkrankungen, Geburten und Geburten, Todesfälle und Sterblichkeit, Lebenserwartung, Verletzungen und Gewalt, reproduktive Gesundheit, nationale meldepflichtige Krankheiten usw.
Datensätze: MIT
Dieser Datensatz konzentriert sich auf Daten zu wirbelinduzierten Schwingungen. Das Center for Ocean Engineering am MIT hostet einige öffentlich zugängliche Datensätze zum Benchmarking von Computercodes. Die Datensätze sind für alle zugänglich, um neue Theorien zu entwickeln und Forschern auf dem Gebiet zu helfen.
Datenkatalog der Weltbank
Der Datenkatalog sammelt kostenlose Datensätze und ermöglicht einen einfachen Zugang zu Entwicklungsdaten der Weltbank. Die Nutzung in verschiedenen Projekten ist unkompliziert, da Sie Informationen leicht finden und herunterladen können. Er enthält über 5000 Datensätze, die die Mikrodaten-, Finanz- und Energieplattformen der Weltbank abdecken.
Weltraumwissenschaftliche Daten der NASA
Die NASA gewährt über das Space Science Data Coordinated Archive Zugriff auf ihre Archivdaten. Diese Plattform ist eine große Hilfe für die breite Öffentlichkeit, insbesondere für Personen im Bildungs- und Weltraumforschungsbereich. Sie umfasst 400 TB digitale Daten, die Informationen zu 550 Weltraumwissenschaften beinhalten.
Holen Sie sich die Daten: Inside Airbnb
Airbnb ist ein weltweit bekannter Online-Marktplatz für Gastfamilien und Ferienwohnungen. Get the Data bietet eine Sammlung von Daten über verschiedene Städte weltweit. Sie können durch Städte browsen, um schnell an die benötigten Daten zu gelangen. Darüber hinaus können Sie Ihre benötigten Daten anfordern und Annahmen einsehen.
Webdaten: Amazon Reviews
Wer sich für Marktforschung und Produktbewertungen interessiert, kann die von Snap Web Data bereitgestellten Datensätze nutzen. Diese enthalten über 34 Millionen Benutzerbewertungen auf Amazon von Juni 1995 bis März 2013. Der Datensatz umfasst Klartext, Produktinformationen, Benutzernamen, Bewertungen und eine Rezension.
IWF-Daten
Das IWF-Datenportal ist wertvoll für alle Arten von Wirtschafts- und Finanzdaten. Egal, ob Sie Finanzdaten des IWF, Statistiken zum Außensektor, führende Veröffentlichungen oder Daten zur Mikroökonomie suchen, hier finden Sie es. Sie können zudem einen Filter verwenden, um länderbezogene Daten zu erhalten.
Google Books-Ngrams
Wenn Sie an Wortarten und Sprache arbeiten, kann Google Books Ngrams Ihnen erheblich weiterhelfen. Dieser Open-Source-Datensatz gibt Ihnen einen Einblick, wie ein bestimmtes Wort oder ein bestimmter Ausdruck im Laufe der Geschichte oder in einer bestimmten Periode verwendet wurde. Die Quelle dieses Datensatzes sind die von Google indexierten digitalen Dokumente.
Marktdaten: The Financial Times
Wenn Sie verlässliche und genaue globale und regionale Aktienmarktdaten benötigen, ist Markets Data von The Financial Times die richtige Wahl. Sie können mit Marktdaten aus Amerika, Asien-Pazifik, Europa, Afrika und dem globalen Markt arbeiten.
Erddaten: NASA
Die NASA bietet über das Earth Data-Programm vollen und offenen Zugang zu ihren wissenschaftlichen Daten. Dies hilft Ihnen, unseren Heimatplaneten zu verstehen und damit Projekte durchzuführen. Sie finden kostenlose Datensätze zu Atmosphäre, Biosphäre, Kryosphäre, menschlichen Dimensionen, Landoberfläche, Ozean, fester Erde, Sonne-Erde-Wechselwirkung und terrestrischer Hydrosphäre.
Datensatzsuche: Google
Studenten, Forschern und Datenwissenschaftlern, die nach Datensätzen für Ihre Projekte suchen, kann das Portal Datensatzsuche hilfreich sein. Sie können es als eine Art Suchmaschine für Datensätze betrachten, da es Ihnen ermöglicht, Datensätze zu finden, die in verschiedenen Berichten im Internet gehostet werden, indem Sie nach Stichwörtern suchen.
Offene Daten: CERN
Die europäische Forschungsorganisation CERN betreibt ein Open-Data-Portal, über das Sie auf die Forschungsdaten des CERN zugreifen können. Dieses Portal beinhaltet zwei Petabyte an Daten zur Teilchenphysik. Zudem werden Anwendungen und Dokumentationen bereitgestellt, die für die Datenanalyse benötigt werden.
Crime Data Explorer: FBI
Der Crime Data Explorer (CDE) ist der Open-Source-Datensatz des FBI, der einen einfacheren Zugang zum Austausch von kriminellen, nicht-kriminellen und Strafverfolgungsdaten ermöglichen soll. Auf dieser Plattform können Sie nicht nur die gewünschten Daten durch Visualisierung und Kategoriefilterung ermitteln, sondern auch Daten im CSV-Format herunterladen.
Abschließende Worte
Sie haben nun eine umfassende Liste von qualitativ hochwertigen Datensätzen kennengelernt. Der Artikel präsentiert Daten aus verschiedenen Bereichen wie Naturwissenschaften, Krankenakten, Weltraumforschung, Strafregister, Produktbewertungen usw.
Je nach dem von Ihnen geplanten Data-Science- oder Machine-Learning-Projekt können Sie Ihre Auswahl treffen. Nahezu alle Datensätze enthalten auch hilfreiche Anleitungen, die Sie bei Ihrem Projekt unterstützen.
Vielleicht interessieren Sie sich auch für diese Ressourcen zum Thema Data Science und ML.