26 fantastiska öppna datamängder för dina datavetenskap/ML-projekt

By rik

Att navigera i den enorma mängden tillgängliga datauppsättningar kan vara en utmaning, särskilt om du behöver dem för projekt inom maskininlärning (ML) och datavetenskap. Vi förenklar ditt sökande genom att presentera en omfattande lista över kostnadsfria datauppsättningar.

En datauppsättning är i grunden en samling av information. Detta kan inkludera allt från finansiella data och folkhälsostatistik till aktiemarknadsinformation, bankuppgifter, geografiska data, forskningsresultat inom partikelfysik eller omdömen om produkter på en e-handelssida.

Dessa data är vanligtvis insamlade enligt vetenskapliga metoder och är viktiga för visualisering, analys, prognoser och andra tillämpningar. Data betraktas ofta som den digitala motsvarigheten till råolja, vilket gör datauppsättningar värdefulla och eftertraktade.

Läs vidare för att få en grundläggande förståelse för vad datauppsättningar är. Du kommer även att upptäcka flera öppna källkods-datauppsättningar som är helt gratis att använda för dina projekt inom maskininlärning eller datavetenskap.

Vad är datauppsättningar?

Datauppsättningar är organiserade samlingar av data som förvaras i en strukturerad form. Många förknippar datauppsättningar med specifika organisationer, som till exempel Världsbankens öppna data.

Datainsamlare skapar också datauppsättningar som är ämnesspecifika, till exempel 2020 års folkräkningsdata från USA, publicerad av United States Census Bureau.

Det finns en stor mängd datauppsättningar tillgängliga för både globala och lokala frågor. De flesta datauppsättningar innehåller relaterade datapunkter, till exempel ett lands befolkningsstatistik och hur fetma korrelerar med olika befolkningsgrupper.

Dataforskare kan behöva bearbeta, strukturera om och rena dessa data med hjälp av big data-verktyg för att dra värdefulla slutsatser. Det kan exempelvis handla om att minska plastavfall genom att analysera data om plastanvändning, åtgärda arbetskraftsproblem genom att analysera löneuppgifter, eller träna AI-modeller.

Typer av datauppsättningar

Datauppsättningar kan klassificeras som offentliga eller privata, beroende på deras källa. Offentliga datauppsättningar är fritt tillgängliga för alla och är viktiga för forskning och utveckling.

Datauppsättningar kan även klassificeras enligt den typ av information de innehåller:

  • Multivariat: Innehåller flera variabler.
  • Kategorisk: Visar olika kategorier av människor eller objekt.
  • Numerisk: Innehåller data som mäts i siffror, som ålder och höjd.
  • Korrelation: Innehåller datapunkter som är relaterade till varandra.
  • Filbaserad: Data lagras i filer.
  • Bivariat: Innehåller två variabler och deras samband.
  • Webb-datauppsättning: Data som samlats in från en eller flera webbplatser.
  • Databas: Data lagras i tabeller, kolumner och rader.

Öppna källkods-datauppsättningar för datavetenskapsprojekt

Gratis datauppsättningar är avgörande för att kunna utvecklas inom datavetenskap. Om du befinner dig i början av din karriär kan du vilja arbeta med personliga, icke-kommersiella projekt för att bygga upp självförtroende och stärka din portfölj.

Du kan enkelt testa dina färdigheter genom att använda verktyg och tekniker på verkliga problem som presenteras i datauppsättningar.

Det finns bland annat fritt tillgänglig data från cancerforskning, COVID-19-data, FBI:s brottsregister och data från partikelanalys vid CERN. Genom att använda sådan data kan du utveckla modeller för att adressera viktiga samhälleliga, ekonomiska och hälsorelaterade problem.

Dessa projekt kan också stärka din karriärportfölj. Om du lyckas bygga en analysmodell som ger värdefulla insikter kan du visa upp den på en portfolio-webbplats. Arbetsgivare föredrar ofta praktiska projekt framför teoretiska beskrivningar.

Gratis datauppsättningar för maskininlärningsprojekt

Liksom datavetare behöver även ML-experter arbeta med självstyrda projekt för att utforska sina färdigheter. Ett framgångsrikt projekt kan också bli en viktig del av din online- eller offlineportfölj av ML-projekt.

Som du ser är strukturerade datauppsättningar avgörande för utvecklingen inom datavetenskap och maskininlärning. Om dessa datauppsättningar vore starkt kommersialiserade skulle forskning och utveckling inom dessa områden främst gynna företagen.

För att hålla datavetenskaplig forskning och maskininlärning tillgänglig för alla erbjuder följande byråer, institutioner och plattformar gratis datauppsättningar:

Data.gov

Data.gov innehåller alla öppna data som samlats in och bearbetats av den amerikanska regeringen. Plattformen erbjuder även resurser och verktyg för forskning, design av datavisualiseringar och utveckling av mobil- och webbapplikationer.

Några av de mest anmärkningsvärda datauppsättningarna är data om hållbar markanvändning, bostäder på landsbygden och elektroniska sjökort.

Öppna datauppsättningar: Kaggle

Kaggle erbjuder en stor mängd offentlig data och datorkod för datavetenskapliga projekt. Du kan välja mellan datauppsättningar med rådata och kod för programmering. Populära datauppsättningar på Kaggle är bland annat AMEX-data, Simpsons-tittarsiffror och träningsdata för chattbotar.

Segmentdatauppsättningar: YouTube 8-M

Segmentdatauppsättningarna från YouTube 8-M innehåller segmentkommentarer som har verifierats av människor. Du kan även komma åt YouTube-8M-datauppsättningen från samma portal. Den innehåller information om 6,1 miljoner video-ID:n, 350 000 timmar video, 2,6 miljarder audio- och visuella funktioner, 3 863 videokategorier och i genomsnitt 3,0 etiketter per video.

Registry of Open Data på AWS

ROD på AWS gör det enklare för datavetare att dela och hitta datauppsättningar som finns på AWS-resurser. Några intressanta datauppsättningar som du kan hitta här är The Cancer Genome Atlas, Foldingathome COVID-19-datauppsättningen och Common Crawl.

Machine Learning Repository: UCI

UCI Machine Learning Repository har för närvarande 622 datauppsättningar som är lämpliga för datavetare och ML-ingenjörer för att träna sina AI-modeller. Det finns även en sökfunktion för att utforska databaserna. Populära datauppsättningar är bland annat accelerometerdata, synkroniseringsmaskindata, Wikipedia Math Essentials och turkiska rubrikdata.

BigQuery Public Dataset: Google Cloud

Många offentliga datauppsättningar lagras i BigQuery. Google erbjuder datasetet gratis via sitt Google Cloud Public Dataset Program. Det finns dock en gräns på 1 TB per månad för kostnadsfria frågor. Du kan använda standard SQL- och äldre SQL-frågor.

Fantastiska offentliga datauppsättningar: GitHub

Awesome Public Dataset är en datauppsättning med öppen källkod som innehåller ämnesspecifik offentlig data. Den sammanställs från olika bloggar, svar och användarfeedback, och kombinerar gratis och betalda datauppsättningar inom områden som fysik, sport, programvara, naturligt språk och maskininlärning.

Världsbankens data

World Bank Open Data är en plattform där du får gratis tillgång till global utvecklingsdata. Plattformen erbjuder även andra värdefulla resurser som förformaterade tabeller och rapporter. Du kan enkelt söka efter data per land eller indikator.

FiveThirtyEight: Data

FiveThirtyEight är en amerikansk webbplats som fokuserar på opinionsundersökningar, politik, ekonomi och sport. Du kan få tillgång till data från dessa omröstningar och prognoser via datauppsättningar på deras plattform. Datauppsättningarna kan laddas ner med ett klick.

ImageNet

ImageNet är en bilddatabas som forskare över hela världen kan använda för att få tillgång till öppna källkods-datauppsättningar för sina icke-kommersiella projekt. Bilderna är organiserade enligt WordNet-hierarkin. Projektet spelar en viktig roll i forskningen om djupinlärning på avancerad nivå.

Datasetarkiv: UNICEF DATA

Via Dataset Archives kan du få tillgång till datauppsättningar som samlats in av UNICEF runt om i världen. Här finns data om migration, fördrivning, kost, uppkoppling, utbildning, hälsa, lärande, dödlighet, våld, barns utveckling, barnäktenskap, barnarbete och olika statistiska uppgifter.

Hitta öppna data: Govt. av Storbritannien

Om ditt projekt behöver data som publicerats av lokala myndigheter och den brittiska regeringen är Find Open Data den plattform du bör kolla in. Den täcker statliga utgifter, företag, hälsa, utbildning, försvar och många fler datauppsättningar.

Data: United States Census Bureau

Behöver du amerikanska folkräkningsdata för ett projekt? Då kan du använda USCB Data. Här kan du utforska 2020 års folkräkningsdata, tabeller, kartor och dataprofiler samtidigt som du visualiserar data och använder dataverktyg.

Data och statistik: CDC

Den amerikanska federala myndigheten Centers for Disease Control and Prevention erbjuder också gratis datauppsättningar till allmänheten. På den här portalen kan du hitta data och statistik om ämnen som miljöhälsa, kroniska sjukdomar, födslar och förlossning, dödsfall och dödlighet, förväntad livslängd, skador och våld, reproduktiv hälsa och nationellt anmälningspliktiga sjukdomar.

Dataset: MIT

Dessa datauppsättningar fokuserar på virvelinducerad vibrationsdata. Center for Ocean Engineering vid MIT tillhandahåller några fritt tillgängliga datauppsättningar för att testa datorkod. Datauppsättningarna är öppna för alla och syftar till att uppmuntra nya teorier från data- och synkroniseringsforskare inom detta område.

Världsbankens datakatalog

Datakatalogen samlar in gratis datauppsättningar för att göra Världsbankens utvecklingsrelaterade data lättillgänglig. Det är enkelt att använda datan i olika projekt eftersom du kan hitta och ladda ner den information du behöver. Den innehåller över 5 000 datauppsättningar som täcker Världsbankens mikrodata, finans- och energiplattformar.

NASA:s rymdvetenskapsdata

NASA erbjuder tillgång till sina arkivdata genom Space Science Data Coordinated Archive. Denna plattform är till stor hjälp för allmänheten, särskilt de som arbetar inom utbildning och rymdforskning. Den innehåller 400 TB digital data som rör 550 rymdvetenskapliga projekt.

Hämta data: Inside Airbnb

Airbnb är en välkänd onlineplattform för boende och semesteruthyrning. De erbjuder även data om olika städer runt om i världen via Get the Data. Du kan söka efter data per stad. Du kan också begära den information du behöver och läsa dataantaganden på denna portal.

Webbdata: Amazon-recensioner

De som är intresserade av marknadsundersökningar och produktrecensioner bör använda datauppsättningarna från Snap Web Data. Den innehåller mer än 34 miljoner användarrecensioner på Amazon från juni 1995 till mars 2013. Datauppsättningen innehåller vanlig text, produktinformation, användarnamn, betyg och recensioner.

IMF-data

IMF:s dataplattform är användbar för alla typer av ekonomisk och finansiell data. Här hittar du bland annat finansdata från IMF, statistik över extern sektor, huvudpublikationer och mikroekonomisk data. Du kan även filtrera informationen för att få data per land.

Google Books Ngrams

Om du arbetar med språkanalys kan Google Books Ngrams vara ett värdefullt verktyg. Denna öppna källkods-datauppsättning ger dig insikt i hur specifika ord och fraser har använts genom historien eller under en viss tidsperiod. Datamaterialet kommer från digitala dokument som indexerats av Google.

Marknadsdata: Financial Times

Om du behöver tillförlitlig och korrekt data om globala och regionala aktiemarknader är Markets Data från The Financial Times ett bra alternativ. Här finns marknadsdata från Amerika, Asien-Stillahavsområdet, Europa, Afrika och den globala marknaden.

Jorddata: NASA

NASA ger fullständig och öppen tillgång till sina vetenskapliga data genom Earth Data-programmet. Detta program hjälper dig att förstå vår planet och genomföra relevanta projekt. Du hittar gratis datauppsättningar om atmosfären, biosfären, kryosfären, människans påverkan, landytan, haven, den fasta jorden, växelverkan mellan solen och jorden samt den terrestra hydrosfären.

Datasetsökning: Google

Oavsett om du är student, forskare eller datavetare kan du använda Dataset Search-portalen för att hitta datauppsättningar till ditt projekt. Det är en sökmotor för datauppsättningar som låter dig hitta material som finns i olika rapporter på webben genom att söka efter nyckelord.

Öppna data: CERN

Den europeiska forskningsorganisationen CERN har en öppen dataplattform där du kan hitta forskningsdata. Denna dataplattform innehåller två petabyte data relaterade till partikelfysik, samt tillhörande applikationer och dokumentation som krävs för dataanalys.

Crime Data Explorer: FBI

Crime Data Explorer (CDE) är en öppen källkods-datauppsättning från FBI. Den syftar till att underlätta delning av brotts-, icke-brottsrelaterad och brottsbekämpande data. Förutom att du kan söka efter data med hjälp av visualisering och kategorifiltrering låter plattformen dig ladda ner data i CSV-format.

Slutord

Du har nu tagit del av en omfattande lista över högkvalitativa datauppsättningar. Artikeln presenterar data från olika områden som fysik, medicinska journaler, rymdforskning, brottsregister, produktbetyg med mera.

Beroende på vilket datavetenskap- eller maskininlärningsprojekt du arbetar med kan du välja en lämplig datauppsättning. Nästan alla datauppsättningar har korrekta instruktioner som hjälper dig med ditt projekt.

Du kanske också är intresserad av dessa resurser för att lära dig datavetenskap och maskininlärning.