26 fantastiska öppna datamängder för dina datavetenskap/ML-projekt

Sökandet efter rätt datauppsättningar kan vara skrämmande, särskilt när du behöver dem för maskininlärning (ML) och datavetenskapsprojekt. Vi minskar dina forskningsansträngningar genom att tillhandahålla den ultimata listan med gratis datamängder.

Datauppsättningar är helt enkelt samlingar av data. Det kan vara finansiellt, samhällets hälsa, aktiemarknadsdata, bankdata, geografiska data, partikelvetenskaplig forskningsdata, betyg av produkter på en e-handelssida, etc.

Datauppsättningar innehåller data som samlats in genom en vetenskaplig undersökningsstandard och är viktiga för vidare visualisering, extraktion, prognoser etc. Eftersom data är motsvarigheten till råolja i det digitala universum, blir datauppsättningar kommersiella och knappa.

Fortsätt läsa för att ta reda på grunderna om datamängder. Du kommer också att upptäcka några datauppsättningar med öppen källkod som verkligen är gratis för dina maskininlärningsprojekt (ML) eller datavetenskap.

Vad är datamängder?

Dataset är insamling av data i en strukturerad och organiserad behållare. Vanligtvis associerar lantmätare datamängder med ett unikt organ, till exempel World Bank Open Data.

Återigen behåller datainsamlarna datamängder som är specifika för ett ämne som 2020 Census Data of the United States of America publicerad av United States Census Bureau.

Du hittar många dataset om globala och lokala frågor. De flesta datamängder innehåller inbördes relaterade datapunkter. Till exempel befolkningen i ett land och hur fetma relaterar till olika klasser av denna befolkning.

Dataforskarna kan behöva rengöra, omstrukturera och bearbeta sådana datamängder med hjälp av big data-verktyg för att komma fram till värdefulla slutsatser som att minska plastavfall genom att analysera plastanvändningsdata, åtgärda arbetskraftsproblem genom att analysera lönedata, träna artificiell intelligens (AI) och så på.

Typer av datamängder

Beroende på källan till datamängderna kan de vara offentliga eller privata. Offentliga datauppsättningar är öppna för alla och bidrar mycket till forskning och utveckling.

Återigen kan datauppsättningar vara av följande typer beroende på informationen i dem:

Multivariat: Sådan data innehåller flera variabler.
Kategoriskt: Det porträtterar många kategorier av människor.
Numerisk: Sådana datauppsättningar mäter data i siffror som ålder, höjd, etc.
Korrelation: I denna typ är datapunkter relaterade till varandra.
Filbaserad: Här lagras datauppsättningar i filer.
Bivariat: En datauppsättning med två variabler och ett samband mellan dem.
Web Dataset: Data som samlats in från en eller flera liknande internetportaler.
Databas: Sådana datauppsättningar lagrar data i tabeller, kolumner och rader.

Dataset med öppen källkod för datavetenskapsprojekt

Gratis datauppsättningar är bränslet för att driva din passion för en datavetenskapskarriär. För om du är i de tidiga stadierna av din datavetenskapskarriär kanske du vill ta dig an personliga och icke-kommersiella projekt för självförtroende eller portföljbyggande.

För det första kan du enkelt testa dina nyinlärda färdigheter genom att använda verktyg och tekniker på datauppsättningsproblem i verkliga världen.

Till exempel finns det fritt tillgängliga cancerforskningsdata, Covid-19-data, FBI:s kriminalregisterdata, partikelanalysdata från CERN, etc. Du kan använda sådan data och bygga en datavetenskaplig modell för att svara på viktiga sociala, ekonomiska och hälsofrågor .

För det andra fungerar sådana projekt som portföljförstärkare för din karriär. Om du kan bygga en framgångsrik dataanalysmodell som kan erbjuda praktiska insikter, kan du visa upp dessa modeller online genom att skapa portföljwebbplatser. Arbetsgivare föredrar projekt framför syftesförklaringar.

Gratis datamängder för maskininlärningsprojekt

Liksom en datavetenskaplig proffs måste en ML-proffs också arbeta med självstyrda projekt för att undersöka sina färdigheter. Om projektet blir framgångsrikt blir det också en idealisk komponent för din online- eller offlineportfölj av ML-projekt.

Därför kan du nu förstå att datavetenskap och ML-tillväxt beror på strukturerade datamängder. Om sådana datauppsättningar var alltför kommersialiserade skulle forskning och utveckling inom datavetenskapsområdet bli helt företagscentrerad.

För att hålla datavetenskaplig ML-forskning öppen för alla erbjuder följande byråer, institutioner och plattformar gratis datamängder:

Data.gov

Du hittar alla öppna data som samlats in och bearbetats av den amerikanska regeringen. i Data.gov. Plattformen erbjuder även resurser och verktyg för att bedriva forskning, designa datavisualiseringar, utveckla mobil-/webbappar, etc.

Dess anmärkningsvärda datauppsättningar inkluderar data om hållbar markanvändning, data om bostäder på landsbygden, elektroniska sjökort för inlandet, etc.

Öppna datamängder: Kaggle

Kaggle erbjuder en ocean av offentliga data och datorkoder för datavetenskapliga projekt. Du kan välja Dataset för rådata och Kod för programmering av koder. Trendiga dataset på Kaggle är AMEX-data, Simpsons Viewership, Chatbot-träningsdata, etc.

Segmentdataset: YouTube 8-M

Segmentdatauppsättningar från YouTube 8-M erbjuder dig segmentkommentarer verifierade av mänskliga revisorer. Du kan också komma åt YouTube-8M Dataset från samma portal. Datauppsättningen innehåller 6,1 miljoner video-ID:n, 350 000 timmar video, 2,6 miljarder audio/visuella funktioner, 3863 klasser av videor och i genomsnitt 3,0 etiketter per video.

Registry of Open Data på AWS

ROD på AWS hjälper datavetare att dela och upptäcka datauppsättningar som finns på AWS-resurser. Några intressanta datauppsättningar du kan hitta här är The Cancer Genome Atlas, Foldingathome COVID-19 Dataset, Common Crawl, etc.

Machine Learning Repository: UCI

UCI Machine Learning Repository har för närvarande 622 datauppsättningar som är lämpliga för datavetare och ML-ingenjörer att träna sina AI-modeller. Det finns också ett sökbart gränssnitt för att undersöka databaserna. Populära attraktioner är Accelerometer-dataset, Synchronous Machine-dataset, Wikipedia Math Essentials, Turkish Headlines-dataset, etc.

BigQuery Public Dataset: Google Cloud

Många offentliga datauppsättningar lagras på BigQuery. Google gör datasetet tillgängligt gratis via Google Cloud Public Dataset Program. Den kostnadsfria frågan har dock en gräns på 1 TB per månad. Du kan utföra standard SQL och äldre SQL-frågor.

Fantastiska offentliga datauppsättningar: GitHub

Awesome Public Dataset är en datauppsättning med öppen källkod som innehåller ämnescentrerad offentlig data. Samlad och sorterad från olika bloggar, svar och användarfeedback, den kombinerar gratis och betalda datamängder om fysik, sport, mjukvara, naturligt språk och maskininlärning.

Världsbankens data

World Bank Open Data är plattformen där du får gratis tillgång till global utvecklingsdata. Den erbjuder också andra värdefulla resurser som förformaterade tabeller och rapporter. Du kan enkelt bläddra efter land eller indikator för att få den data som krävs.

FiveThirtyEight: Data

FiveThirtyEight är en amerikansk webbplats som handlar om opinionsundersökningar, politik, ekonomi och sport. Du kan komma åt dessa omröstningar och prognoser via datamängder från dess plattform. Du kan ladda ner datamängderna med ett klick.

ImageNet

ImageNet är en bilddatabas från vilken forskare över hela världen kan få datauppsättningar med öppen källkod för sina icke-kommersiella projekt. Här är bilderna organiserade utifrån WordNet-hierarkin. Projektet spelar en viktig roll i forskning om djupinlärning på avancerad nivå.

Datasetarkiv: UNICEF DATA

Med hjälp av Dataset Archives kan du få tag på datauppsättningar som samlats in av UNICEF över hela världen. Data om migration, fördrivning, kost, uppkoppling, utbildning, hälsa, lärande, dödlighet, våld, barndomsutveckling, barnäktenskap, barnarbete och olika statistik finns här.

Hitta öppna data: Govt. av Storbritannien

Om ditt projekt behöver data publicerade av lokala organ och Storbritanniens centrala regering, är Find Open Data portalen du bör kolla in. Den täcker statliga utgifter, företag, hälsa, utbildning, försvar och fler datauppsättningar.

Data: United States Census Bureau

Behöver du amerikanska folkräkningsdata för ett relevant projekt? Du kan ta hjälp av USCB Data. Här kan du utforska 2020 års folkräkningsdata, tabeller, kartor och dataprofiler samtidigt som du visualiserar data och använder dataverktyg.

Data och statistik: CDC

Den amerikanska federala myndigheten Centers for Disease Control and Prevention tillhandahåller också gratis datamängder till allmänheten för att få tillgång till data och statistik från denna portal. Datasetets ämnen är miljöhälsa, kroniska sjukdomar, födslar och förlossning, dödsfall och dödlighet, förväntad livslängd, skador och våld, reproduktiv hälsa, nationella anmälningspliktiga sjukdomar, etc.

Dataset: MIT

Denna datauppsättning fokuserar på virvelinducerade vibrationsdata. Center for Ocean Engineering vid MIT är värd för några allmänt tillgängliga datauppsättningar för benchmarking av datorkod. Datauppsättningarna är öppna för alla för att bjuda in nya teorier från data- och synkroniseringsforskare som arbetar inom samma område.

Världsbankens datakatalog

Datakatalogen samlar in gratis datamängder som gör Världsbankens utvecklingsrelaterade data lättillgänglig. Att använda det i olika projekt är enkelt eftersom du enkelt kan hitta och ladda ner den information du föredrar. Den innehåller över 5 000 datamängder som täcker Världsbankens mikrodata, ekonomi och energiplattformar.

NASA rymdvetenskapsdata

NASA erbjuder tillgång till sina arkivdata på Space Science Data Coordinated Archive. Denna plattform är till stor hjälp för allmänheten, särskilt personer som arbetar inom utbildning och rymdforskning. Den har 400 TB digital data som innehåller information om 550 rymdvetenskap.

Hämta data: Inuti Airbnb

Airbnb är en globalt känd onlinemarknadsplats för hemvistelser och semesteruthyrning. Det erbjuder också datainsamling om olika städer över hela världen från Get the Data. Du kan bläddra igenom staden för att snabbt få information. Dessutom kan du begära dina nödvändiga uppgifter och läsa dataantaganden på denna portal.

Webbdata: Amazon recensioner

De som är intresserade av marknadsundersökningar och produktrecensioner bör använda datamängderna från Snap Web Data. Den innehåller mer än 34 miljoner användarrecensioner på Amazon, från juni 1995 till mars 2013. Datauppsättningen innehåller vanlig text, produktinformation, användarnamn, betyg och en recension.

IMF-data

IMFs dataportal är värdefull för alla ekonomiska och finansiella datatyper. Oavsett om du letar efter IMF:s finansdata, extern sektorstatistik, flaggskeppspublikationer eller mikroekonomidata, är det här du kan hitta dem. Dessutom kan du använda ett filter för att få landsvis data.

Google Böcker Ngrams

Om du arbetar med delar av tal och språk kan Google Books Ngrams hjälpa dig mycket. Denna datauppsättning med öppen källkod ger dig en uppfattning om hur du använder ett visst ord och en fras genom historien eller ett specifikt tidsintervall. Källan till denna datamängd är de digitala dokument som indexerats av Google.

Marknadsdata: Financial Times

Om du vill få tag på tillförlitlig och korrekt global och regional aktiemarknadsdata, är Markets Data av The Financial Times här för att hjälpa dig. Det gör att du kan arbeta med marknadsdata från Amerika, Asien-Stillahavsområdet, Europa, Afrika och den globala marknaden.

Jorddata: NASA

NASA ger fullständig och öppen tillgång till sina vetenskapliga data genom Earth Data-programmet som hjälper dig att förstå vår hemplanet och göra projekt med den. Du kan hitta gratis datamängder om atmosfär, biosfär, kryosfär, mänskliga dimensioner, landyta, hav, fast jord, sol-jord-interaktion och terrestra hydrosfär.

Datasetsökning: Google

Om du är student, forskare eller datavetare som letar efter datauppsättningar för att stödja ditt projekt, kan du ta hjälp av Dataset Search-portalen. Du kan kalla det en sökmotor för datamängder eftersom den låter dig upptäcka datamängder som finns i olika rapporter på webben genom nyckelordssökning.

Öppna data: CERN

Den europeiska forskningsorganisationen CERN har en Open Data-portal som du kan använda för att komma åt forskningsgenererad data på CERN. Denna datamängdsportal innehåller två petabyte data relaterad till partikelfysik. Dessutom kommer den med applikationer och dokumentation som behövs för dataanalys.

Crime Data Explorer: FBI

Crime Data Explorer (CDE) är datauppsättningen med öppen källkod från FBI som syftar till att ge enklare åtkomst till delning av kriminella, icke-kriminella och brottsbekämpande data. Förutom att låta dig upptäcka nödvändig data genom visualisering och kategorifiltrering, låter den här plattformen dig ladda ner data i CSV-format.

Slutord

Hittills har du gått igenom en verkligt uttömmande lista över datauppsättningar av hög kvalitet. Artikeln presenterar data från olika nischer som fysik, medicinska register, rymdforskning, kriminalregister, produktbetyg, etc.

Beroende på vilket datavetenskap eller maskininlärningsprojekt du håller på med kan du välja. Nästan alla datamängder har också korrekta instruktioner för att hjälpa dig med ditt projekt.

Du kanske också är intresserad av dessa resurser för att lära dig datavetenskap och ML.