21 plaatsen om gratis datasets te vinden voor data science projecten

Als je ooit aan een persoonlijk data science project hebt gewerkt, heb je waarschijnlijk veel tijd besteed aan het surfen op het internet op zoek naar interessante datasets om te analyseren. Het kan leuk zijn om tientallen datasets door te spitten om de perfecte te vinden, maar het kan ook frustrerend zijn om verschillende CSV-bestanden te downloaden en te importeren, om je vervolgens te realiseren dat de data toch niet zo interessant is. Gelukkig zijn er online repositories die datasets cureren en (meestal) de oninteressante datasets verwijderen.

In dit bericht lopen we door verschillende soorten data science-projecten, waaronder datavisualisatieprojecten, dataschoonmaakprojecten en machine learning-projecten, en identificeren we goede plaatsen om datasets voor elk te vinden. Of je nu je data science-portfolio wilt versterken door te laten zien dat je data goed kunt visualiseren, of je hebt een paar uurtjes vrij en wilt je machine learning-vaardigheden oefenen, wij hebben het voor je geregeld.

Maar laten we eerst een paar snelle, fundamentele vragen beantwoorden:

Wat is een dataset?

Een dataset, of dataset, is eenvoudigweg een verzameling gegevens.

De eenvoudigste en meest voorkomende indeling voor datasets die u online zult vinden, is een spreadsheet- of CSV-indeling – een enkel bestand georganiseerd als een tabel met rijen en kolommen. Maar sommige datasets worden in andere formaten opgeslagen, en ze hoeven niet uit één bestand te bestaan. Soms is een dataset een zip-bestand of een map met meerdere gegevenstabellen met gerelateerde gegevens.

Hoe worden datasets gemaakt?

Verschillende datasets worden op verschillende manieren gemaakt. In deze post vind je links naar bronnen met allerlei soorten datasets. Sommige daarvan zijn door machines gegenereerde gegevens. Sommige zijn gegevens die zijn verzameld via enquêtes. Sommige kunnen gegevens zijn die zijn vastgelegd door menselijke waarnemingen. Of gegevens die van websites zijn geschraapt of via API’s.

Wanneer je met een dataset werkt, is het belangrijk om na te denken over de vraag: hoe is deze dataset tot stand gekomen? Waar komen de gegevens vandaan? Spring niet meteen in de analyse; neem de tijd om de data waarmee je werkt eerst te begrijpen.

Publieke datasets voor datavisualisatieprojecten

Een typisch datavisualisatieproject zou iets kunnen zijn in de trant van “Ik wil een infographic maken over hoe het inkomen varieert tussen de verschillende staten in de VS”. Er zijn een paar overwegingen om in gedachten te houden bij het zoeken naar een goede dataset voor een datavisualisatieproject:

  • Het moet niet rommelig zijn, want je wilt niet veel tijd besteden aan het opschonen van data.
  • Het moet genuanceerd en interessant genoeg zijn om grafieken over te maken.
  • Iedere kolom moet goed worden uitgelegd, zodat de visualisatie accuraat is.
  • De dataset moet niet te veel rijen of kolommen hebben, zodat het gemakkelijk is om mee te werken.

Een goede plek om goede datasets te vinden voor datavisualisatieprojecten zijn nieuwssites die hun data publiekelijk vrijgeven. Ze schonen de gegevens meestal voor je op en hebben ook al grafieken gemaakt die je kunt repliceren of verbeteren.

FiveThirtyEight

FiveThirtyEight is een ongelooflijk populaire interactieve nieuws- en sportwebsite die is opgericht door Nate Silver. Ze schrijven interessante data-gedreven artikelen, zoals “Don’t blame a skills gap for lack of hiring in manufacturing” en “2016 NFL Predictions”.

FiveThirtyEight maakt de datasets die gebruikt worden in zijn artikelen online beschikbaar op Github.

Bekijk de FiveThirtyEight Data sets

Hier zijn enkele voorbeelden:

  • Airline Safety – bevat informatie over ongelukken van elke luchtvaartmaatschappij.
  • Weersgeschiedenis VS – historische weergegevens voor de VS.
  • Studie Drugs – gegevens over wie Adderall gebruikt in de VS.

BuzzFeed

BuzzFeed begon als een leverancier van artikelen van lage kwaliteit, maar is inmiddels geëvolueerd en schrijft nu enkele onderzoeksstukken, zoals “De rechtbank die de wereld regeert” en “Het korte leven van Deonte Hoard”.

BuzzFeed stelt de datasets die in zijn artikelen worden gebruikt beschikbaar op Github.

Bekijk de BuzzFeed Data sets

Hier zijn enkele voorbeelden:

  • Federal Surveillance Planes – bevat gegevens over vliegtuigen die worden gebruikt voor binnenlandse surveillance.
  • Zika Virus – gegevens over de geografie van de uitbraak van het Zika-virus.
  • Firearm background checks – gegevens over achtergrondcontroles van mensen die vuurwapens proberen te kopen.

NASA

NASA is een door de overheid gefinancierde organisatie, en al haar gegevens zijn dus openbaar. Het onderhoudt websites waar iedereen zijn datasets met betrekking tot aardwetenschappen en datasets met betrekking tot de ruimte kan downloaden. Je kunt zelfs sorteren op formaat op de aardwetenschappelijke site om bijvoorbeeld alle beschikbare CSV datasets te vinden.

Publieke datasets voor dataverwerkingsprojecten

Soms wil je gewoon werken met een grote dataset. Het eindresultaat is niet zo belangrijk als het proces van inlezen en analyseren van de gegevens. Je zou tools als Spark of Hadoop kunnen gebruiken om de verwerking over meerdere nodes te verdelen. Zaken om in gedachten te houden bij het zoeken naar een goede dataset voor dataverwerking:

  • Hoe schoner de data, hoe beter – het schonen van een grote dataset kan erg tijdrovend zijn.
  • De dataset moet interessant zijn.
  • Er moet een interessante vraag zijn die met de data kan worden beantwoord.

Een goede plek om grote openbare datasets te vinden zijn cloudhostingproviders als Amazon en Google. Zij hebben een prikkel om de datasets te hosten, omdat ze ervoor zorgen dat u ze analyseert met behulp van hun infrastructuur (en hen betaalt).

AWS Public Data sets

Amazon stelt grote datasets beschikbaar op zijn Amazon Web Services-platform. U kunt de gegevens downloaden en ermee werken op uw eigen computer, of de gegevens analyseren in de cloud met behulp van EC2 en Hadoop via EMR. Meer informatie over de werking van het programma vindt u hier.

Amazon heeft een pagina met een overzicht van alle datasets, waar u doorheen kunt bladeren. Je hebt een AWS-account nodig, hoewel Amazon voor nieuwe accounts een gratis toegangs-tier geeft waarmee je de gegevens kunt verkennen zonder dat je hoeft te betalen.

Bekijk AWS Public Data sets

Hier zijn enkele voorbeelden:

  • Lijsten met n-grammen van Google Books – veelvoorkomende woorden en woordgroepen uit een enorme set boeken.
  • Common Crawl Corpus – gegevens van een crawl van meer dan 5 miljard webpagina’s.
  • Landsat-beelden – satellietbeelden met gemiddelde resolutie van het aardoppervlak.

Google Public Data sets

Naast Amazon heeft Google ook een cloud hosting-dienst, genaamd Google Cloud Platform. Met GCP kunt u een tool genaamd BigQuery gebruiken om grote datasets te onderzoeken.

Google geeft een overzicht van alle datasets op een pagina. U moet zich aanmelden voor een GCP account, maar de eerste 1TB aan query’s die u maakt zijn gratis.

Bekijk Google Public Data sets

Hier zijn enkele voorbeelden:

  • USA Names – bevat alle Social Security naamaanvragen in de VS, van 1879 tot 2015.
  • Github Activity – bevat alle openbare activiteit op meer dan 2,8 miljoen openbare Github-repositories.
  • Historisch weer – gegevens van 9000 NOAA-weerstations van 1929 tot 2016.

Wikipedia

Wikipedia is een gratis, online, door de gemeenschap bewerkte encyclopedie. Wikipedia bevat een verbazingwekkende hoeveelheid kennis, met pagina’s over alles van de Ottomaans-Habsburgse oorlogen tot Leonard Nimoy. Als onderdeel van Wikipedia’s engagement om kennis te bevorderen, bieden ze al hun inhoud gratis aan en genereren ze regelmatig dumps van alle artikelen op de site. Bovendien biedt Wikipedia een bewerkingsgeschiedenis en activiteit, zodat je kunt volgen hoe een pagina over een onderwerp zich in de loop van de tijd ontwikkelt, en wie eraan bijdraagt.

De verschillende manieren om de gegevens te downloaden zijn te vinden op de Wikipedia-site. U vindt er ook scripts om de gegevens op verschillende manieren te herformatteren.

Bekijk Wikipedia Data sets

Hier zijn enkele voorbeelden:

  • Alle afbeeldingen en andere media van Wikipedia – alle afbeeldingen en andere mediabestanden op Wikipedia.
  • Volledige site dumps – van de inhoud op Wikipedia, in verschillende formaten.

Publieke Datasets voor Machine Learning Projecten

Wanneer je werkt aan een machine learning project, wil je een kolom kunnen voorspellen uit de andere kolommen in een dataset. Om dit te kunnen doen, moeten we ervoor zorgen dat:

  • De dataset niet te rommelig is – als dat wel zo is, besteden we al onze tijd aan het opschonen van de data.
  • Er een interessante doelkolom is om voorspellingen voor te doen.
  • De andere variabelen hebben enige verklarende kracht voor de doelkolom.

Er zijn een paar online repositories van datasets die specifiek voor machine learning zijn. Deze datasets zijn meestal van tevoren opgeschoond, en maken het mogelijk om algoritmen zeer snel te testen.

Kaggle

Kaggle is een data science community die machine learning wedstrijden organiseert. Er zijn een verscheidenheid aan extern bijgedragen interessante datasets op de site. Kaggle heeft zowel live als historische wedstrijden. U kunt gegevens downloaden voor beide, maar u moet zich aanmelden voor Kaggle en de servicevoorwaarden voor de concurrentie accepteren.

U kunt gegevens downloaden van Kaggle door deel te nemen aan een wedstrijd. Elke wedstrijd heeft zijn eigen bijbehorende dataset. Er zijn ook door gebruikers bijgedragen datasets te vinden in het nieuwe Kaggle Data sets aanbod.

View Kaggle Data setsView Kaggle Competitions

Hier zijn enkele voorbeelden:

  • Satellite Photograph Order – een dataset van satellietfoto’s van de aarde – het doel is om te voorspellen welke foto’s eerder zijn genomen dan andere.
  • Manufacturing Process Failures – een dataset van variabelen die zijn gemeten tijdens het productieproces. Het doel is om fouten in het fabricageproces te voorspellen.
  • Meerkeuzevragen – een dataset van meerkeuzevragen en de bijbehorende juiste antwoorden. Het doel is om het antwoord op een gegeven vraag te voorspellen.

UCI Machine Learning Repository

De UCI Machine Learning Repository is een van de oudste bronnen van datasets op het web. Hoewel de datasets door gebruikers zijn bijgedragen en dus verschillende niveaus van documentatie en netheid hebben, is de overgrote meerderheid schoon en klaar om te worden toegepast voor machine learning. UCI is een goede eerste stop als je op zoek bent naar interessante datasets.

Je kunt data direct downloaden van de UCI Machine Learning repository, zonder registratie. Deze datasets zijn meestal vrij klein, en hebben niet veel nuance, maar zijn goed voor machine learning.

View UCI Machine Learning Repository

Hier zijn enkele voorbeelden:

  • E-mail spam – bevat e-mails, samen met een label of ze wel of geen spam zijn.
  • Wijnclassificatie – bevat diverse attributen van 178 verschillende wijnen.
  • Zonnevlammen – attributen van zonnevlammen, nuttig voor het voorspellen van kenmerken van zonnevlammen.

Quandl

Quandl is een opslagplaats van economische en financiële gegevens. Een deel van deze informatie is gratis, maar veel datasets moeten worden aangeschaft. Quandl is nuttig voor het bouwen van modellen om economische indicatoren of aandelenkoersen te voorspellen. Door de grote hoeveelheid beschikbare datasets is het mogelijk om een complex model te bouwen dat gebruik maakt van veel datasets om waarden in een andere dataset te voorspellen.

Bekijk Quandl Data sets.

Hier zijn enkele voorbeelden:

  • Ondernemersactiviteit naar ras en andere factoren – bevat gegevens van de Kauffman foundation over ondernemers in de VS.
  • Chinese macro-economische gegevens – indicatoren van de Chinese economische gezondheid.
  • US Federal Reserve data – Amerikaanse economische indicatoren, van de Federal Reserve.

Publieke datasets voor dataschoningsprojecten

Soms kan het heel bevredigend zijn om een dataset te nemen die verspreid is over meerdere bestanden, ze op te schonen, ze samen te vatten in één bestand, en dan een analyse uit te voeren. Bij dataschoningsprojecten kost het soms uren onderzoek om uit te zoeken wat elke kolom in de dataset betekent. Soms kan blijken dat de dataset die je analyseert niet echt geschikt is voor wat je probeert te doen, en moet je opnieuw beginnen.

Bij het zoeken naar een goede dataset voor een dataschoningsproject, wil je dat deze:

  • verspreid is over meerdere bestanden.
  • veel nuance hebben, en veel mogelijke invalshoeken.
  • een goede hoeveelheid onderzoek vereisen om te begrijpen.
  • zo “real-world” mogelijk zijn.

Dit soort datasets wordt meestal gevonden op aggregators van datasets. Deze aggregatoren hebben de neiging om datasets uit meerdere bronnen te hebben, zonder veel curatie.

data.world

data.world beschrijft zichzelf als ‘het sociale netwerk voor datamensen’, maar kan beter worden omschreven als ‘GitHub voor data’. Het is een plek waar je datasets kunt zoeken, kopiëren, analyseren en downloaden. Daarnaast kun je je data uploaden naar data.world en deze gebruiken om samen te werken met anderen.

In relatief korte tijd is het een van de ‘go to’ plaatsen geworden om data te verkrijgen, met veel door gebruikers bijgedragen datasets, maar ook fantastische datasets via data.World’s partnerships met verschillende organisaties, waaronder een grote hoeveelheid data van de Amerikaanse federale overheid.

Een belangrijke onderscheidende factor van data.world zijn de tools die ze hebben gebouwd om het werken met data makkelijker te maken – je kunt SQL queries schrijven binnen hun interface om data te verkennen en meerdere datasets samen te voegen. Ze hebben ook SDK’s voor R en python om het verkrijgen van en het werken met data in de tool van je keuze te vergemakkelijken (je zou geïnteresseerd kunnen zijn in het lezen van onze tutorial over de data.world Python SDK.)

Bekijk data.world Data sets

Data.gov

Data.gov is een relatief nieuwe site die deel uitmaakt van een Amerikaanse inspanning om de overheid open te stellen. Data.gov maakt het mogelijk om gegevens van verschillende Amerikaanse overheidsinstellingen te downloaden. De gegevens kunnen variëren van overheidsbudgetten tot schoolprestatiescores. Voor veel van de gegevens is aanvullend onderzoek nodig, en het kan soms moeilijk zijn om uit te zoeken welke dataset de “juiste” versie is. Iedereen kan de gegevens downloaden, hoewel voor sommige datasets extra hoepels moeten worden doorgesprongen, zoals het akkoord gaan met licentieovereenkomsten.

U kunt de datasets op Data.gov direct doorzoeken, zonder te registreren. U kunt bladeren op onderwerp, of zoeken naar een specifieke dataset.

Bekijk Data.gov Data sets

Hier zijn enkele voorbeelden:

  • Food Environment Atlas – bevat gegevens over hoe lokale voedselkeuzes het dieet in de VS beïnvloeden.
  • School system finances – een onderzoek naar de financiën van schoolsystemen in de VS.
  • Gegevens over chronische ziekten – gegevens over indicatoren voor chronische ziekten in gebieden in de VS.

De Wereldbank

De Wereldbank is een wereldwijde ontwikkelingsorganisatie die leningen en advies verstrekt aan ontwikkelingslanden. De Wereldbank financiert regelmatig programma’s in ontwikkelingslanden en verzamelt vervolgens gegevens om het succes van deze programma’s te monitoren.

U kunt direct door de datasets van de Wereldbank bladeren, zonder u te registreren. De datasets hebben veel ontbrekende waarden, en het kost soms meerdere klikken om daadwerkelijk bij de gegevens te komen.

Bekijk World Bank Data sets

Hier zijn enkele voorbeelden:

  • World Development Indicators – bevat informatie op landenniveau over ontwikkeling.
  • Educational Statistics – gegevens over onderwijs per land.
  • Projectkosten van de Wereldbank – gegevens over projecten van de Wereldbank en de bijbehorende kosten.

/r/datasets

Reddit, een populaire discussiesite van de gemeenschap, heeft een sectie gewijd aan het delen van interessante datasets. Het heet de datasets subreddit, of /r/datasets. De omvang van deze datasets varieert nogal, omdat ze allemaal door gebruikers zijn ingediend, maar ze zijn over het algemeen erg interessant en genuanceerd.

Je kunt de subreddit hier doorbladeren. Je kunt ook de meest geupvote datasets hier bekijken.

View Top /r/datasets Posts

Hier zijn enkele voorbeelden:

  • All Reddit submissions – bevat reddit submissions tot en met 2015.
  • Jeopardy questions – vragen en puntwaarden uit de gameshow Jeopardy.
  • New York City property tax data – gegevens over eigendommen en taxatiewaarde in New York City.

Academic Torrents

Academic Torrents is een nieuwe site die zich richt op het delen van de datasets van wetenschappelijke artikelen. Het is een nieuwere site, dus het is moeilijk te zeggen hoe de meest voorkomende soorten datasets eruit zullen zien. Voorlopig staan er een heleboel interessante datasets op, maar zonder context.

Je kunt de datasets direct op de site bekijken. Omdat het een torrent site is, kunnen alle data sets direct worden gedownload, maar je hebt wel een Bittorrent client nodig. Deluge is een goede gratis optie.

View Academic Torrents Data sets

Hier zijn enkele voorbeelden:

  • Enron emails – een set van vele emails van leidinggevenden bij Enron, een bedrijf dat beroemd failliet ging.
  • Student learning factors – een set van factoren die het leren van studenten meten en beïnvloeden.
  • Nieuwsartikelen – bevat kenmerken van nieuwsartikelen en een doelvariabele.

Bonus: Streaming data

Het is heel gebruikelijk als je een data science-project bouwt om een dataset te downloaden en die vervolgens te verwerken. Maar naarmate online diensten meer en meer data genereren, wordt steeds meer data in real-time gegenereerd, en niet beschikbaar in datasetvorm. Enkele voorbeelden hiervan zijn gegevens over tweets van Twitter, en gegevens over aandelenkoersen. Er zijn niet veel goede bronnen om aan dit soort gegevens te komen, maar we noemen er een paar voor het geval je zelf een streaming data-project wilt proberen.

Twitter

Twitter heeft een goede streaming API, en maakt het relatief eenvoudig om tweets te filteren en te streamen. Je kunt hier aan de slag. Er zijn tal van opties – je kunt bijvoorbeeld uitzoeken welke staten het gelukkigst zijn, of welke landen de meest complexe taal gebruiken. We hebben onlangs ook een artikel geschreven om je hier op weg te helpen met de Twitter API.

Ga aan de slag met de Twitter API

Github

Github heeft een API waarmee je toegang kunt krijgen tot repository-activiteit en code. Je kunt hier aan de slag met de API. De mogelijkheden zijn eindeloos – je zou een systeem kunnen bouwen om de kwaliteit van code automatisch te scoren, of uit kunnen zoeken hoe code zich in de loop der tijd ontwikkelt in grote projecten.

Ga aan de slag met de Github API

Quantopian

Quantopian is een site waar je algoritmen voor het handelen in aandelen kunt ontwikkelen, testen en operationaliseren. Om je daarbij te helpen, geven ze je toegang tot gratis, minuut-tot-minuut gegevens over aandelenkoersen. Zo kun je een algoritme voor het voorspellen van aandelenkoersen bouwen.

Get started with Quantopian

Wunderground

Wunderground heeft een API voor weersvoorspellingen die tot 500 API-calls per dag vrijmaakt. Je zou deze calls kunnen gebruiken om een set historische weergegevens op te bouwen, en voorspellingen te doen over het weer van morgen.

Ga aan de slag met de Wunderground API

Bonus: persoonlijke gegevens

Het internet staat vol met coole datasets waar je mee aan de slag kunt. Maar voor iets echt unieks, wat dacht je van het analyseren van je eigen persoonlijke gegevens? Hier zijn enkele populaire sites die het mogelijk maken om gegevens die u hebt gegenereerd te downloaden en ermee te werken.

Amazon

Amazon stelt u in staat om uw persoonlijke bestedingsgegevens, bestelgeschiedenis en meer te downloaden. Klik voor toegang op deze link (u moet ingelogd zijn om het te laten werken) of navigeer naar de knop Accounts en lijsten in de rechterbovenhoek. Zoek op de volgende pagina naar het gedeelte Bestellings- en winkelvoorkeuren en klik op de link “Bestellingsrapporten downloaden” onder dat kopje.

Hier vind je een eenvoudige handleiding voor een dataproject waarbij je je eigen Amazon-gegevens kunt gebruiken om je uitgaven te analyseren.

Facebook

Facebook biedt je ook de mogelijkheid om je persoonlijke activiteitendata te downloaden. Klik op deze link om toegang te krijgen (je moet ingelogd zijn om het te laten werken) en selecteer de soorten gegevens die je wilt downloaden.

Hier is een voorbeeld van een eenvoudig dataproject dat je zou kunnen bouwen met behulp van je eigen persoonlijke Facebook-gegevens.

Netflix

Netflix biedt je de mogelijkheid om je eigen gegevens op te vragen voor download, hoewel het je door een paar hoepels zal laten springen, en waarschuwt dat het proces van het verzamelen van je gegevens 30 dagen kan duren. Vanaf de laatste keer dat we het controleerden, zijn de gegevens die ze je laten downloaden vrij beperkt, maar ze kunnen nog steeds geschikt zijn voor sommige soorten projecten en analyses.

In dit bericht hebben we goede plaatsen behandeld om datasets te vinden voor elk type data science-project. We hopen dat u iets interessants vindt waar u uw tanden in wilt zetten!

Als u uiteindelijk een project bouwt, horen we dat graag. Laat het ons weten!

Bij Dataquest zijn onze interactieve begeleide projecten ontworpen om je te helpen bij het opbouwen van een data science portfolio om je vaardigheden aan werkgevers te laten zien en een baan in data te krijgen. Als je geïnteresseerd bent, kun je je aanmelden en onze eerste module gratis doen.

Bij Dataquest zijn onze interactieve begeleide projecten ontworpen om je te helpen bij het opbouwen van een data science portfolio om je vaardigheden aan werkgevers te laten zien en een baan in data te krijgen. Als je geïnteresseerd bent, kun je je aanmelden en onze eerste module gratis doen.

Als je dit leuk vond, vind je het misschien leuk om de andere posts in onze ‘Bouw een Data Science Portfolio’-serie te lezen:

  • Storytelling met data.
  • Hoe zet je een data science blog op.
  • Het bouwen van een machine learning project.
  • De sleutel tot het opbouwen van een data science portfolio waarmee je een baan krijgt.
  • Hoe je je data science-portfolio op Github presenteert

Vik is de CEO en oprichter van Dataquest.

Laat een reactie achter

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *