Où trouver les meilleurs datasets pour la Data Science

Si tu as déjà travaillé sur un projet perso de Data Science, tu as probablement passé beaucoup de temps à naviguer sur Internet à la recherche de datasets intéressants à analyser.
Il peut être amusant de passer au crible des dizaines d’ensemble de données pour trouver celui qui est parfait, mais il peut aussi être frustrant de télécharger et d’importer plusieurs fichiers csv, pour se rendre compte que les données ne sont finalement pas si intéressantes. Heureusement, il existe des banques de datasets en ligne qui conservent seulement les bons datasets.

Dans cet article, nous allons parcourir plusieurs types de projets de Data Science: la Visualisation de Données, le Data Cleaning et le Machine Learning.

Nous allons donc identifier les bons endroits pour trouver des datasets adaptés à nos projets. Que tu souhaites peaufiner ton portfolio en montrant que tu maîtrises la Visualisation de Données ou encore que tu souhaites mettre en pratique tes compétences pour tester des algorithmes de Machine Learning, tu es au bon endroit pour trouver le dataset idéal.

Datasets pour des projets de Visualisation de données

Un projet type de visualisation de données pourrait être : « Je souhaite réaliser des graphiques montrant la façon dont le revenu varie à travers les différents pays d’Europe ou l’évolution du chômage dans un pays au choix ».

Regardons tout de suite qu’elles sont les points caractérisant un bon dataset pour de la visualisation de données :

Celui-ci ne devrait pas être en désordre car tu n’as pas envie de passer beaucoup de temps à nettoyer les données.
Il devrait être nuancé et suffisamment intéressant pour faire des diagrammes.
Idéalement, chaque colonne devrait être bien expliquée pour rendre la visualisation précise.
Celui-ci ne doit pas contenir trop de lignes ou de colonnes afin de garder une certaine facilité à travailler avec.

Pour trouver de bons datasets pour les projets de Visualisation de Données, on va privilégier des sites d’information qui publient leurs données publiquement. Ils nettoient généralement les données pour toi et possèdent déjà des graphiques que tu peux reproduire ou améliorer.

1. FiveThirtyEight

FiveThirtyEight est un site interactif et sportif incroyablement populaire créé par Nate Silver (auteur du livre ‘The Signal and The Noise’ que je recommande). Ils écrivent des articles intéressants toujours axés sur l’étude de données.

FiveThirtyEight fournit sur Github les datasets utilisés dans ses articles.

Voici le Github de FiveThirtyEight

Voici quelques exemples:

Airline Safety – contient des informations sur les accidents de chaque compagnie aérienne.
US Weather History – données météorologiques historiques pour les États-Unis.
Study Drugs – données sur les consommateurs de la drogue Adderall aux États-Unis.

2. BuzzFeed

BuzzFeed a commencé en tant que fournisseur d’articles de mauvaise qualité mais a depuis évolué et écrit maintenant quelques enquêtes abouties.

BuzzFeed rend aussi les datasets utilisés dans ses articles disponibles sur Github.

Voir les datasets de BuzzFeed

Voici quelques exemples:

Federal Surveillance Planes – contient des données sur les avions utilisés pour la surveillance nationale.
Zika Virus – données sur la géographie de l’épidémie de virus Zika.
Firearm background checks – données sur les vérifications des antécédents des personnes qui tentent d’acheter des armes à feu.

3. Socrata OpenData

Socrata OpenData est un portail qui contient de datasets nettoyés qui peuvent être explorés dans le navigateur ou téléchargés. Une part importante de ces données provient de sources gouvernementales américaines (et nombreux d’entre-elles sont périmées).

Tu peux explorer et télécharger des données depuis OpenData sans t’enregistrer. Tu peux également utiliser des outils de visualisation et d’exploration pour explorer les données directement depuis le navigateur.

Voir Socrata OpenData

Voici quelques exemples:

White House staff salaries – des données sur les salaires de chaque membre de la Maison Blanche en 2010.
Radiation Analysis – données sur les produits laitiers radioactifs dans certains états des États-Unis.
Workplace fatalities by US state – le nombre de décès dans le milieu du travail aux États-Unis.

Datasets pour des projets de traitement de données

Parfois, tu peux avoir besoin de travailler avec de grands volumes de données. Le résultat final n’a pas autant d’importance que le processus de lecture et d’analyse des données. Tu peux utiliser des outils tels que Spark ou Hadoop pour distribuer le traitement sur plusieurs nœuds.

Garde à l’esprit lorsque tu cherches un bon dataset de traitement des données:

Plus les données sont propres, mieux c’est pour toi — le nettoyage d’un grand volume de données peut prendre beaucoup beaucoup de temps.
Le dataset devrait être intéressant.
Il devrait y avoir une question intéressante à laquelle on peut répondre avec ces données.

Un bon endroit pour trouver de grands ensembles de données publiques sont les fournisseurs d’hébergement cloud comme Amazon et Google. Ils sont incités à héberger les ensembles de données car ils t’obligent à les analyser en utilisant leur infrastructure (et à les payer).

4. AWS Public Datasets

Amazon rend les grands ensembles de données disponibles sur sa plate-forme Amazon Web Services. Tu peux télécharger les données et les utiliser sur ton propre ordinateur ou alors analyser les données dans le cloud en utilisant EC2 et Hadoop via EMR. Tu peux en savoir plus sur le fonctionnement du programme ici.

Amazon a une page qui répertorie tous les ensembles de données que tu peux parcourir. Tu auras besoin d’un compte AWS (Amazon t’offre un niveau d’accès gratuit pour les nouveaux comptes), ce qui te permettra d’explorer les données sans être facturé.

Voir les datasets publiques d’AWS

Voici quelques exemples :

Common Crawl Corpus – données provenant d’une exploration de plus de 5 milliards de pages Web.
Landsat images – Images satellitaires à résolution modérée de la surface de la Terre.

5. Google Public Data sets

Tout comme Amazon, Google propose également un service d’hébergement cloud, appelé Google Cloud Platform. Avec GCP, tu peux utiliser un outil appelé BigQuery pour explorer de grands ensembles de données.

Google répertorie tous les ensembles de données sur une page. Tu dois t’inscrire avec un compte GCP (sachant que les premières requêtes pour un total de 1 To que tu effectues sont gratuites).

Voir les datasets publiques de Google

Voici quelques exemples:

USA Names – contient toutes les applications de noms de la sécurité sociale aux États-Unis de 1879 à 2015.
Github Activity – contient toutes les activités publiques sur plus de 2,8 millions de dépôts publics Github.
Historical Weather – données de 9000 stations météo NOAA de 1929 à 2016.

6. Wikipedia

Wikipedia est une encyclopédie gratuite, en ligne et éditée par la communauté. Wikipédia contient une étonnante étendue de connaissances et des pages sur tout. Dans le cadre de l’engagement de Wikipédia à faire progresser les connaissances, ils offrent gratuitement tout leur contenu et génèrent régulièrement des sauvegardes de tous les articles du site. De plus, Wikipédia te propose d’éditer l’historique et l’activité, de sorte que tu peux suivre l’évolution d’une page sur un sujet au fil du temps ainsi que les personnes qui y contribue.

Tu peux trouver les différentes façons de télécharger les données sur le site Wikipedia. Tu trouveras également des scripts pour reformater les données de différentes manières.

Voir les datasets Wikipedia

Voici quelques exemples:

All images and other media from Wikipedia – toutes les images et autres fichiers multimédias sur Wikipedia.
Full site dumps – du contenu sur Wikipedia, dans divers formats.

Datasets pour des projets de machine Learning

Lorsque tu travailles sur un projet de Machine Learning, tu souhaites pouvoir prédire les valeurs d’une colonne à partir des autres colonnes d’un ensemble de données.

Pour pouvoir faire cela, nous devons nous assurer que :

L’ensemble de données n’est pas trop en désordre – si c’est le cas, nous passerons trop temps à nettoyer les données.
Il y a une colonne cible intéressante pour faire des prédictions.
Les autres variables ont un certain lien avec la colonne cible.

Il existe quelques repositories en ligne d’ensembles de données spécifiques au Machine Learning. Ces ensembles de données sont généralement nettoyés au préalable et permettent de tester les algorithmes très rapidement.

7. Kaggle

Kaggle est une communauté de data scientists qui organise des compétitions de Machine Learning. Il existe une variété de datasets intéressants fournis par des tiers sur le site. Kaggle a des compétitions en direct et d’autres historiques. Tu peux télécharger des données pour l’un ou l’autre, mais tu dois t’inscrire à Kaggle et accepter les conditions d’utilisation du concours.

Tu peux télécharger des données de Kaggle en participant à un concours. Chaque compétition a son propre ensemble de données associé. Il existe également des ensembles de données fournis par les utilisateurs dans la nouvelle offre Kaggle Data Sets.

Voir les datasets Kaggle
Voir les compétitions Kaggle

Voici quelques exemples:

Satellite Photograph Order – un ensemble de données de photos satellites de la Terre – le but est de prédire quelles photos ont été prises plus tôt que d’autres.
Manufacturing Process Failures – un ensemble de données de variables qui ont été mesurées pendant le processus de fabrication. L’objectif est de prédire les défauts de fabrication.
Multiple Choice Questions – un ensemble de données de questions à choix multiples et les réponses correctes correspondantes. Le but est de prédire la réponse à une question donnée.

8. UCI Machine Learning Repository

Le UCI Machine Learning Repository est l’une des plus anciennes sources de données sur le Web. Bien que les ensembles de données soient fournis par l’utilisateur et présentent donc différents niveaux de documentation et de propreté, la grande majorité d’entre eux sont propres et prêts pour le Machine Learning. UCI est un excellent premier arrêt lorsque tu recherches des ensembles de données intéressants.

Tu peux télécharger des données directement à partir du référentiel UCI Machine Learning (sans inscription). Ces ensembles de données ont tendance à être assez petits et n’ont pas beaucoup de nuances, mais ils sont bons pour le Machine Learning.

Voir le UCI Machine Learning Repository

Voici quelques exemples:

Email spam – contient des e-mails, avec une étiquette indiquant s’ils sont ou non des spams.
Wine classification – contient divers attributs pour 178 vins différents.
Solar flares – attributs des éruptions solaires, utiles pour prédire les caractéristiques des éruptions.

9. Quandl

Quandl est un repository de données économiques et financières. Certaines de ces informations sont gratuites, mais de nombreux ensembles de données nécessitent de les acheter. Quandl est utile pour construire des modèles permettant de prédire des indicateurs économiques ou des cours boursiers. En raison de la grande quantité d’ensembles de données disponibles, il est possible de créer un modèle complexe qui utilise de nombreux ensembles de données pour prédire des valeurs dans un autre.

Voir les datasets Quandl

Voici quelques exemples:

Entrepreneurial activity by race and other factors – contient des données de la fondation Kauffman sur les entrepreneurs aux États-Unis.
Chinese macroeconomic data – Indicateurs de la santé économique chinoise.
US Federal Reserve data – Indicateurs économiques américains, de la Réserve fédérale.

Datasets pour des projets de Data Cleaning

Parfois, il peut être très satisfaisant de prendre un ensemble de données réparties sur plusieurs fichiers, de les nettoyer, de les condenser en un seul, puis de faire une analyse. Dans les projets de nettoyage de données, il faut parfois des heures de recherche pour comprendre ce que chaque colonne de l’ensemble de données signifie. Il peut arriver parfois que l’ensemble de données que tu analyses ne convienne pas vraiment à ce que tu essaies de faire et tu devras donc recommencer.

Lorsque tu cherches un bon ensemble de données pour un projet de nettoyage de données, tu veux qu’il :

Soit réparti sur plusieurs fichiers.
Aie beaucoup de nuances et de nombreux angles possibles à prendre.
Exige une bonne quantité de recherche pour comprendre.
Soit aussi “réel” que possible.

Ces types d’ensembles de données se trouvent généralement sur les agrégateurs d’ensembles de données. Ces agrégateurs ont tendance à avoir des ensembles de données provenant de sources multiples, sans beaucoup de conservations. Trop de curation nous donne des ensembles de données trop soignés qui sont difficiles à nettoyer.

10. data.world

data.world se décrit comme « le réseau social des données partageés », mais pourrait être plus correctement décrit comme « GitHub pour les données ». C’est un endroit où tu peux rechercher, copier, analyser et télécharger des ensembles de données. En outre, tu peux télécharger tes données vers data.world et l’utiliser pour collaborer avec d’autres.

En un temps relativement court, il est devenu l’un des lieux d’accès aux données, avec de nombreux ensembles de données fournis par les utilisateurs et des ensembles de données fantastiques via les partenariats de data.world avec diverses organisations incluant une grande quantité de données provenant des États-Unis.

Les outils qu’ils ont créés pour faciliter le travail avec les données sont un facteur clé de différentiation de data.world : tu peux écrire des requêtes SQL dans leur interface pour explorer les données et rejoindre plusieurs ensembles de données. Ils ont aussi des SDK pour R python afin de faciliter l’acquisition et l’utilisation de données dans l’outil de votre choix.

Voir les datasets de data.world

11. Data.gov

Data.gov est un site relativement nouveau qui fait partie d’un effort américain vers un gouvernement plus ouvert. Le site Data.gov permet de télécharger des données provenant de plusieurs agences gouvernementales américaines. Les données peuvent aller des budgets gouvernementaux aux résultats scolaires. La plupart des données nécessitent des recherches supplémentaires et il peut parfois être difficile de déterminer quel dataset est la version « correcte ». Tout le monde peut télécharger les données, bien que certains ensembles de données nécessitent l’acceptation des accords de licence.

Tu peux parcourir directement les ensembles de données sur Data.gov sans t’enregistrer. Tu peux parcourir par sujet ou rechercher un ensemble de données spécifique.

Voir les datasets Data.gov

Voici quelques exemples:

Food Environment Atlas – contient des données sur la façon dont les choix alimentaires locaux influent sur l’alimentation aux États-Unis.
School system finances – une enquête sur les finances des systèmes scolaires aux États-Unis.
Chronic disease data – données sur les indicateurs de maladies chroniques dans toutes les régions des États-Unis.

12. The World Bank

The World Bank est une organisation mondiale de développement qui offre des prêts et des conseils aux pays en développement. La World Bank finance régulièrement des programmes dans les pays en développement, puis recueille des données pour suivre le succès de ces programmes.

Tu peux parcourir les ensembles de données de la World Bank directement, sans t’inscrire. Les ensembles de données comportent de nombreuses valeurs manquantes et prennent parfois plusieurs clics pour accéder aux données.

Voir les datasets de World Bank

Voici quelques exemples:

World Development Indicators – contient des informations sur le développement au niveau des pays.
Educational Statistics – données sur l’éducation par pays.
World Bank project costs – données sur les projets de la Banque mondiale et leurs coûts correspondants.

13. /r/datasets

Reddit est un site de discussion communautaire populaire. Il a une section consacrée au partage d’ensembles de données intéressants. C’est ce qu’on appelle les ensembles de données subreddit ou / r / datasets. La portée de ces ensembles de données varie beaucoup, puisqu’ils sont tous soumis par les utilisateurs, mais ils ont tendance à être très intéressants et nuancés.

Tu peux parcourir le subreddit ici. Tu peux également voir les ensembles de données les plus upvoted ici.

Voir les Top Posts /r/datasets

Voici quelques exemples:

All Reddit submissions – contient des soumissions reddit jusqu’en 2015.
New York City property tax data – données sur les propriétés et la valeur évaluée à New York.

14. Academic Torrents

Academic Torrents est un site axé sur le partage des ensembles de données provenant d’articles scientifiques. C’est un site plus récent, il est donc difficile de dire à quoi ressembleront les types de fichiers les plus courants. Pour l’instant, il a des tonnes de datasets intéressants qui manquent juste un peu de contexte.

Tu peux parcourir les ensembles de données directement sur le site. Comme il s’agit d’un site torrent, tous les ensembles de données peuvent être téléchargés immédiatement, mais tu auras besoin d’un client Bittorrent. Deluge est une bonne option gratuite pour le téléchargement.

Voir les datasets de Academic Torrents

Voici quelques exemples:

Enron emails – un ensemble de nombreux courriels de dirigeants chez Enron, une société qui a fait faillite.
Student learning factors – ensemble de facteurs qui mesurent et influencent l’apprentissage des élèves.
News articles – contient des article de nouvelles avec de nombreux attributs et une variable cible.

Bonus: données en streaming

Il est très courant lorsque tu construis un projet de Data Science de télécharger un ensemble de données et de le traiter ensuite. Cependant, à mesure que les services en ligne génèrent de plus en plus de données, une quantité croissante est générée en temps réel (non disponible sous forme de dataset). Quelques exemples de ceci incluent des données sur des tweets de Twitter et des données de prix d’action. Il n’y a pas beaucoup de bonnes sources pour acquérir ce type de données, mais nous en énumérerons quelques-unes au cas où tu voudrais t’essayer à un projet de données en continu (et temps réel).

15. Twitter

Twitter a une bonne API de streaming où il est relativement facile de filtrer et diffuser des tweets. Tu peux commencer ici. Il y a de nombreuses options ici – tu pourrais comprendre quels sont les plays les plus heureux ou quelles langues sont les plus complexes.

Démarrer avec l’API Twitter

16. Github

Github a une API qui te permet d’accéder à l’activité et au code du repository. Tu peux commencer avec l’API ici. Les options sont infinies – tu peux construire un système pour évaluer automatiquement la qualité du code ou comprendre comment le code évolue au fil du temps dans les grands projets.

Démarrer avec l’API Github

17. Quantopian

Quantopian est un site où tu peux velopper, tester et rendre opérationnel des algorithmes de négociation d’actions. Afin de t’aider à faire cela, ils te donnent accès à des données gratuites sur les cours boursiers minute par minute. Tu pourrais construire un algorithme de prédiction du cours des actions.

Démarrer avec Quantopian

18. Wunderground

Wunderground dispose d’une API pour les prévisions météorologiques qui libèrent jusqu’à 500 appels d’API par jour. Tu peux utiliser ces appels pour constituer un ensemble de données météorologiques historiques et faire des prédictions sur la météo demain.

Démarrer avec l’API Wunderground

Pour aller plus loin…

Dans cet article, nous avons traiter des bons sites pour trouver des ensembles de données pour tout type de projet de Data Science. J’espère que tu trouveras des données intéressantes sur lesquelles t’amuser !

Si tu finis par obtenir un projet concluant, j’aimerais beaucoup le voir. N’hésite pas à m’en faire part 🙂

Meilleurs datasets pour nos projets de Data Science