Si vous avez déjà travaillé sur un projet perso de Data Science, vous avez probablement passé beaucoup de temps à naviguer sur Internet à la recherche de datasets intéressants à analyser.
Il peut être amusant de passer au crible des dizaines d’ensemble de données pour trouver celui qui est parfait, mais il peut aussi être frustrant de télécharger et d’importer plusieurs fichiers csv, pour se rendre compte que les données ne sont finalement pas si intéressantes. Heureusement, il existe des banques de datasets en ligne qui conservent seulement les bons datasets.
Dans cet article, nous allons parcourir plusieurs types de projets de Data Science: la Visualisation de Données, le Data Cleaning et le Machine Learning.
Nous allons donc identifier les bons endroits pour trouver des datasets adaptés à vos projets. Que vous souhaitiez peaufiner votre portfolio en montrant que vous maîtrisez la Visualisation de Données ou encore que vous souhaitez mettre en pratique vos compétences pour tester des algorithmes de Machine Learning, vous êtes au bon endroit pour trouver le dataset idéal.
Datasets pour des projets de Visualisation de données
Un projet type de visualisation de données pourrait être: «Je souhaite réaliser des graphiques montrant la façon dont le revenu varie à travers les différents pays d’Europe ou l’évolution du chômage dans un pays au choix».
Regardons tout de suite qu’elles sont les points caractérisant un bon dataset pour de la visualisation de données :
- Celui-ci ne devrait pas être en désordre car vous n’avez pas envie de passer beaucoup de temps à nettoyer les données.
- Il devrait être nuancé et suffisamment intéressant pour faire des diagrammes.
- Idéalement, chaque colonne devrait être bien expliquée pour rendre la visualisation précise.
- Celui-ci ne doit pas contenir trop de lignes ou de colonnes afin de garder une certaine facilité à travailler avec.
Pour trouver de bons datasets pour les projets de Visualisation de Données, on va privilégier des sites d’information qui publient leurs données publiquement. Ils nettoient généralement les données pour vous et possèdent déjà des graphiques que vous pouvez reproduire ou améliorer.
1. FiveThirtyEight
FiveThirtyEight est un site interactif et sportif incroyablement populaire créé par Nate Silver (auteur du livre ‘The Signal and The Noise’ que je recommande). Ils écrivent des articles intéressants toujours axés sur l’étude de données.
FiveThirtyEight fournit sur Github les datasets utilisés dans ses articles.
Voici le Github de FiveThirtyEight
Voici quelques exemples:
- Airline Safety – contient des informations sur les accidents de chaque compagnie aérienne.
- US Weather History – données météorologiques historiques pour les États-Unis.
- Study Drugs – données sur les consommateurs de la drogue Adderall aux États-Unis.
2. BuzzFeed
BuzzFeed a commencé en tant que fournisseur d’articles de mauvaise qualité mais a depuis évolué et écrit maintenant quelques enquêtes abouties.
BuzzFeed rend aussi les datasets utilisés dans ses articles disponibles sur Github.
Voici quelques exemples:
- Federal Surveillance Planes – contient des données sur les avions utilisés pour la surveillance nationale.
- Zika Virus – données sur la géographie de l’épidémie de virus Zika.
- Firearm background checks – données sur les vérifications des antécédents des personnes qui tentent d’acheter des armes à feu.
3. Socrata OpenData
Socrata OpenData est un portail qui contient de datasets nettoyés qui peuvent être explorés dans le navigateur ou téléchargés. Une part importante de ces données provient de sources gouvernementales américaines (et nombreux d’entre-elles sont périmées).
Vous pouvez explorer et télécharger des données depuis OpenData sans vous enregistrer. Vous pouvez également utiliser des outils de visualisation et d’exploration pour explorer les données directement depuis le navigateur.
Voici quelques exemples:
- White House staff salaries – des données sur les salaires de chaque membre de la Maison Blanche en 2010.
- Radiation Analysis – données sur les produits laitiers radioactifs dans certains états des États-Unis.
- Workplace fatalities by US state – le nombre de décès dans le milieu du travail aux États-Unis.
Datasets pour des projets de traitement de données
Parfois, vous pouvez avoir besoin de travailler avec de grands volumes de données. Le résultat final n’a pas autant d’importance que le processus de lecture et d’analyse des données. Vous pouvez utiliser des outils tels que Spark ou Hadoop pour distribuer le traitement sur plusieurs nœuds.
Garder à l’esprit lorsque vous cherchez un bon dataset de traitement des données:
- Plus les données sont propres, mieux c’est pour vous — le nettoyage d’un grand volume de données peut prendre beaucoup beaucoup de temps.
- Le dataset devrait être intéressant.
- Il devrait y avoir une question intéressante à laquelle on peut répondre avec ces données.
Un bon endroit pour trouver de grands ensembles de données publiques sont les fournisseurs d’hébergement cloud comme Amazon et Google. Ils sont incités à héberger les ensembles de données car ils vous obligent à les analyser en utilisant leur infrastructure (et à les payer).
4. AWS Public Datasets
Amazon rend les grands ensembles de données disponibles sur sa plate-forme Amazon Web Services. Vous pouvez télécharger les données et les utiliser sur votre propre ordinateur ou alors analyser les données dans le cloud en utilisant EC2 et Hadoop via EMR. Vous pouvez en savoir plus sur le fonctionnement du programme ici.
Amazon a une page qui répertorie tous les ensembles de données que vous pouvez parcourir. Vous aurez besoin d’un compte AWS (Amazon vous offre un niveau d’accès gratuit pour les nouveaux comptes), ce qui vous permettra d’explorer les données sans être facturé.
Voir les datasets publiques d’AWS
Voici quelques exemples :
- Common Crawl Corpus – données provenant d’une exploration de plus de 5 milliards de pages Web.
- Landsat images – Images satellitaires à résolution modérée de la surface de la Terre.
5. Google Public Data sets
Tout comme Amazon, Google propose également un service d’hébergement cloud, appelé Google Cloud Platform. Avec GCP, vous pouvez utiliser un outil appelé BigQuery pour explorer de grands ensembles de données.
Google répertorie tous les ensembles de données sur une page. Vous devez vous inscrire avec un compte GCP (sachant que les premières requêtes pour un total de 1 To que vous effectuez sont gratuites).
Voir les datasets publiques de Google
Voici quelques exemples:
- USA Names – contient toutes les applications de noms de la sécurité sociale aux États-Unis de 1879 à 2015.
- Github Activity – contient toutes les activités publiques sur plus de 2,8 millions de dépôts publics Github.
- Historical Weather – données de 9000 stations météo NOAA de 1929 à 2016.
6. Wikipedia
Wikipedia est une encyclopédie gratuite, en ligne et éditée par la communauté. Wikipédia contient une étonnante étendue de connaissances et des pages sur tout. Dans le cadre de l’engagement de Wikipédia à faire progresser les connaissances, ils offrent gratuitement tout leur contenu et génèrent régulièrement des sauvegardes de tous les articles du site. De plus, Wikipédia vous propose d’éditer l’historique et l’activité, de sorte que vous pouvez suivre l’évolution d’une page sur un sujet au fil du temps ainsi que les personnes qui y contribue.
Vous pouvez trouver les différentes façons de télécharger les données sur le site Wikipedia. Vous trouverez également des scripts pour reformater les données de différentes manières.
Voici quelques exemples:
- All images and other media from Wikipedia – toutes les images et autres fichiers multimédias sur Wikipedia.
- Full site dumps – du contenu sur Wikipedia, dans divers formats.
Datasets pour des projets de machine Learning
Lorsque vous travaillez sur un projet de Machine Learning, vous souhaitez pouvoir prédire les valeurs d’une colonne à partir des autres colonnes d’un ensemble de données.
Pour pouvoir faire cela, nous devons nous assurer que:
- L’ensemble de données n’est pas trop en désordre – si c’est le cas, nous passerons trop temps à nettoyer les données.
- Il y a une colonne cible intéressante pour faire des prédictions.
- Les autres variables ont un certain lien avec la colonne cible.
Il existe quelques repositories en ligne d’ensembles de données spécifiques au Machine Learning. Ces ensembles de données sont généralement nettoyés au préalable et permettent de tester les algorithmes très rapidement.
7. Kaggle
Kaggle est une communauté de data scientists qui organise des compétitions de Machine Learning. Il existe une variété de datasets intéressants fournis par des tiers sur le site. Kaggle a des compétitions en direct et d’autres historiques. Vous pouvez télécharger des données pour l’un ou l’autre, mais vous devez vous inscrire à Kaggle et accepter les conditions d’utilisation du concours.
Vous pouvez télécharger des données de Kaggle en participant à un concours. Chaque compétition a son propre ensemble de données associé. Il existe également des ensembles de données fournis par les utilisateurs dans la nouvelle offre Kaggle Data Sets.
Voir les datasets Kaggle
Voir les compétitions Kaggle
Voici quelques exemples:
- Satellite Photograph Order – un ensemble de données de photos satellites de la Terre – le but est de prédire quelles photos ont été prises plus tôt que d’autres.
- Manufacturing Process Failures – un ensemble de données de variables qui ont été mesurées pendant le processus de fabrication. L’objectif est de prédire les défauts de fabrication.
- Multiple Choice Questions – un ensemble de données de questions à choix multiples et les réponses correctes correspondantes. Le but est de prédire la réponse à une question donnée.
8. UCI Machine Learning Repository
Le UCI Machine Learning Repository est l’une des plus anciennes sources de données sur le Web. Bien que les ensembles de données soient fournis par l’utilisateur et présentent donc différents niveaux de documentation et de propreté, la grande majorité d’entre eux sont propres et prêts pour le Machine Learning. UCI est un excellent premier arrêt lorsque vous recherchez des ensembles de données intéressants.
Vous pouvez télécharger des données directement à partir du référentiel UCI Machine Learning (sans inscription). Ces ensembles de données ont tendance à être assez petits et n’ont pas beaucoup de nuances, mais ils sont bons pour le Machine Learning.
Voir le UCI Machine Learning Repository
Voici quelques exemples:
- Email spam – contient des e-mails, avec une étiquette indiquant s’ils sont ou non des spams.
- Wine classification – contient divers attributs pour 178 vins différents.
- Solar flares – attributs des éruptions solaires, utiles pour prédire les caractéristiques des éruptions.
9. Quandl
Quandl est un repository de données économiques et financières. Certaines de ces informations sont gratuites, mais de nombreux ensembles de données nécessitent de les acheter. Quandl est utile pour construire des modèles permettant de prédire des indicateurs économiques ou des cours boursiers. En raison de la grande quantité d’ensembles de données disponibles, il est possible de créer un modèle complexe qui utilise de nombreux ensembles de données pour prédire des valeurs dans un autre.
Voici quelques exemples:
- Entrepreneurial activity by race and other factors – contient des données de la fondation Kauffman sur les entrepreneurs aux États-Unis.
- Chinese macroeconomic data – Indicateurs de la santé économique chinoise.
- US Federal Reserve data – Indicateurs économiques américains, de la Réserve fédérale.
Datasets pour des projets de Data Cleaning
Parfois, il peut être très satisfaisant de prendre un ensemble de données réparties sur plusieurs fichiers, de les nettoyer, de les condenser en un seul, puis de faire une analyse. Dans les projets de nettoyage de données, il faut parfois des heures de recherche pour comprendre ce que chaque colonne de l’ensemble de données signifie. Il peut arriver parfois que l’ensemble de données que vous analysez ne convienne pas vraiment à ce que vous essayez de faire et vous devrez donc recommencer.
Lorsque vous cherchez un bon ensemble de données pour un projet de nettoyage de données, vous voulez qu’il:
- Soit réparti sur plusieurs fichiers.
- Ait beaucoup de nuances et de nombreux angles possibles à prendre.
- Exige une bonne quantité de recherche pour comprendre.
- Soit aussi « réel » que possible.
Ces types d’ensembles de données se trouvent généralement sur les agrégateurs d’ensembles de données. Ces agrégateurs ont tendance à avoir des ensembles de données provenant de sources multiples, sans beaucoup de conservation. Trop de curation nous donne des ensembles de données trop soignés qui sont difficiles à nettoyer.
10. data.world
data.world se décrit comme «le réseau social des données partageés», mais pourrait être plus correctement décrit comme «GitHub pour les données». C’est un endroit où vous pouvez rechercher, copier, analyser et télécharger des ensembles de données. En outre, vous pouvez télécharger vos données vers data.world et l’utiliser pour collaborer avec d’autres.
En un temps relativement court, il est devenu l’un des lieux d’accès aux données, avec de nombreux ensembles de données fournis par les utilisateurs et des ensembles de données fantastiques via les partenariats de data.world avec diverses organisations incluant une grande quantité de données provenant des États-Unis.
Les outils qu’ils ont créés pour faciliter le travail avec les données sont un facteur clé de différentiation de data.world: vous pouvez écrire des requêtes SQL dans leur interface pour explorer les données et rejoindre plusieurs ensembles de données. Ils ont aussi des SDK pour R python afin de faciliter l’acquisition et l’utilisation de données dans l’outil de votre choix.
Voir les datasets de data.world
11. Data.gov
Data.gov est un site relativement nouveau qui fait partie d’un effort américain vers un gouvernement plus ouvert. Le site Data.gov permet de télécharger des données provenant de plusieurs agences gouvernementales américaines. Les données peuvent aller des budgets gouvernementaux aux résultats scolaires. La plupart des données nécessitent des recherches supplémentaires et il peut parfois être difficile de déterminer quel dataset est la version «correcte». Tout le monde peut télécharger les données, bien que certains ensembles de données nécessitent l’acceptation des accords de licence.
Vous pouvez parcourir directement les ensembles de données sur Data.gov sans vous enregistrer. Vous pouvez parcourir par sujet ou rechercher un ensemble de données spécifique.
Voici quelques exemples:
- Food Environment Atlas – contient des données sur la façon dont les choix alimentaires locaux influent sur l’alimentation aux États-Unis.
- School system finances – une enquête sur les finances des systèmes scolaires aux États-Unis.
- Chronic disease data – données sur les indicateurs de maladies chroniques dans toutes les régions des États-Unis.
12. The World Bank
The World Bank est une organisation mondiale de développement qui offre des prêts et des conseils aux pays en développement. La World Bank finance régulièrement des programmes dans les pays en développement, puis recueille des données pour suivre le succès de ces programmes.
Vous pouvez parcourir les ensembles de données de la World Bank directement, sans vous inscrire. Les ensembles de données comportent de nombreuses valeurs manquantes et prennent parfois plusieurs clics pour accéder aux données.
Voir les datasets de World Bank
Voici quelques exemples:
- World Development Indicators – contient des informations sur le développement au niveau des pays.
- Educational Statistics – données sur l’éducation par pays.
- World Bank project costs – données sur les projets de la Banque mondiale et leurs coûts correspondants.
13. /r/datasets
Reddit est un site de discussion communautaire populaire. Il a une section consacrée au partage d’ensembles de données intéressants. C’est ce qu’on appelle les ensembles de données subreddit ou / r / datasets. La portée de ces ensembles de données varie beaucoup, puisqu’ils sont tous soumis par les utilisateurs, mais ils ont tendance à être très intéressants et nuancés.
Vous pouvez parcourir le subreddit ici. Vous pouvez également voir les ensembles de données les plus upvoted ici.
Voir les Top Posts /r/datasets
Voici quelques exemples:
- All Reddit submissions – contient des soumissions reddit jusqu’en 2015.
- New York City property tax data – données sur les propriétés et la valeur évaluée à New York.
14. Academic Torrents
Academic Torrents est un site axé sur le partage des ensembles de données provenant d’articles scientifiques. C’est un site plus récent, il est donc difficile de dire à quoi ressembleront les types de fichiers les plus courants. Pour l’instant, il a des tonnes de datasets intéressants qui manquent juste un peu de contexte.
Vous pouvez parcourir les ensembles de données directement sur le site. Comme il s’agit d’un site torrent, tous les ensembles de données peuvent être téléchargés immédiatement, mais vous aurez besoin d’un client Bittorrent. Deluge est une bonne option gratuite pour le téléchargement.
Voir les datasets de Academic Torrents
Voici quelques exemples:
- Enron emails – un ensemble de nombreux courriels de dirigeants chez Enron, une société qui a fait faillite.
- Student learning factors – ensemble de facteurs qui mesurent et influencent l’apprentissage des élèves.
- News articles – contient des article de nouvelles avec de nombreux attributs et une variable cible.
Bonus: données en streaming
Il est très courant lorsque vous construisez un projet de Data Science de télécharger un ensemble de données et de le traiter ensuite. Cependant, à mesure que les services en ligne génèrent de plus en plus de données, une quantité croissante est générée en temps réel (non disponible sous forme de dataset). Quelques exemples de ceci incluent des données sur des tweets de Twitter et des données de prix d’action. Il n’y a pas beaucoup de bonnes sources pour acquérir ce type de données, mais nous en énumérerons quelques-unes au cas où vous voudriez vous essayer à un projet de données en continu (et temps réel).
15. Twitter
Twitter a une bonne API de streaming où il est relativement facile de filtrer et diffuser des tweets. Vous pouvez commencer ici. Il y a de nombreuses options ici – vous pourriez comprendre quels sont les plays les plus heureux ou quels langues sont les plus complexes.
16. Github
Github a une API qui vous permet d’accéder à l’activité et au code du repository. Vous pouvez commencer avec l’API ici. Les options sont infinies – vous pouvez construire un système pour évaluer automatiquement la qualité du code ou comprendre comment le code évolue au fil du temps dans les grands projets.
17. Quantopian
Quantopian est un site où vous pouvez développer, tester et rendre opérationnel des algorithmes de négociation d’actions. Afin de vous aider à faire cela, ils vous donnent accès à des données gratuites sur les cours boursiers minute par minute. Vous pourriez construire un algorithme de prédiction du cours des actions.
18. Wunderground
Wunderground dispose d’une API pour les prévisions météorologiques qui libèrent jusqu’à 500 appels d’API par jour. Vous pouvez utiliser ces appels pour constituer un ensemble de données météorologiques historiques et faire des prédictions sur la météo demain.
Démarrer avec l’API Wunderground
Pour aller plus loin…
Dans cet article, nous avons traiter des bons sites pour trouver des ensembles de données pour tout type de projet de Data Science. J’espère que vous trouverez des données intéressantes sur lesquelles vous amuser !
Si vous finissez par obtenir un projet concluant, j’aimerai beaucoup le voir. N’hésitez pas à m’en faire part 🙂