3 pratiques SQL indispensables pour Data Scientists juniors

À l’université, SQL est considéré comme un langage très facile à apprendre. En gros, il “suffit” juste de connaître SELECT, FROM, GROUP BY et WHERE.

Facile, hein ?

C’est pourquoi j’ai envie de te partager 3 pratiques SQL très efficaces !

SQL a en effet une courbe d’apprentissage rapide, il a été conçu comme un langage de programmation de haut niveau pour interroger toute base de données relationnelle. On parle d’ailleurs de language de requête.
Aujourd’hui, tout entrepôt de données (warehouse) ou framework Bigdata comprend un connecteur SQL.

Cependant, SQL peut s’avérer délicat, surtout lorsque tu passes de la théorie chez toi à l’application sur le terrain. De plus, certains opérateurs peu connus mais puissants étendent ce que tu peux faire avec SQL.

Laisse-moi te montrer ces 3 pratiques SQL que j’ai apprises sur le terrain au cours de mes toutes premières années en tant qu’ingénieur Data.

Tu pourras également lire 8 de mes bonnes pratiques que j’utilise pour écrire un code SQL de qualité.

Mes 3 pratiques SQL :

Utilisation de l’expression de la table commune (WITH)

J’ai une table contenant des évaluations ou ratings qui sont associées à un film. Et disons que je souhaite calculer le nombre moyen de ratings par film.

Pour répondre à cette question, on calcule dans une première requête le nombre de ratings par movie_id (comme ci-dessous) et on prend la moyenne.

En termes de syntaxe, tu as deux approches :

Utilisation d’une sous-requête (subquery)

SELECT 
   AVG(nb_ratings)
FROM (
SELECT
    movieId
    ,count(*) as nb_ratings
FROM `allocine-bq.movielens.ratings`
GROUP BY 1)

SELECT 
   AVG(nb_ratings)
FROM (
SELECT
    movieId
    ,count(*) as nb_ratings
FROM `allocine-bq.movielens.ratings`
GROUP BY 1)

SQL

Utilisation d’une CTE (Common Table Expression)

WITH ratings_by_movie AS (
SELECT
     movieId
    ,count(*) as nb_ratings
FROM `allocine-bq.movielens.ratings`
GROUP BY 1)
SELECT 
   AVG(nb_ratings)
FROM ratings_by_movie

WITH ratings_by_movie AS (
SELECT
     movieId
    ,count(*) as nb_ratings
FROM `allocine-bq.movielens.ratings`
GROUP BY 1)
SELECT 
   AVG(nb_ratings)
FROM ratings_by_movie

SQL

Pourquoi utiliser le CTE au lieu de la sous-requête ?

Cela rend votre code plus clair : en effet, les étapes de traitement sont exposées linéairement et dans l’ordre, au lieu d’être encapsulées. L’exemple ci-dessus est simple, mais il est particulièrement utile lorsque tu as des requêtes avec de longues séries d’étapes et beaucoup plus de champs dans le SELECT.

Notez que lorsque tu travailles avec des RDMS comme postgresql ou mysql, cette commande peut avoir des effets secondaires sur les performances. Cet opérateur a été implémenté à l’origine dans un but d’optimisation. Cela ne devrait pas être le cas sur les bases de données modernes.

Les effets des valeurs NULL…

…sur des opérations arithmétiques

Voici l’exemple classique qui a fait perdre du temps à beaucoup de débutants SQL la première fois qu’ils l’ont rencontré : l’opération ci-dessous renvoie une valeur NULL.

DECLARE a INT64 DEFAULT 10;
DECLARE b INT64 DEFAULT NULL;

SELECT a + b

DECLARE a INT64 DEFAULT 10;
DECLARE b INT64 DEFAULT NULL;

SELECT a + b

SQL

Crois-moi, si tu n’en es pas sûr, tu peux passer beaucoup de temps à déboguer des requêtes qui calculent des KPI complexes.

Tu peux utiliser l’opérateur IFNULL comme solution de rechange :

IFNULL(expr, null_result) : if expr is NULL then return null_result else return expr

SELECT a + IFNULL(b,0)

SELECT a + IFNULL(b,0)

SQL

Note que cette propriété est très utile pour effectuer des divisions. L’opération ci-dessous retourne une valeur NULL et non une “division by zero”.

DECLARE a INT64 DEFAULT 10;
DECLARE b INT64 DEFAULT NULL;

SELECT a / b

DECLARE a INT64 DEFAULT 10;
DECLARE b INT64 DEFAULT NULL;

SELECT a / b

SQL

Ainsi, dans certains cas, tu pourrais vouloir remplacer volontairement la valeur 0 par NULL.

…sur des fonctions d’aggrégation

Dans le même esprit, les valeurs NULL sont ignorées par les fonctions AVG(), tu dois les remplacer par un 0 si tu veux les prendre en compte.

De même, COUNT(field_a) comptera toutes les valeurs non NULL pour le field_a.

Fonctions Analytiques

Ce modèle est un peu plus compliqué et te permet de calculer des indicateurs ou KPIs avancés comme la somme courante ou la moyenne mobile. Je vais le présenter ci-dessous avec un exemple plus simple.

Disons que tu as une table des commandes par client avec les revenus et que tu veux numériser par client ses commandes en fonction de la date. Dans le domaine de l’e-commerce, il s’agit de la première étape nécessaire pour effectuer une analyse des acquisitions ou de la rétention.

Pratiques SQL : table des commandes par client

Tu peux utiliser cette requête :

SELECT
      *
     ,RANK() OVER (PARTITION BY customer_id ORDER BY date ASC) as order_number
FROM orders

SELECT
      *
     ,RANK() OVER (PARTITION BY customer_id ORDER BY date ASC) as order_number
FROM orders

SQL

Tu as ainsi dit : pour chaque client, créer un rang d’ordre itératif basé sur la date de la commande.

Ce modèle est similaire à une fonction d’agrégation :

Tu remplaces GROUP BY par PARTITION BY
ORDER BY est nécessaire pour utiliser une fonction de classement
OVER() déclare l’utilisation d’une fonction analytique

Une fonction analytique est le seul moyen d’utiliser les fonctions qui nécessitent un opérateur ORDER BY.

Pour terminer avec cet exemple, sache qu’il existe une différence entre RANK() et ROW_NUMBER() :

RANK() si 2 commandes ont été passées à la même date, elles auront le même rang.
ROW_NUMBER() : ils auront un numéro de rang différent (arbitraire).

J’utilise parfois les fonctions analytiques pour calculer des fonctions d’agrégation que je pourrais calculer avec un GROUP BY. Si je veux utiliser les opérateurs SUM() ou AVG() mais avec des partitions différentes, les fonctions analytiques simplifieront ma requête en évitant les sous-requêtes et les jointures supplémentaires.

Avant de quitter cette page, consulte mon TOP 10 des requêtes SQL avancées.

3 pratiques SQL que j’aurai aimé connaître en tant que Data Scientist junior

Mes 3 pratiques SQL :

Utilisation de l’expression de la table commune (WITH)

Utilisation d’une sous-requête (subquery)

Utilisation d’une CTE (Common Table Expression)

Pourquoi utiliser le CTE au lieu de la sous-requête ?

Les effets des valeurs NULL…

…sur des opérations arithmétiques

…sur des fonctions d’aggrégation

Fonctions Analytiques

Python et Data Science : 8 concepts à ne pas oublier

Comprendre les 10 concepts les plus difficiles de Python

SQL pour l’analyse de données – SQL de base jusqu’aux requêtes avancées

Le Web Scraping en pratique

Expérimenter l’API GPT-3 avec Python

Application : Régression Linéaire sur un cas réel avec Scikit-Learn

Laisser un commentaire Annuler la réponse

Apprentissage

Le site

À propos

Reçois chaque semaine mes meilleures pratiques en Data Science :

Mes 3 pratiques SQL :

Utilisation de l’expression de la table commune (WITH)

Utilisation d’une sous-requête (subquery)

Utilisation d’une CTE (Common Table Expression)

Pourquoi utiliser le CTE au lieu de la sous-requête ?

Les effets des valeurs NULL…

…sur des opérations arithmétiques

…sur des fonctions d’aggrégation

Fonctions Analytiques

Publications similaires

Laisser un commentaire Annuler la réponse

Apprentissage

Le site

À propos

Reçois chaque semaine mes meilleures pratiques en Data Science :