Ce podcast décrit les rôles clés dans le domaine de la data : data worker, qui manipule quotidiennement les données ; data analyst, qui analyse et interprète les données avec des compétences en SQL et statistiques ; data engineer, qui construit les jeux de données ; et data scientist, qui utilise des compétences avancées en codage, maths et statistiques pour la modélisation …. Chaque rôle est essentiel…

Ce podcast décrit les rôles clés dans le domaine de la data : data worker, data analyst, data engineer et data scientist,
Définition des Rôles Data – Data worker, Data analyst, Data engineer
Introduction :
Ce document de briefing synthétise les principaux thèmes et idées clés présentés dans la source fournie, qui vise à clarifier les distinctions entre les rôles de Data worker, Data analyst et Data engineer au sein d’une organisation. L’objectif est de fournir une compréhension claire des responsabilités, des compétences et des niveaux d’expertise associés à chaque fonction, ainsi que de souligner l’importance de chaque rôle dans une stratégie data globale.
Thèmes Principaux et Idées Clés :
1. Identification et Valorisation du « Data Worker » :
- Définition large : Le document propose une définition inclusive du « Data worker », englobant les personnes qui manipulent quotidiennement des données via des outils comme les feuilles de calcul pour produire des rapports et des présentations.
- « Si vous utilisez des feuilles de calcul tous les jours, vous fournissez des informations précieuses à vos collègues sous la forme de présentations ou de rapports, vous êtes un data worker… »
- Rôle souvent non titré : Il est souligné que le titre de poste de ces individus ne reflète pas nécessairement leur rôle de « Data worker ».
- « Votre poste est peut-être nommé d’après votre service ou l’équipe que vous aidez, mais même si votre titre n’est pas officiellement « data worker », vous en êtes bien un. »
- Contribution essentielle : L’auteur insiste sur la valeur de ces « Data workers » et leur rôle clé comme interlocuteurs privilégiés lorsque l’entreprise cherche à progresser dans sa gestion des données.
- « Je suis convaincue qu’il existe beaucoup plus de data workers que ne le pensent nos organisations, et si vous exercez ce rôle, sachez que vous êtes une ressource précieuse et l’un des interlocuteurs privilégiés lorsqu’une entreprise souhaite se perfectionner dans la data. »
- Pistes d’amélioration : Des suggestions sont faites pour développer les compétences des « Data workers » en utilisant des outils Excel avancés (Power Query, tableaux croisés dynamiques, visualisations), PowerPoint pour la visualisation, et en améliorant la documentation et les compétences en communication.
2. Définition et Compétences du « Data Analyst » :
- Focus sur l’analyse et l’interprétation : Le Data analyst est présenté comme ayant une compréhension plus approfondie des systèmes de données et de la conception des bases de données que le Data worker.
- « Un data analyst a une compréhension plus poussée des systèmes de données et une plus grande connaissance de la conception des bases de données qu’un data worker. »
- Manipulation de données et requêtes SQL : La maîtrise des requêtes SQL pour accéder aux données est une compétence clé, bien que le niveau d’accès puisse varier.
- « Il a en général quelques compétences de base en requêtes SQL et écrit tout le temps des instructions SQL pour accéder aux données. »
- Gouvernance des données et qualité des données : Le Data analyst a une bonne compréhension des politiques et procédures de gouvernance des données et sait comment nettoyer et transformer les données.
- « Un data analyst a une compréhension supérieure à la moyenne du plan de gouvernance des données, car si vous êtes data analyst, vous travaillez dans le cadre des politiques et procédures en place. »
- Statistiques descriptives et visualisation : L’utilisation de statistiques descriptives, de fonctions d’agrégation et la capacité à connecter des données pour automatiser la mise à jour des visualisations et des rapports sont mentionnées.
- Compétences interpersonnelles : L’écoute active, la narration à travers les données (« storytelling ») et l’esprit critique sont soulignés comme des compétences personnelles importantes.
3. Rôle et Expertise du « Data Engineer » :
- Création et gestion des jeux de données : La distinction est faite entre l’affinage de données (Data analyst) et la création des jeux de données eux-mêmes, qui est la responsabilité principale du Data engineer.
- « C’est une chose d’affiner et d’ajouter des éléments dans un jeu de données, c’en est une autre de savoir créer un jeu de données. »
- Infrastructure et flux de données : Le Data engineer a une vision plus large de l’accès aux données, de la sécurité et de la confidentialité dans le cadre de la gouvernance des données. Il est souvent responsable de la création de pipelines de données (ETL/ELT) pour transférer les données entre les systèmes.
- « Un data engineer a souvent un accès plus large aux données, ce qui explique pourquoi c’est lui qui vous les envoie. Il comprend comment la sécurité et la confidentialité des données s’inscrivent dans la stratégie globale de gouvernance des données. »
- Connaissance des bases de données : Une compréhension approfondie des données structurées et non structurées, des méthodes de conception des bases de données relationnelles et de la conception de bases de données est essentielle.
- Transition vers l’architecture de données : Le rôle de Data engineer peut évoluer vers celui de Data architect, avec une responsabilité accrue sur les systèmes et la sécurité à l’échelle de l’organisation.
4. Positionnement et Compétences du « Data Scientist » :
- Expertise avancée et rôle transversal : Le Data scientist est présenté comme possédant idéalement les compétences de l’analyst et de l’engineer, avec une expertise plus poussée en codage, mathématiques et statistiques.
- « Les data scientists ont en principe toutes les compétences de l’analyst et de l’engineer, et souvent ils ont exercé ces rôles. Toutefois, un data scientist doit avoir des compétences plus poussées en codage, mathématiques et statistiques. »
- Conception de modèles et machine learning : Son rôle principal est la conception d’outils d’information, le développement de modèles de machine learning et l’interprétation de grands ensembles de données.
- « Le data scientist joue un rôle essentiel dans la conception d’outils qui fournissent des informations précieuses aux organisations, mais il ne peut pas le faire sans tous les autres rôles. »
- Importance de l’écosystème data complet : L’auteur souligne que l’efficacité d’un Data scientist dépend de la présence et du bon fonctionnement des autres rôles data au sein de l’organisation.
- « Pour la plupart des organisations, avoir un data scientist mais pas les autres rôles signifie que c’est lui qui devra réaliser toutes ces tâches avant de pouvoir se consacrer à la data science. »
- Développement des compétences : L’accent est mis sur l’apprentissage de la pensée programmatique, du codage (Python étant cité comme exemple) et l’approfondissement des connaissances en mathématiques et statistiques.
Conclusion :
La source met en lumière l’existence d’un spectre de rôles liés à la donnée au sein des organisations, allant du « Data worker » essentiel et souvent non reconnu, aux experts plus spécialisés comme le Data analyst, le Data engineer et le Data scientist. Chaque rôle possède des compétences spécifiques et contribue de manière unique à la création de valeur à partir des données. L’article souligne l’importance de reconnaître et de valoriser chaque fonction, ainsi que de comprendre les complémentarités nécessaires pour une stratégie data efficace. Il met également en évidence les trajectoires d’évolution possibles entre ces différents rôles.