Ingénieur·e d'étude Data / Machine Learning
Role details
Job location
Tech stack
Job description
L'environnement alimentaire, social et urbain est aujourd'hui considéré comme un facteur influençant les comportements alimentaires 1 . Les acteurs des territoires pourraient donc agir sur l'environnement pour encourager des comportements alimentaires durables et favorables à la santé, en améliorant l'accessibilité à l'ensemble de l'offre alimentaire (commerces, restaurants, marchés, points de vente). Cependant, en France, il n'existe à l'heure actuelle aucune base de données fiable disponible à l'échelle nationale permettant de caractériser et spatialiser finement l'environnement alimentaire 2 . Un premier travail a été conduit visant à agréger des données issues de différentes sources de données en prenant comme point de départ le répertoire des entreprises Sirene 3 . Ces données ont pu être agrégées grâce à l'utilisation dans ces bases d'un identifiant unique : le numéro Siret des entreprises. Cependant, ce travail est aujourd'hui incomplet : par exemple de nombreux établissements fermés sont considérés actifs dans cette base. De plus, des caractéristiques et des coordonnées géographiques plus précises sont renseignées dans d'autres bases existantes mais n'utilisant pas le numéro Siret comme identifiant. C'est notamment le cas de la carte collaborative OpenStreetMap. Enfin, certaines formes de distribution alimentaires comme les marchés, les points de distribution des AMAP ne sont pas renseignées dans le répertoire Sirene.
Le projet soulève des enjeux méthodologiques forts en data engineering, en apprentissage automatique et en analyse spatiale : intégration de sources hétérogènes, désambiguïsation d'entités, détection d'erreurs et d'obsolescence, gestion de l'incertitude spatiale. Il vise à produire une base de données réutilisable à long terme, tant pour la recherche que pour l'action publique., Le poste proposé s'inscrit dans ce processus de construction d'une base nationale fiable permettant de caractériser et cartographier l'offre alimentaire. En particulier, il visera à identifier des doublons entre plusieurs bases de données structurées différemment et développer un modèle capable d'identifier les établissements fermés à partir de jeux de données de référence.
Le système produit devra être pérenne robuste et maintenable, conforme à des standards de « qualité production », et non d'une simple preuve de concept. Le livrable devra pouvoir fonctionner de manière fiable et autonome après le départ de l'ingénieur·e d'étude., * Construction de jeux de données de référence (ground truth)
- Conception de stratégies d'extraction multi-sources (API, web scraping, OCR, données terrain)
- Nettoyage, normalisation et documentation de données hétérogènes
- Analyse critique de la qualité, de la complétude et de la fraîcheur des données
- Record linkage et désambiguïsation d'établissements
- Développement de méthodes de matching entre bases structurées différemment (Sirene, OpenStreetMap, autres sources)
- Combinaison de règles expertes, de fuzzy matching et de modèles supervisés
- Attribution probabiliste de numéros Siret
- Détection automatique d'établissements fermés
- Conception de variables dérivées à partir de sources hétérogènes
- Entraînement et évaluation de modèles supervisés
- Analyse des faux positifs / faux négatifs et interprétabilité des résultats
- Industrialisation et pérennisation
- Conception de pipelines reproductibles et maintenables
- Documentation et transfert pour assurer l'autonomie du système
La personne recrutée disposera d'une large autonomie dans les choix méthodologiques et techniques, en lien étroit avec les encadrants scientifiques. Le poste s'adresse à un·e ingénieur·e souhaitant s'investir sur un problème complexe, avec un haut niveau d'exigence sur la qualité des données et du code.
Selon le profil et l'intérêt de la personne recrutée, les travaux pourront donner lieu à des publications scientifiques, communications ou valorisations méthodologiques.
Encadrement scientifique :
La personne recrutée sera sous la supervision de Simon Vonthron, chargé de recherche en géographie à INRAE UMR Innovation, Ghislain Géniaux, chargé de recherche en économétrie spatiale - INRAE UR Ecodéveloppement et Hélène Charreire, directrice de recherche en géographie - INRAE UMR MoISA.
Des déplacements ponctuels à Avignon (pris en charge par INRAE) seront à prévoir pour travailler avec le co-encadrant du projet.
Requirements
Master/Ingénieur (Bac+5)
-
Niveau d'étude et type de formation : Bac +5 en école d'ingénieurs, université ou équivalent avec une spécialisation en Data Science, Mathématiques Appliquées ou Informatique
-
Très bonne maîtrise de Python ou R pour la data science et le machine learning
-
Solide expérience en data engineering : pipelines reproductibles, gestion de données hétérogènes, SQL
-
Expérience concrète en machine learning supervisé appliqué à des données réelles et imparfaites
-
Intérêt marqué pour :
- la qualité des données
- le record linkage / entity resolution
-
La maîtrise de PostGIS ou de techniques d'OCR constitue un atout fort
-
Aptitude à travailler de façon itérative et utilisant un système de versionnement de code (Git)
Votre qualité de vie à INRAE
Benefits & conditions
En rejoignant INRAE, vous bénéficiez (selon le type de contrat et sa durée) :
- jusqu'à 30 jours de congés + 15 RTT par an (pour un temps plein)
- d'un soutien à la parentalité : CESU garde d'enfants, prestations pour les loisirs ;
- de dispositifs de développement des compétences : formation, conseil en orientation professionnelle ;
- d'un accompagnement social : conseil et écoute, aides et prêts sociaux ;
- de prestations vacances et loisirs : chèque-vacances, hébergements à tarif préférentiel ;
- d'activités sportives et culturelles ;
- d'une restauration collective.