Ingénieur·e d'étude Data / Machine Learning

INRAE

Canton of Montpellier-3, France

14 days ago

Role details

Contract type

Permanent contract

Employment type

Full-time (> 32 hours)

Working hours

Regular working hours

Languages

French

Job location

Canton of Montpellier-3, France

Tech stack

API

Optical Character Recognition (OCR)

Databases

Web Scraping

Python

Machine Learning

PostGIS

Reference Data

GIT

Information Technology

Build Process

Job description

L'environnement alimentaire, social et urbain est aujourd'hui considéré comme un facteur influençant les comportements alimentaires 1 . Les acteurs des territoires pourraient donc agir sur l'environnement pour encourager des comportements alimentaires durables et favorables à la santé, en améliorant l'accessibilité à l'ensemble de l'offre alimentaire (commerces, restaurants, marchés, points de vente). Cependant, en France, il n'existe à l'heure actuelle aucune base de données fiable disponible à l'échelle nationale permettant de caractériser et spatialiser finement l'environnement alimentaire 2 . Un premier travail a été conduit visant à agréger des données issues de différentes sources de données en prenant comme point de départ le répertoire des entreprises Sirene 3 . Ces données ont pu être agrégées grâce à l'utilisation dans ces bases d'un identifiant unique : le numéro Siret des entreprises. Cependant, ce travail est aujourd'hui incomplet : par exemple de nombreux établissements fermés sont considérés actifs dans cette base. De plus, des caractéristiques et des coordonnées géographiques plus précises sont renseignées dans d'autres bases existantes mais n'utilisant pas le numéro Siret comme identifiant. C'est notamment le cas de la carte collaborative OpenStreetMap. Enfin, certaines formes de distribution alimentaires comme les marchés, les points de distribution des AMAP ne sont pas renseignées dans le répertoire Sirene.

Le projet soulève des enjeux méthodologiques forts en data engineering, en apprentissage automatique et en analyse spatiale : intégration de sources hétérogènes, désambiguïsation d'entités, détection d'erreurs et d'obsolescence, gestion de l'incertitude spatiale. Il vise à produire une base de données réutilisable à long terme, tant pour la recherche que pour l'action publique., Le poste proposé s'inscrit dans ce processus de construction d'une base nationale fiable permettant de caractériser et cartographier l'offre alimentaire. En particulier, il visera à identifier des doublons entre plusieurs bases de données structurées différemment et développer un modèle capable d'identifier les établissements fermés à partir de jeux de données de référence.

Le système produit devra être pérenne robuste et maintenable, conforme à des standards de « qualité production », et non d'une simple preuve de concept. Le livrable devra pouvoir fonctionner de manière fiable et autonome après le départ de l'ingénieur·e d'étude., * Construction de jeux de données de référence (ground truth)

Conception de stratégies d'extraction multi-sources (API, web scraping, OCR, données terrain)
Nettoyage, normalisation et documentation de données hétérogènes
Analyse critique de la qualité, de la complétude et de la fraîcheur des données

Record linkage et désambiguïsation d'établissements

Développement de méthodes de matching entre bases structurées différemment (Sirene, OpenStreetMap, autres sources)
Combinaison de règles expertes, de fuzzy matching et de modèles supervisés
Attribution probabiliste de numéros Siret

Détection automatique d'établissements fermés

Conception de variables dérivées à partir de sources hétérogènes
Entraînement et évaluation de modèles supervisés
Analyse des faux positifs / faux négatifs et interprétabilité des résultats

Industrialisation et pérennisation

Conception de pipelines reproductibles et maintenables
Documentation et transfert pour assurer l'autonomie du système

La personne recrutée disposera d'une large autonomie dans les choix méthodologiques et techniques, en lien étroit avec les encadrants scientifiques. Le poste s'adresse à un·e ingénieur·e souhaitant s'investir sur un problème complexe, avec un haut niveau d'exigence sur la qualité des données et du code.

Selon le profil et l'intérêt de la personne recrutée, les travaux pourront donner lieu à des publications scientifiques, communications ou valorisations méthodologiques.

Encadrement scientifique :

La personne recrutée sera sous la supervision de Simon Vonthron, chargé de recherche en géographie à INRAE UMR Innovation, Ghislain Géniaux, chargé de recherche en économétrie spatiale - INRAE UR Ecodéveloppement et Hélène Charreire, directrice de recherche en géographie - INRAE UMR MoISA.

Des déplacements ponctuels à Avignon (pris en charge par INRAE) seront à prévoir pour travailler avec le co-encadrant du projet.

Requirements

Master/Ingénieur (Bac+5)

Niveau d'étude et type de formation : Bac +5 en école d'ingénieurs, université ou équivalent avec une spécialisation en Data Science, Mathématiques Appliquées ou Informatique
Très bonne maîtrise de Python ou R pour la data science et le machine learning
Solide expérience en data engineering : pipelines reproductibles, gestion de données hétérogènes, SQL
Expérience concrète en machine learning supervisé appliqué à des données réelles et imparfaites
Intérêt marqué pour :

la qualité des données
le record linkage / entity resolution

La maîtrise de PostGIS ou de techniques d'OCR constitue un atout fort
Aptitude à travailler de façon itérative et utilisant un système de versionnement de code (Git)

Votre qualité de vie à INRAE

Benefits & conditions

En rejoignant INRAE, vous bénéficiez (selon le type de contrat et sa durée) :

jusqu'à 30 jours de congés + 15 RTT par an (pour un temps plein)
d'un soutien à la parentalité : CESU garde d'enfants, prestations pour les loisirs ;
de dispositifs de développement des compétences : formation, conseil en orientation professionnelle ;
d'un accompagnement social : conseil et écoute, aides et prêts sociaux ;
de prestations vacances et loisirs : chèque-vacances, hébergements à tarif préférentiel ;
d'activités sportives et culturelles ;
d'une restauration collective.

About the company

Présentation INRAE L'Institut national de recherche pour l'agriculture, l'alimentation et l'environnement (INRAE) est un établissement public de recherche rassemblant une communauté de travail de 12 000 personnes, avec 272 unités de recherche, de service et expérimentales, implantées dans 18 centres sur toute la France. INRAE se positionne parmi les tout premiers leaders mondiaux en sciences agricoles et alimentaires, en sciences du végétal et de l'animal. Ses recherches visent à construire des solutions pour des agricultures multi-performantes, une alimentation de qualité et une gestion durable des ressources et des écosystèmes., UMR Innovation, Bâtiment 27, Campus de la Gaillarde Centre INRAE Montpellier-Occitanie