Ingénieur en apprentissage automatique Data scientist - H/F

L'entreprise

L’Inserm est le seul organisme public français entièrement dédié à la recherche biologique, médicale et en santé des populations. Il dispose de laboratoires de recherche sur l’ensemble du territoire, regroupés en 12 Délégations Régionales. Notre institut réunit 15 000 chercheurs, ingénieurs, techniciens et personnels administratifs, avec un objectif commun : améliorer la santé de tous par le progrès des connaissances sur le vivant et sur les maladies, l’innovation dans les traitements et la recherche en santé publique.

Rejoindre l’Inserm, c’est intégrer un institut engagé pour la parité et l’égalité professionnelle, la diversité et l’accompagnement de ses agents en situation de handicap, dès le recrutement et tout au long de la carrière. Afin de préserver le bien-être au travail, l’Inserm mène une politique active en matière de conditions de travail, reposant notamment sur un juste équilibre entre vie personnelle et vie professionnelle.

L'Inserm a reçu en 2016 le label européen HR Excellence in Research et s'est engagé à faire évoluer ses pratiques de recrutement et d'évaluation des chercheurs.

Le poste

A propos de la Structure : Le CépiDc a pour mission de produire la base de données statistique sur les causes médicales de décès en France, de la diffuser et de réaliser des analyses sur cette base
de données, qui est utilisée pour la veille sanitaire et pour des études épidémiologiques et statistiques.

Mission principale : Vous participez à la mise en oeuvre en production courante des outils d’intelligence artificielle pour le codage des causes de décès. Ces outils fondés sur de l’apprentissage profond et du traitement automatique des langues améliorent la qualité et la rapidité de codage automatique, de façon à satisfaire les délais réglementaires de diffusion de la base. Vous êtes responsable de leur adaptation pour tenir compte du prochain changement de nomenclature (passage de la CIM 10 à la CIM 11) et vous êtes partie prenante de l’évolution du système d’information du CépiDc qui en découle. Vous bénéficiez d’un accès à des ressources de calcul (GPU) permettant de concevoir, entraîner et tester des modèles et de réaliser des prédictions.
Au sein du pôle production des données du CépiDc, vous travaillez dans l’équipe automatisation, sous la responsabilité de la cheffe d’équipe, et en étroite collaboration avec le data scientist senior. Vous collaborez également avec le reste de l’équipe pluridisciplinaire (codeurs, nosologistes, responsables de production, statisticiens) et vous êtes partie prenante de l’écosystème formé avec les partenaires de recherche et développement (médecins spécialisés en informatique médicale et datascientists, de l’AP-HP, LISN-CNRS, Insee, Santé publique France, Inserm).

Activités principales :

Mettre en production, maintenir, monitorer et valider une chaîne de traitements de données textuelles comprenant des prédicteurs de type réseaux de neurones (transformers) pour aider/automatiser le codage du texte libre des certificats de décès dans la CIM (annotation, training/fine-tuning, monitoring).
Mettre en production le ciblage des certificats à allouer aux différentes modalités de codage (IA, manuel), évaluer l’amélioration continue du codage automatique (en taux de codage et en qualité) en vue d’une boucle d’apprentissage continue (on line) à partir de la validation/correction des codeurs des propositions de l’algorithme.
Adapter l’architecture du modèle et le feature engineering en vue d’améliorer la classification des causes, en adéquation avec la finalité statistique du traitement et les bonnes pratiques.
Participer à l’internationalisation de ces méthodes en lien avec les instances représentatives françaises à l’OMS et au sein de l’Europe.
Assurer une veille scientifique sur les modèles et les algorithmes à l’état de l’art dans le domaine.
Participer activement à des groupes d’échanges de bonnes pratiques existants ou à construire regroupant datascientists, statisticiens et chercheurs en épidémiologie et informatique (Insee, DREES, Inserm, Inria,...) autour de l’usage de l’IA/TAL sur ces thématiques.

Profil recherché

Connaissances :

Apprentissage automatique, traitement automatique des langues, deep learning, sciences des données ;
Maîtrise de l’ensemble des étapes allant du développement à la mise en production ;
Maîtrise des environnements de production ;
De bonnes bases statistiques ;
Des connaissances en biostatistique et un intérêt pour l’épidémiologie sont des plus.

Savoir-faire :

Très bonne maîtrise de Python et des librairies de deep learning (Tensorflow, Pytorch) en particulier celles appliquées au traitement automatique des langues ;
Entraînement et monitoring d’algorithmes de deep learning
Mise en production d’algorithmes de machine learning, MLops
Git, outil de versioning
Design et maintien de pipeline de machine learning, ces expériences sont des plus, de même que l’utilisation de Docker, MLFlow, et de technologies cloud.

Aptitudes :

Proactivité, force de proposition ;
Aisance relationnelle, sens de la communication et de la pédagogie ;
Capacités d’organisation, de planification et de rigueur ;
Discrétion et confidentialité ;
Savoir s’insérer et interagir avec des équipes multidisciplinaires : pôle de production, experts métiers chargés de production, statisticiens, stagiaires, chercheurs, etc. ;
Savoir se maintenir à l’état de l’art des connaissances.

Niveau de diplôme et formation : Titre ou diplôme classé au moins au de Niveau 7 ou qualification professionnelle jugée équivalente. Diplôme d’ingénieur de grandes écoles, Master en data science ou équivalence professionnelle

Spécificités et environnement du poste : confidentialité des données et contraintes de production.

Expérience souhaitée : ce poste convient à un sortant d’école motivé, formé à l’usage de Python et des librairies d’apprentissage profond.

Éléments nécessaires pour postuler

Pour valider votre candidature, nous vous demandons de fournir les éléments suivants, vous devrez télécharger les pièces demandées directement lors de votre inscription.

Toute candidature incomplète ne sera pas traitée par nos services.

Document(s) :

Curriculum Vitæ
Lettre de motivation
Précisez vos prétentions salariales.

Candidature facile

Conditions pratiques

CDD - 36 Mois
Contractuel
Catégorie A
Temps plein
Renouvelable

Niveau d'expérience requis

Débutant accepté

Niveau d'étude requis

Bac +5

Diplôme requis

Titre ou diplôme classé au moins au de Niveau 7 ou qualification professionnelle jugée équivalente

Permis requis

Permis non obligatoire

Prise de poste

Dès que possible

Type de salaire

A définir selon profil

Localisations

94800 Villejuif, Val-de-Marne, Île-de-France

Avantages salariaux

• Activités télétravaillables : 1 à 3 jours par semaine sur accord hiérarchique après intégration, formation et immersion
• 32 jours de congés et 13 jours de RTT sur une année civile (hors déduction de la journée de solidarité)
• Comité d'action sociale (prestations sociales, culturelles, sportives)
• Transports publics remboursés partiellement
• Prise en charge d'une partie de la mutuelle

Pour en savoir + :
- Sur l'Inserm : https://www.inserm.fr/ ; site RH : https://rh.inserm.fr/Pages/default.aspx
- Sur la politique handicap de l'Inserm et sur la mise en place d'aménagements de poste de travail, contactez la Mission Handicap : emploi.handicap@inserm.fr

Ingénieur en apprentissage automatique Data scientist - H/F

L'entreprise

Le poste

Profil recherché

Éléments nécessaires pour postuler

Modifier ma photo

Mentions légales

Politique de protection des données

CGU