Tyrex | Project

Efficient Runtimes for Predictive Analytics with Big Medical Data

This research topic is about predictive analytics with big medical data. The aim is to detect patients or groups of patients that are at significant risk of complications during hospital stays (e.g. death, nosocomial infection, etc.), based on information known at admission. The analysis should be precise enough so that treatments could be put in place as soon as possible after admission. The research consists in developing such analyzes which can take advantage of the fine granularity of the data, as well as their volumetry.

Key aspects:

  • Dataset concerning millions of patients, hundreds of hospitals, with detailed medical prescriptions (with dosage, frequency, etc.) and hospital procedures that were performed during hospital stays.
  • A cluster of machines located at Inria, administered within the team, and equipped with advanced technologies (e.g. Dockers, Apache Spark, MLlib, etc.)
  • Objectives: identifying the best ways to formalize the problem of the prediction of at-risk patients, identifying the most appropriate algorithms to solve it, and characterizing the efficiency, the performance and the scaling up of the chosen solutions.

This research topic is part of the larger CLEAR research project where we investigate ways to synthesize optimized code for distributed infrastructures.

Contacts

Pierre Genevès (pierre.geneves@cnrs.fr), Nabil Layaïda (nabil.layaida@inria.fr)

Version Française

Ce stage concerne l'analyse prédictive à partir de big data de nature médicale. Un objectif est de parvenir à identifier de la manière la plus fiable et précise possible lors de l'admission à l'hôpital, les patients ou groupes de patients à risque particulièrement élevé de subir des complications durant leur séjour à l'hôpital (par ex: décès, infection nosocomiale, etc.). Le but étant que l'analyse soit suffisamment distinctive afin de pouvoir mettre en place des traitements particuliers. Pour cela il s'agit de développer des analyses de ces big data qui puissent tirer partie de la granularité fine des données, ainsi que de leur volumétrie.

Les points clefs:

  • Jeu de données concernant des millions de patients, des centaines d'hôpitaux, avec le détail des prescriptions médicales (avec dosage, fréquence, etc.) et des actes hospitaliers qui ont été effectués durant les séjours à l'hôpital.
  • Un cluster de machines localisé à Inria, administré au sein de l'équipe, et équipé de technologies de pointe (ex: Dockers, Apache Spark, MLlib, etc.)
  • Objectifs: identifier les meilleures manières de formaliser le problème de la prédiction des cas à risque, identifier les algorithmes les plus adaptés pour le résoudre, caractériser l'efficacité, la performance et le passage à l'échelle des solutions retenues.

Cette thématique de recherche s'inscrit dans le contexte du projet de recherche plus large CLEAR dans lequel nous avons également des big data issues d'autres domaines (ex: grande distribution, finance, etc.), et nous étudions les manières de produire du code optimisé pour les infrastructures distribuées. Possibilité de continuer en thèse.

Contacts

Pierre Genevès (pierre.geneves@cnrs.fr), Nabil Layaïda (nabil.layaida@inria.fr)