Optimisation de flux complexes à grande échelle, le défi du laboratoire commun LOPF

Vie des labos
Simon Bussy, docteur en mathématiques, co-fondateur et directeur de la recherche de la start-up Califrais et Stéphane Gaïffas, professeur à Université de Paris et à l'Ecole normale supérieure et membre du Laboratoire de Probabilités, Statistique et Modélisation (LPSM), ont monté le laboratoire commun LOPF, Large-scale Optimization of Product Flows, qui est hébergé par le LPSM1. Avec Bastien Fernandez, directeur adjoint du LPSM, ils répondent à nos questions sur la genèse, la finalité et le fonctionnement du LabCom et sur l'interaction des problématiques de l'entreprise avec la recherche mathématique.
  • 1. Laboratoire Probabilités, Statistique et Modélisation (LPSM), UMR8001, CNRS, Sorbonne Université, Université de Paris
  • Simon Bussy est co-fondateur et directeur de la recherche de la start-up Califrais depuis 2014. Il a soutenu en janvier 2019 une thèse de mathématiques appliquées dans le domaine de l’apprentissage des données appliqué à la santé au Laboratoire de Probabilités, Statistique et Modélisation (LPSM - CNRS / Sorbonne Université / Université de Paris) sous la direction d’Agathe Guilloux, Anne-Sophie Jannot et Stéphane Gaïffas. Il a mené ces deux activités en parallèle et sans interaction jusqu’en 2019.
  • Stéphane Gaïffas est professeur à l’université de Paris et professeur à temps partiel à l’École normale supérieure. Il est membre du LPSM. Il mène son activité de recherche en mathématiques appliquées en science des données et apprentissage machine – qu’on appelle aussi « machine learning », depuis le nouvel élan de cette discipline avec l’avènement d’un monde plus digital et l’augmentation des techniques de performance des machines.
  • Bastien Fernandez est directeur de recherche au CNRS. Il est directeur adjoint du LPSM depuis l’été 2018. Le LPSM se trouve géographiquement réparti entre les campus Jussieu et Grands Moulins. Comme directeur adjoint du LPSM, Bastien Fernandez est en charge des activités du pôle Université de Paris du laboratoire.

Simon Bussy, qu’est-ce que Califrais ?

Califrais existe depuis six ans. Nous sommes trois amis à avoir monté la start-up après la découverte de l’ampleur opérationnelle du marché international de Rungis, avec un chiffre d'affaires de 9 milliards d'euros correspondant à un transit de 3 millions de tonnes de marchandises par an, et le constat de la disproportion entre ce flux et le retard technologique de terrain.

Le projet Califrais est né du constat de la disproportion entre le flux de marchandises transitant sur le marché de Rungis et le retard technologique de terrain.
,

La chaîne d’approvisionnement pour les professionnels de la restauration est très complexe. Il faut à un restaurateur une interaction quotidienne avec en moyenne six fournisseurs différents, avec autant de canaux de communication, de livraisons et de factures chaque jour, et sans avoir la maîtrise de ses achats. Califrais simplifie le processus d’approvisionnement en produits alimentaires frais en offrant une plateforme unique de commande sur lesquelles toutes les informations (disponibilité du produit, date limite de consommation, livraison, etc.) sont mises à jour en temps réel. Califrais couvre toute la chaîne, de l’identification des fournisseurs à la gestion des stocks en passant par la logistique. La plateforme est suivie par un service client en temps réel et par des experts qui conseillent sur les produits à essayer en fonction des arrivages ou de la saisonnalité, dans l’optique de limiter le gaspillage alimentaire. Le restaurateur peut commander jusqu’à minuit, il est livré le lendemain à partir de 6h du matin. Il reçoit une seule facture tous les dix jours. La précision de tout le processus nécessite une technologie à la hauteur. C’est ainsi que, de trois amis de longue date, nous sommes devenus trois associés… par amour de la cuisine, des produits frais, de terroir, … des défis et des mathématiques ! Avec un engagement de développement durable.

Où et comment interviennent les mathématiques ?

Un premier aspect est la modélisation du cours des produits et de la demande des produits. La plateforme Califrais propose actuellement quelque 5000 produits dont les prix sont variables en fonction de la demande, de données météorologiques ou encore de données sanitaires. Les prix peuvent varier du simple au double. Ces variations peuvent se modéliser : en prenant en compte des données historiques sur une longue période, on peut entraîner des algorithmes qui permettent de faire de la prédiction sur quelques jours ou quelques semaines, pour donner une idée de l’évolution du prix de certains produits.

De la même façon, la variation de la demande peut être modélisée. Les clients ont accès à la modélisation des flux de prix, de disponibilité et de demande des produits, ce qui leur permet de maîtriser davantage leurs approvisionnements. Califrais optimise la partie stockage et l’ensemble des processus opérationnels. Quand on estime qu’il va y avoir des mouvements de prix significatifs, un autre algorithme entre en action pour prendre en compte des données de stockage dans l’entrepôt et de date limite de consommation afin de minimiser le gaspillage alimentaire tout en augmentant le profit.

Les algorithmes prennent simultanément en compte des millions de contraintes, de volume, et donnent des recommandations sur la stratégie à adopter pour limiter la perte, pour optimiser le profit, et pour avoir un service de qualité auprès des clients.

Un autre ensemble d’algorithmes rend possible une recommandation personnalisée pour les clients sur la plateforme. En fonction de l’activité du client, on peut lui faire des suggestions pour l’orienter vers des produits, pour diminuer ses coûts, lui faire des recommandations censées par rapport à des données structurées comme des recettes, qui peuvent être modélisées comme des graphes…

Il y a un point commun à toutes les approches algorithmiques que nous développons, c’est l’aspect temporel.
,

Il y a un point commun à toutes les approches algorithmiques que nous développons, c’est l’aspect temporel. Les comportements ne sont pas stationnaires, les lois de la demande varient en fonction du temps, il y a une saisonnalité, les conditions sanitaires ponctuelles interviennent et font varier les prix… Il y a des problématiques intéressantes en méthodologie en prenant en compte l’aspect temporel, évolutif, des données sur lesquelles on se base.

Un autre ensemble d’algorithmes prédit en temps réel la satisfaction des clients et permet de déceler les clients pour lesquels il pourrait y avoir un risque de mécontentement et d’abandon du service. C’est là qu’il y a un pont avec les recherches en données de santé. En données de santé, on estime le risque qu’un patient hospitalisé fasse une rechute pour une certaine maladie, ou le risque de décès sur une certaine cohorte de patients et une certaine pathologie. Ces techniques sont transposables directement sur les problématiques de Califrais, où les données sont toujours temporelles - avec quelle rapidité l’événement d’intérêt risque de se produire – et où le risque est l’arrêt du service pour insatisfaction. On travaille sur un ensemble de données très divers, très riche en termes de structures de données : le client est-il livré à l’heure, y a-t-il des produits manquants, des problèmes de qualité des produits… L’algorithme prend en compte l’activité économique du client sur la plateforme, analyse ses commentaires et les notes attribuées par le client. Il doit permettre d’identifier les leviers qu’on peut utiliser en pratique pour comprendre la prédiction et pour pouvoir agir pour conserver le client. C’est de la prédiction de rétention client.

Stéphane Gaïffas, qu’est-ce qui vous a amené à travailler sur ces problématiques ?

Ce sont des problématiques que je ne connais pas du tout. Mon métier est la recherche en mathématiques appliquées à un certain domaine. J’apprends à prédire à partir de certaines données. Je travaille par exemple en partenariat avec des urgentistes l’AP-HP pour prédire les affluences aux services d’urgences en Île-de-France. Les données de Califrais sont complètement nouvelles, avec des aspects logistiques, des problématiques nouvelles pour moi.

Très souvent en machine learning, on résout des problèmes de régression ou de classification : on observe des variables explicatives et des labels, et on veut apprendre à prédire le label (ou sa distribution) à partir des variables. Par exemple, quelle va être la variation de prix de tel produit d’ici demain ? Avec les données de Califrais se posent d’autres types de problèmes, nécessitant la modélisation de durées, qui sont moins fréquents en machine learning et en deep learning. Il s’agit de prédire dans combien de temps tel phénomène va se produire.

La façon dont on va implémenter un algorithme d’apprentissage est fortement liée aux données dont on dispose et à leur structure, pour que ce soit fait de façon efficace. Et cela aussi est un problématique de recherche à l’interface des mathématiques appliquées et de l’informatique.

La seule façon d’avoir accès à des données originales qui motivent de nouvelles problématiques, quand on est dans la recherche académique, c’est le partenariat avec les entreprises ou avec des chercheurs dans d’autres disciplines.
,

J’ai une motivation pratique, celle d’avoir accès à des données uniques, originales, intéressantes, peu habituelles. Quand on fait des publications, il est bon d’avoir un problème concret avec des données originales. La seule façon d’avoir accès à des données originales qui motivent de nouvelles problématiques, quand on est dans la recherche académique, c’est le partenariat avec les entreprises ou avec des chercheurs dans d’autres disciplines.

Je suis un chercheur académique. Mon but est de faire de la science et de publier. Ce projet est dans la continuité de ce que j’ai l’habitude de faire : à partir d’un problème pratique, essayer de trouver une solution. Dans le cas de Califrais, les problèmes sont assez bien identifiés. Il y a de l’évaluation de perte de clientèle, de la prédiction de stock, de variation des prix, … Il est difficile de dire pour l’instant à quel point on pourra adapter des méthodologies existantes, à quel point des méthodologies nouvelles devront être créées : c’est de la recherche ! Mais idéalement, en cours de route, on trouve quelque chose d’intéressant qui pourrait servir à d’autres domaines et donner lieu à une publication généraliste.

Un mot sur votre collaboration ?

Je suis content de continuer à travailler avec Simon. Il y a un côté humain dans la recherche, on aime travailler avec des gens qu’on aime bien !

Simon Bussy, qu’est-ce que la création d’un laboratoire commun va apporter à Califrais ?

Califrais a un laboratoire de recherche et développement en interne, composé de cinq personnes dont trois développeurs, et bientôt une thèse Cifre co-encadrée par Stéphane Gaïffas et moi-même. Chacun est expert dans des aspects liés aux problématiques évoquées. Créer un laboratoire commun avec le LPSM suscitera une collaboration créatrice de synergie d’idées et de méthodes. Il débouchera sur des publications scientifiques, entraînant une visibilité qui attirera et permettra de recruter de nouveaux talents.

L’enjeu opérationnel pour Califrais est de tenir le niveau de croissance exponentiel que l’on conserve depuis 6 ans, de creuser l’avance technologique qu’on a prise dans notre secteur, et d’assurer la technologie pour la rendre toujours plus mature, afin de la déployer sur l’ensemble du marché de Rungis, et demain sur d’autres marchés, voire sur d’autres secteurs. Cela nécessite un apport de recherche continu, que le laboratoire commun rendra possible.

Un certain nombre de verrous technologiques ont été identifiés. D’un point de vue méthodologique, il va falloir les consolider et passer à l’échelle : déployer la technologie auprès d’un maximum de grossistes à Rungis, récolter plus de données, affiner les algorithmes pour relever les nouveaux défis liés aux volumes. Il s’agit aussi d’ajouter de nouvelles dimensions au problème, par exemple le défi du sourcing de produits locaux auprès de producteurs d’Île-de-France, au-delà des grossistes de Rungis. Avec un maillage plus intense de producteurs répartis dans un espace géographique plus vaste, les contraintes sont beaucoup plus importantes et le problème, plus complexe, suscite de nouvelles considérations méthodologiques avec des algorithmes de sourcing multiple.

Intelligence artificielle & mathématiques appliquées contemporaines

Je crois que ce labcom donne un bon exemple de ce qu’est le développement de l’intelligence artificielle de nos jours. Dans la réalité de l’entreprise, il y a des considérations nouvelles et des besoins nouveaux de traiter des données, et une explosion de la demande. Quand on a un certain niveau d’exigence et cette quantité de données, on ne peut plus faire les choses de façon artisanale, il faut développer de nouvelles technologies, qu’on regroupe sous le nom d’intelligence artificielle. Cela donne une idée de ce que sont les mathématiques appliquées contemporaines. (B.F.)

Bastien Fernandez, quel est l’impact de la création d’un laboratoire commun sur le LPSM ?

Le LPSM est un laboratoire d’environ 200 personnes, dont 80 permanentes et permanents, aux activités couvrant un spectre large en Probabilités et Statistique, depuis les aspects les plus fondamentaux jusqu’à la modélisation dans divers domaines, notamment en Sciences des données. En outre, le laboratoire a de nombreuses interactions en dehors du secteur académique : finance, actuariat, santé, etc. Cette diversité pan-disciplinaire est une grande richesse qu’il faut encourager et soutenir, en même temps que nos activités fondamentales en Mathématiques.

Traditionnellement, nos interactions avec le monde de l’entreprise ont lieu à l’extérieur du laboratoire, ou tout au moins, nos partenariats ne sont pas suffisamment intégrés, comme le sont les activités académiques plus classiques. La création du laboratoire commun va permettre de développer ce partenariat comme partie intégrante du laboratoire, reconnue sur un plan académique.

La création d’un laboratoire commun est la formalisation d’une interaction importante, intégrée au laboratoire, accompagnée de moyens financiers, et impliquant de la formation et de l’insertion professionnelle.
,

Outre les crédits ANR alloués au labcom pour la formation doctorale et postdoctorale, par effet d’entrainement, ce partenariat labellisé nous permettra d’obtenir d’autres financements pour la formation, telles que les bourses de thèse Cifre. C’est le rôle de Stéphane Gaïffas, côté académique, d’encadrer ces jeunes. Et qui dit doctorat, dit formation, dit insertion professionnelle.

Le labcom entraînera certainement dans son sillage une interaction avec des membres permanents du laboratoire sur des problématiques qui correspondent à leur champ de recherche et à leur expertise. Ceux-ci bénéficieront de problématiques opérationnelles, de données un peu particulières, susceptibles de les amener à de nouvelles réflexions ou à de nouvelles méthodes.

Les profils recherchés

Les profils recherchés seront des doctorats et des post-doctorats, des ingénieurs développeurs en mathématiques appliquées, en machine learning, en intelligence artificielle. Nous allons définir des sujets de recherche à partir des problématiques qui se posent, et en fonction des centres d’intérêt de chacun, les collègues pourront contribuer, co-encadrer un ou une doctorante, aider à la recherche méthodologique… A ce stade il faut défricher, faire de la recherche bibliographique, détailler les problématiques et démarrer la recherche. (S.G.)

La présence d’un laboratoire commun dans un labo implique évidemment un travail de gestion supplémentaire pour le personnel administratif, comme toute activité déployée dans le laboratoire. Le montage du projet de labcom a été porté par Simon Bussy et Stéphane Gaïffas, le directeur du laboratoire n’intervenant qu’au moment de la signature officielle.

Et après ?

Pérenniser. A la fin de l’enveloppe octroyée par l’ANR dans le cadre du laboratoire commun, l’idée est de mettre en production des outils qui peuvent être monétisés sur tous les points qu’on a évoqués. On sent bien le potentiel de tous ces points et l’intérêt que cela peut susciter chez des industriels dans le secteur ou hors secteur. Et il y a un vrai intérêt de recherche, pour la recherche mathématique, à prolonger cette interaction.