News

Rakuten Data Challenge 2021

16/02/2021

Depuis 2016, challengedata.ens.fr organise des datas challenges proposés par des entreprises ou des scientifiques sur le traitement des données par apprentissage supervisé. Ces challenges sont issus de problématiques concrètes et s'inscrivent dans un esprit d'échange scientifique avec un partage de données non-confidentielles. L’organisation de ces data challenges est soutenue par la chaire CFM de l’École normale supérieure et par la Fondation des Sciences Mathématiques de Paris.

Cette année encore, la filiale parisienne de Rakuten Institute of Technology (RIT) y participe en proposant un projet d'extraction d’informations de couleur à partir d’images et de descriptions de produits en japonais. 

Pour en savoir plus sur ces data challenges et comment le RIT y participe, nous avons rencontré les deux experts les mieux placés pour nous en parler. Nous vous proposons une interview croisée entre Stéphane Mallat , mathématicien, Professeur au Collège de France à l’origine des data challenges et Laurent Ach, Directeur Europe de Rakuten Institute of Technology.  

  • Professeur Stéphane Mallat , vos travaux portent sur les mathématiques appliquées au traitement du signal et à l'apprentissage statistique. Lauréat de la médaille de l'innovation du CNRS, Chevalier de la Légion d’honneur et Membre de l’Académie des sciences, pour ne citer que quelques-unes de vos distinctions... pourquoi avoir créé des data challenges ? Qu’est-ce que cela représente pour vous ? 

Nous avons décidé d’organiser des data challenges en 2017 pour créer un lien, un pont entre étudiants et professionnels. 
D’un côté, nous voulions donner l’opportunité aux étudiants de s’affranchir des problèmes académiques, qui ne sont pas forcément le reflet des enjeux actuels, pour répondre à des questions plus concrètes aussi bien d’un point de vue scientifique qu’industriel. 
De l’autre, nous avions des industriels, des laboratoires, qui eux-mêmes rencontrent des problèmes de données et peuvent être à la recherche de nouvelles solutions voire de talents. 
En effet, de nombreux instituts, je pense par exemple à la géoscience ou la climatologie, ne sont pas spécialistes de la science des données alors qu’ils ont une ressource incroyable. C’est donc intéressant pour eux de créer des collaborations ou de découvrir des nouvelles techniques pour résoudre leurs problèmes d’analyse de données. 

Aujourd’hui, l’intérêt de ces challenges c’est qu’ils sont ouverts vraiment à tous – pour le moment, on ne compte pas moins de 5 500 inscriptions - donc nous ne savons pas qui va participer et encore moins qui seront les gagnants. 

  • Laurent Ach, pourquoi le RIT participe aux data challenges ?  

RIT Paris a proposé plusieurs data challenges au cours des dernières années, notamment celui de la classification multimodale ou encore sur la prédiction du taux de réclamation après une transaction. Le défi de cette année, une édition 100% digitale, concerne cette fois, la prédiction des couleurs des produits à partir de leurs images, titres et descriptions.  

Les produits en vente sur les marketplaces comme celles de Rakuten apparaissent sous forme d’images et de textes compréhensibles pour les utilisateurs mais il s’agit de donnés « non structurées » difficiles à traiter automatiquement. Pour améliorer la navigation, la recherche de produits, le SEO (Search Engine Optimization), il est nécessaire d'utiliser des données structurées, qui sont des propriétés enregistrées suivant un format prédéfini, par exemple : couleur = blanc, matériaux = bois, etc. 
La technique d’intelligence artificielle appelée deep learning, permet extraire ce genre de propriété de l’image et du texte, qui sont considérés comme deux modalités qu’il est utile de combiner pour en extraire de l’information. 

Cette tâche présente de nombreuses difficultés car les images contiennent souvent des objets du décor qu’il faut distinguer du produit principal, comme cela peut être le cas lorsqu’il y a des éléments visuels ajoutés parfois en surimpression ou lorsque plusieurs versions d’un même produit sont rassemblées dans les images et les descriptions. Certaines erreurs peuvent se trouver dans les exemples d’apprentissage.  

Rakuten a récupéré un ensemble de données multimodales d'environ 250 000 annonces provenant de Rakuten Ichiba, la place de marché japonaise du groupe. L'ensemble des données comprend des titres, des descriptions, des images de produits. Pour une partie de ces données les couleurs correspondantes sont aussi fournies et servent à entraîner les modèles sur lesquels travaillent les candidats du data challenge. Pour l’autre partie, les couleurs ne sont pas fournies et les candidats sont évalués en fonction de l’exactitude des couleurs prédites par leurs modèles. 

  • Professeur Stéphane Mallat, qu’est-ce que le Challenge sur la prédiction de la couleur des produits de Rakuten vous inspire ? 

C’est un challenge intéressant. Il mélange des modalités multiples :  image et éléments de texte. C'est une problématique omniprésente. Il y a beaucoup de problèmes où les informations sont partielles, provenant de sources différentes et qu’il faut regrouper pour obtenir une réponse unique.  

  • Et de votre expérience des challenges, qu’est-ce qui fait un bon candidat et quel est votre meilleur souvenir ?

Selon mon expérience, les meilleurs candidats font vraiment un travail remarquable. Alors ça ne veut pas dire que certains n’y ont pas été au "marteau piqueur" mais ils ont été créatifs, n’ont pas fait d’erreur grossière ou perdu du temps sur des choses inutiles. Ils ont eu des bonnes idées sur comment prendre les données, ils ont eu une bonne méthodologie.

Evidemment, il y a toujours des contre-exemples ! 
Il y a des candidats qui ont eu des bonnes idées avec une bonne compréhension du problème mais n’ont pas eu le "marteau piqueur" avec un ordinateur assez puissant et donc n’ont malheureusement pas obtenu les meilleurs résultats. 

En tout cas, il y a quand même une moralité : ceux qui partent avec une idée en tête, sans regarder concrètement le problème, échouent. 

Une anecdote sur les meilleurs candidats qui me vient spontanément à l’esprit date du 1er challenge.
Nous avions le nom de deux gagnantes que nous ne connaissions pas : une étudiante chinoise et une étudiante péruvienne. Elles se sont excusées dans un français maladroit car elles avaient le sentiment qu’elles allaient nous faire perdre du temps. Finalement, elles nous ont proposés une superbe solution qui a battu absolument tous les modèles de machine learning y compris ceux des ingénieurs de grandes écoles. 
J’ai trouvé cela touchant car on rencontre des profils parfois inattendus, qui obtiennent de très bons résultats et c’est l’occasion de montrer que ce n’est pas toujours le mainstream
Le plus étonnant, c’est que dans de nombreux cas, les propositions des étudiants sont nettement meilleures que le dispositif actuel des entreprises. C’est agréable de voir ce genre de choses, on se dit qu’on n’a pas perdu son temps. 

  • Laurent Ach, que retire le RIT de ses participations aux data challenges ?  

 Notre participation aux data challenges nous oblige à complètement formaliser les problèmes sur lesquels nous travaillons et nous astreint une rigueur dans la préparation des données qui sont fournies sous forme d’open-data. C’est l’occasion d’adopter un nouveau point de vue sur nos projets, de les confronter à des approches nouvelles et de parfois rencontrer des étudiants très prometteurs. Nous sommes ravis de contribuer à l’enseignement des étudiants du Professeur Mallat à travers ces projets. La collaboration est source d’un vrai bénéfice mutuel. 

 

Pour en savoir plus sur le data challenge proposé par RIT ou contacter l'équipe de RIT Paris.