Type de projet 
Projet Scientifique et Technique
Date
01 août 2017

Pour certains élèves, les Projets Techniques et Scientifiques sont l’occasion d’aller toujours plus loin. A travers Tiramisu, ce sont sept élèves qui ont décidé de se confronter au Deep Learning, les réseaux neuronaux artificiels, pour bâtir leur Intelligence Artificielle (IA) capable de reconnaître l’auteur d’un texte tiré aléatoirement en analysant son style.

D’apprenti à critique professionnel

N’ayant pas du tout étudié le Machine Learning pendant leur cursus, ils ont dû se familiariser avec le concept. Pour ce faire, ils ont d’abord fait des recherches sur le sujet et suivi des tutoriaux qui leur ont permis d’avoir de précieux conseils pour créer leur propre réseau de neurones. Ils ont alors fait un benchmark pour déterminer la meilleure base donnée à utiliser ainsi que le meilleur langage. Ce sont respectivement Theano et Python qui ont été sélectionné.

La plupart des documents se trouvant en format PDF, la même démarche a été entreprise pour trouver le meilleur logiciel d’Optical Character Recognition (OCR) et c’est ABBYY FineReader qui s’est démarqué. Ainsi les documents ont pu être convertit en texte et l’algorithme de fonctionner de façon optimale.

Ils ont notamment utilisé une librairie de matrice documents termes et le Text Mining pour extraire les mots, SnowBallC pour  la recherche automatique des radicaux qu’ils ont dû adapter pour l’occasion.

Les ressources textuelles sur lesquels ils ont eu l’occasion de travailler étaient des critiques d’art, fourni par le MACVAL – Musée d’Art Moderne du Val-de-Marne. La critique d’art est un excellent moyen d’étudier l’Intelligence Artificielle car elle offre un panel varié de points de vue et est donc un parfait élément pour étudier la polarité des textes.

Les différents tests effectués au fur et à mesure ont montré les limites de l’algorithme initial, qui a dû être retravaillé au fur et à mesure.

Le domaine est en pleine expansion et une des évolutions possibles du projet est l’implémentation d’un algorithme capable de reconnaître les partis pris d’un texte donné. D’un point de vue esthétique, il s’agit de proposer une interface visuellement plus propre, ainsi qu’une interface utilisateur simplifiée.

 

L’équipe

Eunice ADRIEN
Stéphane CHARAVIT
Marton DANKO
Quentin MAZARD
Martin ROJO
Sylvain ROJO
Maxime SAZADALY
Clémence VIARD