Le projet In Codice Ratio mené par les lycéens consistait à programmer une intelligence artificielle afin de retranscrire d’anciens textes rédigés à la main.
Les archives secrètes du vatican étaient peu accessibles
Le Vatican dispose de riches archives, dont des documents très anciens datant du VIIIe siècle. Elles sont entreposées sur des rayonnages qui représentent plus de quatre-vingts kilomètres de longueur. Le Vatican ne donne que très rarement accès à ces archives, en raison de leur valeur et de leur fragilité. De ce fait, les chercheurs du monde entier peinent à y accéder.
Les lycéens romains ont donc eu l’idée d’entraîner une intelligence artificielle à retranscrire l’intégralité des archives rédigées à la main et les informatiser dans le but de les rendre accessibles. Ils sont mis sur pied le projet In Codice Ratio. Celui-ci vise à apprendre à l’IA à reconnaître les caractères de l’alphabet latin médiéval. Elle a donc été alimentée d’un million et demi de mots latins.
Un apprentissage et une segmentation en puzzle
Après avoir appris cette langue morte à l’intelligence artificielle, les lycéens ont fait usage de la méthode de « segmentation en puzzle ». Celle-ci permet d’identifier les unités minimales grâce à des traits verticaux ou horizontaux. Pour aller encore plus loin, ils ont créé plusieurs bases de données contenant les plus courantes combinaisons de lettres utilisées dans la langue latine médiévale.
Des chercheurs ont mis l’intelligence artificielle à l’épreuve en utilisant quatre pages contenues dans les archives du Vatican. Ils ont ainsi pu observer que 65 % des mots présents ont été correctement transcrits. C’est un résultat encore loin être parfait, mais qui pourrait s’avérer très utile. En effet, les chercheurs estiment que le niveau de précision des transcriptions est suffisant pour permettre aux paléographes de disposer de solides bases qui leur permettront d’accélérer le processus de transcription.