Google forme une IA à rédiger des pages Wikipédia

Pour le géant américain, des chercheurs travaillent actuellement sur l’entraînement de bots à traiter et mettre en forme des informations afin d’écrire des pages Wikipédia.

Le 30 janvier 2018, la Cornell University Library a diffusé une publication faisant état de recherches menées par Google dans le cadre de la formation de logiciels à réunir et compiler des informations sur le Web afin d’en faire des pages Wikipédia. Les tests actuellement pratiqués sont le fruit du travail d’une équipe de chercheurs de Google Brain, le programme de recherche en intelligence artificielle du géant américain.

Le procédé utilisé ici a été baptisé «résumé extractif », et celui-ci fonctionne en se servant des dix premières pages Web traitant un sujet en particulier. Le programme identifie alors les informations pertinentes sur le sujet en question et s’attèle à la rédaction de l’article Wikipédia.

Citons par exemple un des travaux de l’IA concernant Wings Over Kansas, un site internet sur l’aviation. Ci-dessous, il est possible de voir à gauche l’article rédigé par le programme, et à droite le texte tiré de la page officielle de Wikipédia, évidemment écrite par un humain.

Ainsi, le détail frappant est que le texte de l’IA semble être quasiment deux fois plus fourni que celui de la page originale. Et pourtant, le programme n’est pas parfait pour une raison très simple : celui-ci ne crée pas de textes originaux. En effet, il est ici question de prendre les textes des pages web, de les réduire et d’en faire des phrases plus courtes.

Par ailleurs, le procédé pose la question de la fiabilité des informations, car si les dix premières pages web traitant d’un sujet sont prises en compte, les sources ne sont pas réellement identifiées et ne sont donc pas vérifiées. En définitive, l’élaboration d’une telle IA part d’un bon sentiment et mérite d’être améliorée mais pour sûr, les auteurs d’articles sur Wikipédia ne finiront pas au placard avant longtemps.

Sources : The Register – Siècle Digital