Dégradation numérique : une étude sur la disparition des pages Web

clavier delete
Crédits : Koff-m / iStock

Un think tank américain a récemment publié une étude portant sur la dégradation numérique. Ces travaux concernent notamment les pages qui disparaissent régulièrement d’Internet. Quelle est l’ampleur de ce phénomène ?

Pages effacées et sites non fonctionnels

Chaque jour, de nouvelles pages Web apparaissent, mais il faut également savoir que d’autres disparaissent, et ce, à une vitesse plutôt étonnante. Le 17 mai 2024, le think tank américain Pew Research Center a publié une étude dans laquelle il est question de la notion de dégradation numérique. Selon les auteurs, pas moins de 38 % des pages Web qui existaient en 2013 sont aujourd’hui indisponibles. Cependant, il faut savoir que ces disparitions ne concernent pas seulement les pages disponibles il y a une décennie.

Dans le cadre de ses recherches, le Pew Research Center a eu recours aux archives de Common Crawl, un service qui collecte des captures d’Internet à un instant donné. De façon aléatoire, le think tank a réuni pas moins d’un million de pages Web datant de 2013 à 2023.

L’étude précise que 25 % de toutes les pages collectées entre 2013 et 2023 n’étaient plus accessibles à partir d’octobre 2023. Par ailleurs, si 16 % d’entre elles ont été effacées de pages encore existantes en ce moment, 9 % appartenaient à des sites qui ne sont plus fonctionnels. Un autre chiffre étonnant stipule qu’un cinquième des pages collectées sur l’année 2021 n’étaient plus disponibles seulement deux ans plus tard.

graphique dégradation numérique
Crédits : Pew Research Center

Des liens de référence obsolètes

La dégradation numérique dont il est ici question s’observe à différents niveaux. Sur 500 000 pages de médias observées durant l’étude provenant de 2 063 sites, pas moins de 5 % concernent des liens sont non valides aujourd’hui. De plus, 23 % des articles en question contenaient au moins un lien cassé, donc inutilisable. Ce taux est de 21 % en ce qui concerne les pages qui se trouvent sur des sites gouvernementaux avec un très haut taux au niveau des pages à l’échelle municipale. Citons également la plateforme Wikipédia, dont 50 000 pages qui contiennent environ 11 millions de liens de références ont été réunies par le Pew Research Center. Or, 11 % de ces liens sont aujourd’hui obsolètes. Pas moins de 53 % contiennent par ailleurs au moins un lien inutilisable.

Le think tank a aussi utilisé l’interface de programmation d’application (API) du réseau social X pour analyser environ cinq millions de publications datant du 8 mars au 27 avril 2023. Après la fin de la période d’observation (le 15 juin 2023), les auteurs ont découvert que 18 % de ces publications ne sont plus accessibles au public. Toutefois, des disparités sont visibles concernant les langues dans lesquelles ont été écrites ces publications. Les langues les plus touchées sont le turc (48 %) et l’arabe (42 %).