L’INA et la BnF ont notamment pour mission d’archiver le web. On y trouve des sites entiers, la presse en ligne… Mais plus j’y pensais et plus je me demandais si les vidéastes de YouTube avaient eux aussi la place dans ces prestigieuses collections patrimoniales. Je suis donc allé fouiller dans les archives, à la recherche du « Wrap Mcdo Challenge » de Michou.

[Cet article devait être à l’origine une vidéo. Mais pour diverses raisons, notamment techniques, je n’ai pas pu produire la vidéo comme je l’aurais voulu. J’ai donc opté pour une version écrite de ce sujet, accompagné de plusieurs vidéos d’interviews.]
L’année dernière, dans le cadre de mon travail, j’ai eu la chance d’aller à la Bibliothèque nationale de France pour faire un reportage sur leur fond de collecte dédié aux jeux vidéo. Et lors de cette visite, l’une des personnes que j’ai rencontrées m’a expliqué que, en plus des jeux et des consoles, des vidéos YouTube étaient également archivées. Bien sûr, j’ai commencé à cogiter tout seul : est-ce que ca veut dire qu’il existe des archives dédiées aux vidéastes et influenceur.euses ? Est-ce que le Wrap Mcdo Challenge de Michou est préservé pour l’éternité à côté de… disons de manuscrits originaux de Balzac ? Je grossis le trait, mais la question se pose pour n’importe quel créateur.rice de contenus vidéos. Et puis je me suis demandé quels contenus méritaient d’être archivés ? Et surtout dans quel but ?
J’avais au final beaucoup de questions et, après un an de mûres réflexions (et d’oubli du sujet), je me suis dit qu’il serait intéressant de trouver des réponses.
François Ier a permis l’archivage de Michou (c’est un raccourci)
J’ai parlé de la BnF en introduction, mais les archives du web sont aussi co-gérées avec l’INA, l’Institut national de l’audiovisuel. Pour trouver des réponses, il fallait donc que j’aille à la fois dans le 13e arrondissement de Paris mais aussi à Bry sur Marne, dans le 94.
Mais avant de voir comment chacun travaille, un point un peu d’histoire est nécessaire pour comprendre ce que sont ces archives et pourquoi elles existent.

Tout part de la création du dépôt légal par François Ier et l’ordonnance de Montpellier du 28 décembre 1537. Les éditeurs de livres étaient alors obligés de déposer un exemplaire au dépôt légal, pour la conservation, mais aussi pour permettre la surveillance de ce qui se produisait. Deux lois bien plus récentes, en 1992 puis en 2006, vont finir par étendre la loi à tous les documents imprimés, sonores, audiovisuels multimédias… Et la BnF a logiquement hérité de cette tâche de préservation.
Côté INA, tout part de la loi du 7 août 1974 qui dissout l’ORTF. L’institut est créé dans la foulée notamment pour assurer « la conservation des archives, des recherches de création audiovisuelle et de la formation professionnelle ».
En 2006, et alors que des expérimentations avaient déjà été lancées, la loi évolue encore et la charge du dépôt légal du web français est répartie entre la BnF et l’Ina. Cela veut dire que tous les documents diffusés en ligne, théoriquement dans la limite du domaine français, doivent être automatiquement archivés. Dans les faits, il y aura pas mal de nuances à apporter sur l’application de la loi et ses limites, mais on y reviendra un peu plus tard. Voilà pour la partie historique.
Les limites des API
Maintenant qu’on a posé un peu le contexte, j’étais prêt à aller voir comment sont archivés les contenus de créateur.rice.s du web. J’ai réussi à obtenir deux rendez vous : le premier en août avec Jérôme Thièvre, responsable R&D au dépôt légal du web de l’INA, et le second en septembre avec Vladimir Tybin Chef de service du Dépôt légal numérique à la BnF.

Quand je les ai vus, la première chose que j’ai dite, immédiatement c’est « Bonjour ». Car je suis poli. On a discuté quelques minutes, puis lorsque l’interview a débuté, j’ai posé la première question que j’avais en tête : que trouve-t-on exactement dans leurs archives du web ?
« On suit au quotidien près de 15.000 sites, près de 16.000 comptes de réseaux sociaux, et à peu près 20.000 comptes ou chaînes vidéos et audios. On a collecté un peu plus de 110 milliards de ressources sur le web, plus de 30 millions de contenus sur les plateformes vidéo et audio et plus de deux milliards de tweets. »
Jérôme Thièvre — INA
« Les archives du web chez nous représentent 1,44 Pétaoctets de données [1 Pétaoctet représente 1000000 Gigaoctets]. La collection des 1071 chaînes YouTube que l’on conserve chez nous représente 19 Téraoctets, soit plus de 2000 jours de visionnage si on les mettait bout à bout. »
Vladimir Tybin — BnF
Avant de continuer sur YouTube, je me suis dit qu’il fallait que j’en profite pour demander à faire un petit détour et demander si des plateformes comme Twitter, Instagram, Snapchat ou bien sûr Tik Tok sont également archivées. Après tout, il se passe énormément de choses sur ces sites également, parfois en lien direct avec l’actualité. Et mes deux interlocuteurs m’ont expliqué qu’il s’agit ici avant tout d’un sujet technique.
« On a mené des expérimentations et on est toujours sujets à la manière dont les plateformes diffusent leurs contenus et surtout aux technologies utilisées pour les diffuser. Pour Instagram, on a réalisé une première collecte plus ou moins réussie, mais par la suite, ils ont changé le code, la façon de présenter les contenus, et cela arrive souvent avec les plateformes. On essaye donc de trouver d’autres moyens pour les collecter. »
Vladimir Tybin — BnF
« Facebook a fermé assez drastiquement l’accès à ses données à la suite du scandale Cambridge Analytica. Depuis, tout l’univers Facebook, et donc Instagram, est beaucoup plus difficile à atteindre. Sur Tik Tok, il n’existe pas d’API* permettant de récupérer suffisamment de données. »
Jérôme Thièvre — INA
*Rapide précision, ce que Jérôme appelle API désigne « Application Programming Interface », à savoir une interface donnant accès à distance à certaines données et informations d’une application. Google Maps propose ainsi une API pour aider à la création d’outils de navigation basées sur ses cartes, par exemple.
En ce qui concerne Twitch, aux contraintes mentionnées juste avant s’ajoutent des contraintes du direct : c’est très complexe pour l’INA et la BnF de trouver un moyen de sauvegarder ces contenus qui ne sont pas toujours disponibles après leur diffusion. Il faudrait être présent au moment des lives et bénéficier d’un réseau stable pour les sauvegarder sereinement.
« Sur Twitch, on espère pouvoir collecter, même avec un petit peu de retard, les vidéos qui restent pérennes sur la plateforme après la diffusion en direct. »
Jérôme Thièvre — INA
Dépasser l’archivage franco-français
L’autre chose qui m’a vite interpellé en démarrant ces deux interview en parallèle, c’est le fait qu’on me cite beaucoup de sites en .com et surtout de sites qui ne sont tout simplement pas français. Alors que la loi demande à la base que soient conservés d’abord les contenus issus de sites ayant un domaine français, les .fr donc. Et là encore, les réponses de mes interlocuteurs étaient claires : il est nécessaire de coller à la réalité des usages.
Je trouvais ça très intéressant de me dire que, malgré la loi, des institutions comme l’INA ou la BnF ont décidé d’en faire plus, bien conscients des enjeux très évolutifs du web, et de la domination des entreprises américaines dans notre vie de tous les jours. Cela voulait dire qu’une copie de ces vidéos était archivée en France, sur des serveurs français. Et comme mes interlocuteurs me l’ont précisé, même si YouTube ne disparaîtra pas demain, Alphabet a déjà fermé certains services par le passé. La conservation, en France, de ces vidéos, permet donc de pallier ce risque supplémentaire.
« C’est une entreprise privée avec une activité commerciale. Donc le jour où le chiffre d’affaire baisse, les contenus et la plateforme peuvent disparaître. Et quand on voit la politique de fermeture de certaines chaînes, il y a un sens patrimoniale d’estimer que ces contenus peuvent disparaître. »
Jérôme Thièvre — INA
Alors bien sûr, moi qui adore tout ce qui rend internet palpable, ou en tout cas physiquement concret, j’ai demandé plus d’infos sur les serveurs, et même si on pouvait les voir. Côté BnF, cela n’a pas été possible. Mais à l’INA, j’ai pu observer des serveurs de mes propres yeux. On m’a expliqué qu’il y avait trois copies de chaque vidéo, pour pallier par exemple les risques d’incendies : deux sur des disques durs classiques, à Bry sur Marne et sur un autre site, mais aussi une copie sur bande magnétique, plus difficile à consulter mais plus résistante.
Le Wrap McDo Challenge de Michou est peut-être là, quelque part derrière ces fils.
En visitant l’un de ces sites à serveurs, je me suis dit qu’il y avait au final assez peu de serveurs, de place allouée pour le stockage des vidéos web qui, par définition, sont toujours plus nombreuses. C’est ce qui m’a amené à une question centrale : qu’est-ce qui mérite d’être archivé et de rester dans la postérité ? Quels sont les critères de sélection ? C’était le nœud du sujet à mon sens.
Comme on parle ici de YouTube, il fallait que je pose la question des vidéos politiques ou très politisées : conservent-ils les vidéos aux propos dits extrémistes ? Je me demandais si c’était leur rôle de les archiver, et donc de les préserver, alors même que les plateformes cherchent à les supprimer pour répondre aux lois luttant contre les propos racistes ou antisémites.
« On peut décider de collecter des chaînes et des vidéos s’il y a un élément qui la lie à l’actualité. Il se peut donc que l’on ait archivé des vidéos qui ont pourtant été supprimées par YouTube parce qu’elles contrevenaient à la loi. Par exemple, des chaînes d’extrême-droite qui ont pu être médiatisées. On a néanmoins un principe, la réserve de communication, qui nous permet de ne rendre accessible un contenu sensible que sous certaines conditions. »
Vladimir Tybin — BnF
« L’objectif c’est d’embrasser toute la diversité qu’il peut y avoir. Si on pense aux livres, les pamphlets les plus extrémistes ne sont pas détruits dans les bibliothèques. On a une vue neutre, et l’idée est de pouvoir avoir un échantillon le plus représentatif de toute l’expression qui apparaît sur YouTube, par exemple. Et donc d’avoir tout l’éventail politique, de l’extrême-gauche à l’extrême-droite, tout comme les contenus liés aux théories complotistes. Tout a vocation à être archivé. »
Jérôme Thièvre — INA
Une fois qu’il a été décidé ou non de conserver telle vidéo ou telle chaîne, Jérôme et Vladimir m’expliquent que ce sont alors les robots qui entrent en jeu pour récupérer la vidéo, son titre et le nom de la chaîne à laquelle elle est associée.
Mais pas les commentaires sous la vidéo. Ce qui m’a paru incompréhensible au premier abord. Car les commentaires sont tout aussi intéressants puisqu’ils témoignent de l’état d’esprit de certains citoyens sur certains sujets. Et contrairement à l’époque dorée de la presse papier où l’on devait se contenter du courrier des lecteurs, on tient avec la vidéo en ligne un média où les retours des internautes sont immédiats. Et s’ils sont parfois, ou régulièrement méchants voire haineux, ils font partie de ce qu’est YouTube.
J’ai donc demandé plus de détails sur comment travaillent ces fameux robots de collecte.
Explorer les archives
A ce moment là des interviews, il devenait impensable pour moi de repartir sans explorer ces fameuses bases de vidéos conservées. Surtout que j’avais en tête quelques vidéos très précises à chercher, supprimées de YouTube depuis de longues années. J’ai donc demandé si je pouvais faire quelques recherches sur les ordinateurs dédiés à ce travail précis.
A la BnF, on a pu explorer plusieurs archivages de chaînes YouTube, mais également du site jeuxvideo.com et de ses forums, tristement célèbres. On a également pu retrouver certains comptes Twitter à la popularité très variable. Et si j’ai trouvé très intéressante cette diversité, je me suis aussi posé la question du droit à l’oubli : des personnes ayant par exemple effacé de vieux tweets, potentiellement de mauvais goût, voient cette partie de leur vie archivées pour toujours, et à disposition de journalistes, étudiants ou chercheurs. C’est un vrai sujet, mais je m’éloignais de ce qui m’amenait ce jour-là à la BnF.
Avec Vladimir, par ailleurs, il y a bien eu une petite frayeur au moment de chercher les vidéos de Michou, d’abord introuvables. Mais après une petite manipulation, consistant à entrer l’URL de la chaîne plutôt que son nom, le YouTubeur et le Wrap McDo Challenge apparaissaient bien à l’écran. Michou est donc bien préservé au sein des archives de la BnF.
Côté INA, j’ai été vraiment impressionné par l’éventail de chaînes et de contenus conservés. L’archivage est effectivement, comme Jérôme l’a dit, très large. Mais au delà des chaînes YouTube, j’ai trouvé très intéressant de parcourir des comptes Twitter entiers aussi, comme celui du journaliste de Brut Rémy Buisine. Logique de le voir sauvegarder, puisqu’il filme et documente de nombreux mouvements et manifestations liés aux débats de société.
On a exploré pendant plusieurs minutes les possibilités de l’outil, les tris par ordre chronologique, par plateforme, etc. Là encore, le Wrap McDo Challenge était en sécurité. Et puis, j’ai repensé à quelque chose: il y avait une vidéo bien particulière dont je devais vérifier la présence ou non dans ces archives. Une vidéo de Norman qui a fait scandale à l’époque et qu’il avait supprimé en présentant ses excuses.

Honnêtement, je suis pas fier d’avoir fait cette recherche en plein milieu d’une interview sérieuse, mais il fallait que je sache. Et même si vous n’attendiez pas cette information , je peux vous dire que, grâce à l’Institut National de l’Audiovisuel, la vidéo interdite de Norman continuera d’exister pour l’éternité, ou en tout cas pendant encore très longtemps.
Et alors, pourquoi Michou aussi ?
Après avoir fait mon petit tour, et avant de repartir, il fallait bien sûr que je pose la dernière question, celle qui m’a amené à m’intéresser à ce sujet en premier lieu : pourquoi archiver des vidéos YouTube comme celles de Michou ? A quoi cela peut il servir ? Et surtout (je vais faire le réac deux secondes) : comment justifier que du temps et de l’argent soient consacrés à la préservation de vidéos YouTube à la qualité parfois douteuse ?
Puisque Jérôme et Vladimir en parlent, je voudrais apporter une dernière précision : ces archives ne sont pas en accès libre. Elles sont réservées aux chercheurs, aux étudiants, mais plus largement aux personnes qui effectuent un travail justifiant leur consultation. Au premier abord, et étant moi même un gros utilisateur de l’Internet Archive, une initiative américaine d’archivage accessible à tous, je trouvais ça forcément dommage. Et puis, on m’a expliqué que c’était notamment pour ne pas faire de concurrence aux sites d’origine, et aux médias qui ont parfois un accès payant à ces contenus archivés.
Si un jour, dans six mois ou dans 40 ans, vous souhaitez effectuer des recherches sur YouTube ou la culture numérique au sens large, peut être que ces archives vous seront utiles. Que vous travailliez sur la place de l’extrême-droite sur internet au début des années 2020 ou sur Michou et ses challenges McDo.
Merci à l’INA et la BnF d’avoir accepté ces entretiens, et merci à vous de m’avoir lu. J’espère que cet article vous a plu, n’hésitez pas à me faire part de vos retours sur Twitter et à venir passer une tête sur Twitch. Vous pouvez également désormais soutenir ce travail sur uTip 🙂