- Transcripen – Etat de l’art – la problématique de l’interview
- Transcripen – Enquête terrain et données recueillies
- Transcripen – Présentation de la Solution Technique
Auteurs
Louis-Marie Badou, Camille Barboule, Yacine Ngom
Introduction
Dans nos sociétés modernes démocratiques, les citoyens et les consommateurs ont besoin d’informations pour prendre de bonnes décisions. Dans ce contexte, le journalisme, c’est -à -dire l’activité qui consiste à recueillir, vérifier et éventuellement commenter des faits pour les porter à l’attention du public via les médias, s’est profondément diversifié, donnant lieu à une multiplication des médias privés. En France, par exemple, d’après l’étude coordonnée par Julia Cagé et Olivier Godechot (1), les médias d’information français sont détenus à près de 80% par des entreprises privées, à 15% par des propriétaires privés ou des groupes d’individus, et à une infime portion par des institutions publiques (voir schéma en Annexe 1).
Ainsi, l’environnement dans lequel opèrent les journalistes est de plus en plus concurrentiel. Dans ce contexte, les médias cherchent à se différencier avec, entre autres, des contenus plus qualitatifs, en investissant notamment dans les nouvelles technologies pour une récupération de l’information plus efficace et qualitative (2). Il existe de nombreuses façons d’obtenir des informations mais le moyen le plus efficace est l’entretien / interview. La technique de l’interview journalistique permet d’obtenir des informations sur un nouveau sujet ou de compléter des informations existantes. Il s’agit d’un échange asymétrique: l’interviewé apporte l’ensemble de l’information, et l’interviewer confronte l’interviewé afin d’apporter les informations les plus justes, claires et précises aux lecteurs. Un bon journaliste est effectivement celui qui arrive à rebondir sur les bonnes questions pour déceler le vrai du faux énoncé par son interlocuteur, comme explicité par A. Glück (3). Le journaliste joue alors un rôle “participatif” dans ces interviews, comme défini par Sébastien Poulain (4).
En d’autres termes, le journaliste doit non seulement être actif pendant une interview, mais il doit également récupérer l’ensemble des informations et réponses qu’il obtient, afin de produire un article le plus précis et qualitatif possible, particulièrement dans le contexte concurrentiel des médias décrit ci-dessus. Pour ce faire, soit le journaliste prend des notes en même temps qu’il participe à l’interview, soit il retient les informations à l’aide de sa mémoire, soit il enregistre l’intégralité de l’interview à l’aide d’un enregistreur qu’il doit réécouter et retranscrire par la suite. Dans le premier cas, si le journaliste veut exercer son rôle au sein de l’interview “participative”, il lui est impossible de prendre en note l’intégralité du contenu de l’interview. Dans le second cas, il est impossible de retenir l’intégralité d’une interview qui dure plusieurs heures. D’ailleurs, d’après l’étude Xerfi (5), les journalistes perdaient en 2019 près de 40% des informations entre la réception de celle-ci et la rédaction de l’article.
Pour conclure, le problème rencontré par les journalistes pendant leurs interviews est donc clair: ils n’arrivent pas à prendre en note / retenir l’intégralité d’une interview tout en étant totalement actif dans celle-ci. Le problème en question a diverses conséquences, exprimées dans diverses études terrain au sein de l’Agefi : (1) les journalistes posent des citations incomplètes / inexactes dans leurs articles qu’ils ne peuvent pas justifier en cas de remise en cause / scandale, (2) n’illustrent que très peu leurs propos dans les articles (toutes les informations n’ont pas été retenues de leur interview), (3) sont moins présents au sein de l’interview car sont trop concentrés par la prise de note et ne lient ainsi pas de relation particulière avec leur interlocuteur. Ce constat nous a mené à la problématique suivante: comment aider les journalistes à avoir l’intégralité du contenu de leurs interviews tout en participant à celles-ci?
Nous allons ici tenter d’aborder la problématique évoquée, en (I) analysant les techniques et technologies qui ont été mises en place et utilisées jusqu’ici par les journalistes pour répondre à la problématique, en (II) détaillant les avantages et inconvénients de chacune de ces solutions, et en (III) étudiant les innovations et technologies qui permettraient de répondre à la problématique et les secteurs dans lesquels ces-dernières sont appliquées.
I/ Les techniques et technologies qui ont été mises en place jusqu’ici par les journalistes
Avant l’invention de l’imprimerie, le bouche à oreille était la principale source de nouvelles. Les marchands, les marins et les voyageurs de retour sur le continent rapportaient les nouvelles, qui étaient ensuite reprises par les colporteurs et les joueurs ambulants et se propageaient de ville en ville. C’étaient les scribes de l’Antiquité qui mettaient souvent ces informations par écrit et qui jouaient en quelque sorte le rôle de journalistes. C’est à l’invention de l’imprimerie, qu’est né le journal et par conséquent le métier de journaliste. Son rôle consiste ainsi au travail de collecte, de rédaction et de publication ou de diffusion de nouvelles et d’articles. Pour la collecte d’informations, son outil le plus puissant est l’interview.
Au début du 19ème siècle, pour récolter ces données, les anthropologues enregistrent les propos de leurs informateurs directement sur papier. Cette méthode présentait un certain nombre de difficultés, notamment la nécessité pour les informateurs de parler lentement pour que leurs propos soient enregistrés.
L’apparition de la sténographie a permis aux journalistes du 19ème siècle de prendre des notes plus rapidement mais aussi de leur conférer l’autorité et la légitimité dont ils ont toujours eu besoin. En effet, des actes tels que la loi sur la sédition de 1798 aux États-Unis, qui visait à empêcher « tout écrit ou écrit faux, scandaleux et malveillant » contre le pouvoir exécutif, ou le phénomène des journaux britanniques diffusant des canulars (ou « fake news ») sur les « usines à cadavres » allemandes en 1917, témoignent d’une histoire de méfiance à l’égard des médias, bien antérieure à Internet (Nelanthi Hewa, 6). Les documents rédigés en sténographie étaient des objets destinés à démontrer la compétence, l’autorité et la légitimité des journalistes, ainsi que leur capacité à enregistrer la vérité de manière fiable. Mais les limites de la sténographie se sont rapidement posées. Pour certains, la lisibilité de la sténographie était un gros point noir, entraînant des difficultés de relire ce qu’on avait écrit et de transmettre les informations fidèlement. Elle dépendait très largement de la mémoire du sténographe pour suppléer aux éventuelles erreurs ou à l’illisibilité de l’écriture. De plus, le fait qu’un compte rendu exact puisse capturer » les mots réels de ce qui a été dit, mais pas nécessairement la manière dont cela a été dit » (Bowles 2019, 7) préfigurait déjà le rôle accru du journaliste en tant que façonneur, et pas seulement enregistreur, des mots dans les décennies suivantes.
Pour pallier au besoin de la sténographie à être plus mécanique, la cassette s’est positionnée comme son successeur naturel. Pour les journalistes, il était espéré que le magnétophone serait en mesure de répondre à un besoin auquel la sténographie avait tenté, de manière inadéquate, de répondre : le désir de capturer la réalité du son, de rapprocher par la main du journaliste le mot parlé et le mot écrit, et de le faire d’une manière tout à fait fiable. Son aspect plus petit, léger et portable était aussi un attrait de taille pour les journalistes. En effet, les magnétophones portables permettaient aux journalistes d’enregistrer facilement et relativement discrètement les interviews et d’avoir un enregistrement vérifiable de ce que leurs sources avaient dit (Aucoin 2007, 8). Le son enregistré effaçait tout risque d’inexactitude ou de manque d’attention que le journaliste pouvait éprouver en prenant des notes en sténographie.Il permettait de revoir plusieurs fois les données enregistrées pour produire des transcriptions du langage produit naturellement. Les transcriptions amélioraient ainsi la fiabilité des informations saisies. Le téléphone portable a ainsi naturellement succédé au magnétophone dans l’ère numérique. Le téléphone portable est hautement portable, et il est énormément omniprésent d’une manière qui dépasse de loin les utilisateurs confortables de la sténographie ou les propriétaires de magnétophones portables. Le Pew Research Center estime qu’environ 2,5 milliards de personnes dans le monde possèdent un smartphone (Silver 2019, 9).
Mais les systèmes d’enregistrement auditif , avec leur capacité à capturer beaucoup plus de mots et de sons que le plus habile des sténographes, n’a pas pu procurer aux journalistes les outils d’une meilleure efficacité ; en effet revoir les enregistrements prend du temps. Ce temps passé à écouter et transcrire un audio n’est en général pas proportionnel à la quantité d’informations utiles extraites. Mais une problématique qui est particulière à notre ère de hautes technologies est la naissance de la notion du journalisme citoyen. En effet, le smartphone et la technologie d’enregistrement visuel et auditif qui l’accompagne ont facilité la propagation des journalistes citoyens qui ont défié l’autorité journalistique, aussi fragile qu’elle ait toujours été, pour définir ce qui est réel. Ainsi, la fiabilité des informations représente un des enjeux les plus importants pour le journaliste moderne.
II/ Les avantages et inconvénients de chacune de ces méthodes mises en place par les journalistes pour répondre à la problématique
II.1 La prise de notes
La première technique utilisée pour répondre à la problématique est la prise de notes. Celle-ci a deux avantages principaux: permet non seulement de ne récupérer que l’essentiel des informations sous forme condensée, et permet aussi à l’interviewer de suivre le déroulé de l’interview. Si la prise de note reste totalement utile pour suivre le déroulé de l’interview, comme expliqué par un journaliste de l’Agefi lors de notre étude terrain, celle-ci n’est que peu utile pour récupérer l’information issue de ces interviews. Effectivement, nos études terrains nous ont montré que les journalistes ne pouvaient pas noter l’intégralité des informations issues de leurs interviews tout en participant à celles-ci.
II.2 Le co-journalisme
La seconde technique évoquée en (II) est le co-journalisme. Comme expliqué dans l’étude de Cairn.info de Sandy Montañola (10), certains journalistes marchent en équipe: l’un communique et pose les questions lors d’interviews, l’autre prend des notes. Cette méthode est particulièrement avantageuse tant elle permet une fluidité dans l’entretien, puisque l’un des deux journalistes peut être totalement investi dans l’interview, tout en récupérant l’intégralité de cette-dernière, puisque le “co-journaliste” prend les notes. Cependant, cette méthode induit plusieurs problèmes, notamment le fait que souvent, ce co-journaliste est un stagiaire. Effectivement, c’est ce que raconte Titouan dans son rapport de stage en journalisme chez Ouest-France (11). En d’autres termes, cela signifierait que les stagiaires journalistes ne sont pas entraînés à poser des questions pertinentes et à animer une interview; ils n’ont appris qu’à retranscrire ces dernières. Il s’agit donc d’un métier annexe à celui de journaliste: celui de transcripteur. Cela nécessiterait donc davantage de main d’œuvre, et représenterait donc un coût important.
II.3 L’enregistreur
Comme expliqué en (II), l’outil le plus récent et qui apparaît répondre le mieux à la problématique actuelle est l’enregistreur (voir annexe 2). D’ailleurs, l’étude Xerfi (5) montre que 54% des journalistes, de tout secteur, utilisaient un enregistreur de poche en 2019.
Les enregistreurs sont très utiles pour répondre à la problématique tant ils permettent à la fois de récupérer l’ensemble des informations d’une interview, sans avoir à prendre de notes, mais également d’ avoir une source de preuve des propos énoncés, pour un contenu d’une plus grande qualité tant il peut être justifié. Cependant, ces avantages ne sont pas optimaux:
II. 3. 1 L’enregistreur pour récupérer le contenu de l’interview
Si l’enregistreur apparaît comme efficace pour obtenir l’intégralité du contenu d’une interview, ce-dernier pose divers problèmes: non seulement la qualité de l’audio est parfois médiocre, et le journaliste peine à distinguer les propos de l’interviewé, mais le journaliste perd également énormément de temps à retranscrire l’interview enregistrée à l’aide de l’enregistreur. Effectivement, une journaliste de News Assurances Pro déclarait dans un des entretiens que nous avons effectué “passer 1/4 de son temps quotidien à de la retranscription d’interviews”, car ils doivent “retrouver et ré-écouter plusieurs fois certains passages importants pour récupérer toutes les informations”. Non seulement ce temps de réécoute et de transcription leur est inutile, et ils pourraient, à la place, consacrer ce temps au style et à la réflexion sur l’article lui-même afin de produire un article le plus qualitatif possible, mais, dans le cas d’exclusivités obtenus lors d’interviews ou d’article à sortir rapidement, le journaliste n’a parfois que quelques minutes pour rédiger son article. Dans ce cas, il ne peut se permettre de réécouter l’ensemble de l’interview, auquel cas il pourrait se faire devancer par ses concurrents qui pourraient sortir l’exclusivité avant lui. En d’autres termes, le temps de retranscription est handicapant pour les journalistes, et représente ainsi un véritable problème. La solution de l’enregistreur pour répondre à la problématique n’est donc pas optimale.
II. 3. 2 L’enregistreur comme preuve en cas de contestation
L’enregistreur permet également de justifier les propos du journaliste en cas de litige. Effectivement, comme nous avons pu le voir avec l’affaire Jouyet-Fillon, dont les enregistrements de Gérard Davet et Fabrice Lhomme ont prouvé que M. Jouyet avait affirmé que M. Fillon lui avait demandé de “taper vite” contre Sarkozy et d’accélérer les procédures judiciaires sur l’affaire Bygmalion, l’enregistrement de propos peut être utile pour justifier certains propos tenus par les journalistes et les protéger eux-mêmes en cas de contestation (12). Effectivement, on ne peut revenir sur un enregistrement.
II. 3. 3 L’enregistreur, outil intimidant pour les interviewés
Un autre désavantage des enregistreurs est leur taille. Effectivement, ces outils sont de taille relativement importante. Ainsi, comme expliqué par Gérard Davet et Fabrice Lhomme dans une interview, la présence d’un enregistreur intimide parfois les interviewés qui n’osent pas dire certaines choses, principalement lorsqu’ils “l’ont sous le nez” (13). Ainsi, la forme des enregistreurs est un désavantage pour la récupération d’information pendant l’interview, tant ils intimident l’interlocuteur.
Pour conclure, bien que l’enregistreur est la méthode la plus adaptée existante aujourd’hui pour répondre à la problématique, les 3 techniques principales évoquées en (II) pour répondre à la problématique ont un nombre d’inconvénients importants. Nous allons ainsi investiguer une solution optimale pour répondre à ce problème.
III/ les techniques modernes qui permettraient de répondre à la problématique
III.1 état de l’art de la technologie Speech-To-Talk
La reconnaissance de la parole est la technique qui permet l’analyse des sons captés par un microphone pour les transcrire sous forme d’une suite de mots exploitables par les machines. Depuis son apparition dans les années 1950, la reconnaissance automatique de la parole a été constamment améliorée avec l’aide des phonéticiens, linguistes, mathématiciens et ingénieurs, qui ont défini les connaissances acoustiques et linguistiques nécessaires pour bien comprendre la parole d’un humain.
Cependant, les performances atteintes ne sont pas parfaites et dépendent de nombreux critères. Les conditions favorables pour la reconnaissance de la parole impliquent une parole native, appartenant à un seul locuteur ayant une diction propre (ne présentant pas une pathologie de voix), enregistrée dans un environnement calme et non bruité, basée sur un vocabulaire commun (mots connus par le système). La performance du système diminue lorsque l’on traite des accents non-natifs, différents dialectes, des locuteurs qui présentent une pathologie de la voix, des mots inconnus par le système (généralement des noms propres), des signaux audio bruités (faible rapport signal-à-bruit), etc. Les applications de la reconnaissance de la parole sont très diversifiées et chaque système a sa propre architecture et son propre mode de fonctionnement.
Plus le domaine d’application est vaste, plus les modèles de reconnaissance doivent être grands (pour pouvoir comprendre les discours spontanés et la diversité des locuteurs). De nos jours, de nombreuses recherches sur la reconnaissance de la parole sont effectuées dans le seul but d’imiter un assistant personnel : chercher des informations sur internet, noter des rendez-vous, envoyer des sms, contrôler différents équipements de la maison, etc.
Les premiers systèmes étaient capables de transcrire uniquement des mots isolés avec un vocabulaire réduit. Durant le dernier quart du XXème siècle, les systèmes ont commencé à pouvoir transcrire une parole continue grâce notamment à la modélisation acoustique à base de modèles de Markov cachés (HMM) et à une modélisation stochastique de la langue. L’architecture concernée, présentée dans la figure 1, est utilisée jusqu’à nos jours, surtout dans des cas d’utilisation où les données annotées ne sont pas abondantes.
Deux modèles sont nécessaires à ce type d’approches :
Le modèle acoustique apprend à reconnaître les séquences de phonèmes (qui forment les mots) présentes dans un dictionnaire de prononciation. L’apprentissage est effectué sur plusieurs heures d’enregistrements audio transcrites manuellement.
Le modèle de langue apprend (sur des données textuelles) les probabilités d’un (très grand) ensemble de séquences de mots possibles.
Un décodeur (principalement, un algorithme de recherche dans un graphe) combine les connaissances acoustiques et linguistiques afin de transcrire automatiquement l’enregistrement en entrée. On note qu’une étape d’extraction de caractéristiques est généralement effectuée a priori afin d’obtenir une représentation en spectre de ces enregistrements.
Le modèle acoustique représente le composant le plus important dans cette architecture. Il consiste en un ensemble de HMM modélisant (généralement) des phonèmes ou syllabes et dont les probabilités d’émission sont représentées par des mixtures de gaussiennes (voir la figure 2). Un HMM estime donc la probabilité d’observer une forme acoustique sachant un phonème donné.
L’adoption des avancées du Deep Learning dans le domaine de la RAP était relativement progressive. Les scientifiques ont tout d’abord opté pour une approche hybride. Comme présenté dans la figure 3, cette approche consiste à remplacer les GMM par des réseaux de neurones profonds (DNN). Elle garde donc la même architecture générale de la figure 1. Contrairement aux GMM, un seul DNN est appris pour estimer les probabilités de tous les états (14).
Les modèles HMM-DNN possèdent une meilleure capacité de généralisation. Leurs entrées peuvent aussi être enrichies par des informations relatives au locuteur, à la réverbération, etc. Toutefois, des paramètres acoustiques normalisés, une fenêtre de trames acoustiques relativement large et un nombre suffisant de couches sont nécessaires pour garantir son efficacité.
III. 2 Quelle forme pour notre IA speech-to-text?
Comme nous avons pu l’observer en ii. 3) c), la forme classique de l’enregistreur peut être un frein à la récupération de l’information, tant elle amène l’interviewé à adopter une position “défensive” (Davet, Lhomme, 13) et à avoir une “langue de bois” (Davet, Lhomme, 13). Ainsi, nos études terrains ont fait ressortir qu’un “enregistreur plus discret” pourrait être idéal dans cette solution pour répondre à la problématique. Après avoir investigué les différents outils utilisés par les journalistes, nous concluons que le stylo, le carnet de note et le smartphone sont les plus utilisés par ces derniers, outre leur enregistreur.
De ces outils, le stylo est celui qu’ils tiennent le plus proche de l’interviewé, puisque, comme expliqué en (ii.1), ils s’en servent également pour prendre des notes pendant l’interview afin de suivre le fil de cette dernière. Ainsi, le stylo nous a semblé le plus adapté pour contenir cette IA.
Annexes
Annexe 1:
https://www.monde-diplomatique.fr/cartes/PPA
Annexe 2
Bibliographie
- Julia Cagé, Olivier Godechot, Who Owns the Media? The Media Independence Project, 2017
- Alberto Silini, Une année de changements numériques et économiques : ce qui attend les médias en 2021, European Journalism Observatory, 2021 (https://fr.ejo.ch/innovation-et-numerique/annee-changements-numeriques-economiques-ce-qui-attend-medias-2021-covid-19-reuters-institute)
- A. Glück, What makes a good journalist? Empathy as a central resource in journalistic work practice, A Glück, Taylor & Francis, 2016
- Sébastien Poulain, Du paradigme de « l’interactivité » à celui du « journalisme participatif » ? L’exemple de l’interview du Président de la République à RMC / BFMTV, 2016
- Etude Xerfi, L’industrie mondiale des médias, analyse du marché – tendances 2020-2023, 2020
- N. Hewa, « For the Record: Journalism Recording Technologies from “Fish Hooks” to Frame Rates », Journalism Studies, vol. 22, no 3, p. 342-357, févr. 2021, doi: 10.1080/1461670X.2020.1871400.
- H. Bowles, Dickens and the Stenographic Mind. Oxford: Oxford University Press, 2019. doi: 10.1093/oso/9780198829072.001.0001.
- J. Aucoin, The Evolution of American Investigative Journalism. University of Missouri Press, 2007.Sandy Montañola, Journalistes et communicants : cohabitation « forcée » et co-construction de l’information sportive, 2012
- L’œil du stagiaire : Titouan est à la rédaction de Nantes, 2018
- Trois questions sur l’enregistrement à l’origine de l’affaire Jouyet-Fillon, France Info, 2014
- Gérard Davet et Fabrice Lhomme sans langue de bois, 2018 (http://imprimaturweb.fr/2018/03/29/gerard-davet-et-fabrice-lhomme-sans-langue-de-bois/)
- VOIX & IA / RECONNAISSANCE AUTOMATIQUE DE LA PAROLE, 2020