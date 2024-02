Les vidéos YouTube, les mémos vocaux sur WhatsApp ou les podcasts font partie de notre quotidien. Beaucoup de choses passent inaperçues, mais certaines aimeraient être écrites. Le recopier soi-même ? Trop compliqué et chronophage !

Heureusement, il existe un outil IA gratuit pour raccourcir le processus : Whisper, de la société OpenAI, créatrice de ChatGPT.

Présentation de Whisper

Whisper est un projet open source d’OpenAI, la société derrière ChatGPT. Avec Whisper, vous pouvez facilement convertir des fichiers audio en texte. Whisper prend actuellement en charge 96 langues, dont l’allemand. Microsoft prévoit d’intégrer Whisper dans son environnement IA Copilot pour Windows 11. Mais même sans le système d’exploitation Windows actuel et le partage de données avec la société de Redmond, vous pouvez utiliser Whisper.

Prérequis matériels pour la transcription audio en texte

L’utilisation de l’IA est exigeante en termes de puissance de calcul des systèmes informatiques, car les modèles nécessitent beaucoup de ressources. Par conséquent, seul un matériel performant permet une utilisation presque fluide.

Comme pour Stable Diffusion et autres applications d’IA hors connexion, les performances dépendent principalement de la carte graphique installée dans votre système, la puissance du processeur étant initialement secondaire.

Idéalement, optez pour une carte graphique Nvidia avec 10 Go de VRAM ou plus. Avec ce composant, vous pouvez utiliser le modèle vocal le plus grand et le plus performant. À condition d’avoir CUDA installé, que vous pouvez trouver derrière ce lien.

Si une carte graphique ATI est installée, vérifiez si elle est compatible avec le programme AMD Radeon Open Compute (ROCm). La plupart des cartes Radeon plus récentes devraient pouvoir utiliser cette norme. Nous avons identifié les cartes AMD Radeon RX 400/500 (sorties en 2016) comme point de départ de la compatibilité ROCm.

AMD ROCm vous permet d’exécuter Whisper sur les cartes graphiques Radeon. (Capture d’écran personnalisée avec du matériel AMD)

Pour les cartes graphiques Intel mobiles et de bureau des séries Iris Xe et Arc, nous n’avons pas d’informations sur leur capacité à accélérer l’IA.

Si vous ne disposez pas d’une carte graphique appropriée ou si elle ne répond pas aux normes requises, vous pouvez également exécuter Whisper sur votre processeur. Cela prendra cependant beaucoup plus de temps.

Installation de Whisper sous Windows

Pour installer Whisper, vous avez d’abord besoin d’un gestionnaire de packages qui installe git, ffmpeg et python. Whisper ne fonctionnera pas sans cette infrastructure logicielle sous-jacente.

Pour l’installation, il est recommandé d’utiliser le gestionnaire de packages Chocolatey. Voici comment procéder : ⏎

Appuyez sur la touche Windows et tapez PowerShell – cliquez avec le bouton droit de la souris sur la première entrée et sélectionnez Exécuter en tant qu’administrateur pour ouvrir la ligne de commande.

– cliquez avec le bouton droit de la souris sur la première entrée et sélectionnez pour ouvrir la ligne de commande. Ensuite, saisissez les trois commandes suivantes, en utilisant ⏎ pour indiquer la touche Entrée, et oui, la dernière commande s’étend sur plusieurs lignes :

Get-ExecutionPolicy ⏎

Set-ExecutionPolicy AllSigned ⏎ (Confirmez que vous souhaitez modifier le paramètre avec O)

Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString(‘https://community.chocolatey.org/install.ps1’)) ⏎

⏎ ⏎ (Confirmez que vous souhaitez modifier le paramètre avec O) ⏎ Attendez un moment jusqu’à ce que vous puissiez entrer une nouvelle commande. Essayez avec la commande choco -? ⏎ – si PowerShell affiche des instructions d’utilisation, c’est que tout s’est bien passé !

⏎ – si PowerShell affiche des instructions d’utilisation, c’est que tout s’est bien passé ! Avec la commande choco install ffmpeg git python39 ⏎, vous installez tous les packages nécessaires à Whisper. L’installation prend un certain temps, alors prenez un café et attendez. Le cas échéant, confirmez l’installation en appuyant deux fois sur a et Entrée.

Ça a l’air compliqué, mais c’est facile : avec trois commandes, nous incitons Windows à installer Chocolatey et les packages nécessaires à Whisper. (Capture d’écran personnalisée)

Dernière préparation pour Whisper

Même après l’installation de Chocolatey, vous devez toujours revenir à PowerShell, que vous devez ouvrir en tant qu’administrateur.

Tout d’abord, nous créons un nouveau dossier dans lequel les transcriptions seront stockées. Attention : Whisper prendra bientôt plusieurs gigaoctets d’espace de stockage sur votre disque dur, alors choisissez un lecteur aussi grand que possible !

Pour créer le dossier, saisissez :

New-Item -Name « [nom du dossier] » -ItemType Directory -Path « [lettre du lecteur]:\[dossier de projet]\ » ⏎

Vous devez remplacer tout ce qui est entre crochets par vos propres noms et lettres de lecteur. Dans notre cas, le résultat est le suivant :

Nous créons un dossier de projet distinct pour Whisper afin de stocker proprement nos transcriptions. (Capture d’écran personnalisée)

Dans notre cas, nous pouvons maintenant accéder à notre dossier de projet avec cd H:\Whisper-Transkripte\Transkripte\. Ne fermez pas PowerShell !

Parce que maintenant, nous créons un autre sous-dossier pour Whisper dans lequel les modèles vocaux à télécharger seront stockés. Tapez dans PowerShell python3.9 -m venv whisperenv ⏎. La commande télécharge ensuite les fichiers suivants et les installe dans le dossier de projet.

Un autre tas de données – et Whisper est prêt à fonctionner ! (Capture d’écran personnalisée)

Attendez un moment jusqu’à ce que vous puissiez à nouveau saisir une commande.

Avec Start-Process .\whisperenv\Scripts\activate.bat ⏎, vous démarrez l’environnement virtuel. Avec pip3 install git+https://github.com/openai/whisper.git ⏎, vous téléchargez les derniers packages et les installe en même temps.

Une fois que vous pouvez de nouveau saisir une commande, utilisez whisper –help ⏎. Si PowerShell affiche la liste des commandes après quelques secondes, c’est que tout s’est bien passé !

Le voici ! Whisper dispose d’une liste d’aide détaillée contenant toutes les options pour contrôler l’application. Nous n’avons besoin que d’une fraction des paramètres… (Capture d’écran personnalisée)

La première transcription de test

Maintenant que Whisper est configuré et prêt à convertir l’audio en texte ! Pour le premier test, nous utilisons un extrait de texte du roman L’Île au trésor de Robert Louis Stevenson, que nous utilisons également pour nos tests de microphone :

Nous plaçons le fichier audio dans le dossier whisperenv que nous avons créé précédemment, pour éviter les complications avec les commandes.

Notre fichier audio attend dans le dossier du projet que Whisper le transcrive. (Capture d’écran personnalisée)

Il est temps d’utiliser PowerShell pour lancer la transcription avec Whisper. Entrez la commande whisper –model_dir whisperenv/models [chemin du fichier]/[nom du fichier].[wav] ⏎. Remplacez [chemin du fichier], [nom du fichier] et [extension] par les entrées correspondantes – dans notre cas, H:\Whisper-Transkripte\Transkripte\whisperenv\Die_Schatzinsel.wav.

Vous pouvez déjà voir que Whisper se met au travail :

Whisper en action

La qualité de la transcription standard

Whisper génère cinq fichiers texte différents, dont le format txt est le plus courant. Nous pouvons maintenant trouver ce fichier dans le dossier des transcriptions – en l’ouvrant, nous pouvons mieux évaluer la qualité de la transcription. À gauche, l’original – à droite, la transcription standard :

Original Transcription (Modèle small) Gutsherr Trelawney, Dr. « Gut, Herr Trelawny, Dr. Livesey und die anderen Gentlemen, die an unserem Abenteuer teilnahmen, haben mich gebeten, Leifzi und die anderen Gentlemen, die an unserem Abenteuer teilnahmen, haben mich gebeten, die Ereignisse um die Schatzinsel niederzuschreiben, und zwar ganz, von Anfang bis Ende, in allen die Ereignisse um die Schatzinsel niederzuschreiben, und zwar ganz, von Anfang bis Ende in allen Einzelheiten. Einzelheiten. Lediglich die genaue Lage der Insel soll ich verschweigen, und auch dies nur, weil dort Lediglich die genaue Lage der Insel soll ich verschweigen und auch dies nur, weil dort noch ungehobene Schätze liegen. noch ungehobene Schätze liegen. So ergreife ich denn im Jahre des Heils 1700 die Feder und lenke meine Gedanken zurück So ergreife ich denn im Jahre des Heihez 1700, die Feder und Lenke meine Gedanken zurück zu jener Zeit, da mein Vater die Schenke Zum Admiral Benbow führte, zu jener Zeit, da mein Vater die Schenke zum Admiral Benbow führte. und zu jenem Tag, da der braunhäutige Seemann mit der Säbelnarbe unter unserem Dach Quartier Und zu jenem Tag, da der braun heutige Seemann mit der Säbelnabe unter unserem Dach Quartier bezog. bezog. Ich erinnere mich, als wäre es gestern gewesen, wie er sich mühsam zur Gasthaustür Ich erinnere mich, als wäre es gestern gewesen, wie er sich mühsam zur Gasthaus-Tür hereinschleppte, hinter sich eine Seemannskiste auf einer Schubkarre. hereinschleppte, hinter sich eine Seemannskiste auf einer Schubkarre. Ein hochgewachsener Kerl, stark und schwer, das Gesicht nussbraun, quer über die Wange Ein hochgewachsener Kerl, stark und schwer das Gesicht Nussbrauen quer über eine Wange die schmutzigweiß verschorfte Spur eines Säbelhiebs; die schmutzig weiß verschorfte Spur eines Hebelhiebs. die Hände rissig und voller Narben, die Fingernägel schwarz und abgebrochen; Die Hände rissig und voller Narben, die Fingernege schwarz und abgebrochen. ein teeriger Matrosenzopf baumelte ihm auf die Schultern seines fleckigen blauen Rocks. Ein teriger Matrosenzopf baumelte ihm auf die Schultern seines fläckigen blauen Rocks. Ich erinnere mich noch genau, Ich erinnere mich noch genau. wie er forschend über die Bucht blickte; dabei pfiff er erst leise vor sich hin, dann brach Wie erforschend über die Bucht blickte, dabei fiff er erst leise vor sich hin, dann brach er in ein altes Seemannslied aus – wir sollten es später noch oft von ihm hören: er in ein altes Seemannslied aus, wir sollten es später noch oft von ihm hören. „Fünfzehn Mann auf dem Totenschrein – Jo-ho-ho, und ’ne Buddel voll Rum.“ Fünfzehn Mann auf dem Totenschrein, johoho, und ne Buddel voll rum.

Optimisation de la transcription

Personnellement, je ne reprocherais pas à Whisper d’avoir commis des erreurs au niveau de la ponctuation et des guillemets. Ce texte est aussi assez complexe. Whisper doit encore améliorer sa prise en charge des noms anglais tels que Dr. Livesey et des termes en allemand. Par ailleurs, le fait que le logiciel mette plus de 3 minutes pour traiter un fichier audio d’une durée de 1:18 minute n’est pas optimal.

Mais toutes ces choses peuvent être corrigées avec quelques ajustements supplémentaires. Pour cela, nous ajoutons différents paramètres à la commande de transcription initiale :

–model medium ⏎ – ici, nous choisissons l’un des six modèles. Vous pouvez choisir parmi tiny, base, small [par défaut], medium, large et large-v2.

⏎ – ici, nous choisissons l’un des six modèles. Vous pouvez choisir parmi tiny, base, small [par défaut], medium, large et large-v2. –output_format txt ⏎ – nous réduisons le format de sortie à Txt, mais vous pouvez également choisir entre txt, vtt, tsv, srt et json. Avec le paramètre all , vous pouvez également avoir les cinq fichiers écrits simultanément.

⏎ – nous réduisons le format de sortie à Txt, mais vous pouvez également choisir entre txt, vtt, tsv, srt et json. Avec le paramètre , vous pouvez également avoir les cinq fichiers écrits simultanément. –device cuda – avec ce paramètre, nous indiquons à Whisper d’utiliser la carte graphique Nvidia. Les autres options sont cpu (le processeur effectue le travail) et mps (pour les ordinateurs Mac).

Une transcription plus précise avec l’un des modèles plus grands. (Capture d’écran personnalisée)

Cela donne-t-il de meilleurs résultats ? Observons…

La deuxième transcription

Original Transcription (Modèle medium) Gutsherr Trelawney, Dr. Livesey und die anderen Gentlemen, die an unserem Abenteuer Gut, Herr Trelawny, Dr. Life-See und die anderen Gentlemen, die an unserem Abenteuer teilnahmen, haben mich gebeten, die Ereignisse um die Schatzinsel niederzuschreiben, und erteilnahmen, haben mich gebeten, die Ereignisse um die Schatzinsel niederzuschreiben, und zwar ganz, von Anfang bis Ende, in allen Einzelheiten. zwar ganz, von Anfang bis Ende in allen Einzelheiten. Lediglich die genaue Lage der Insel soll ich verschweigen, und auch dies nur, weil dort Lediglich die genaue Lage der Insel soll ich verschweigen und auch dies nur, weil dort noch ungehobene Schätze liegen. noch ungehobene Schätze liegen. So ergreife ich denn im Jahre des Heils 1700 die Feder und lenke meine Gedanken zurück So ergreife ich denn im Jahre des Hyats 1700 die Feder und lenke meine Gedanken zurück zu jener Zeit, da mein Vater die Schenke Zum Admiral Benbow führte, zu jener Zeit, da mein Vater die Schenke zum Admiral Benbow führte, und zu jenem Tag, und zu jenem Tag, da der braunhäutige Seemann mit der Säbelnarbe unter unserem Dach Quartier bezog. da der braunhäutige Seemann mit der Säbelnarbe unter unserem Dachquartier bezog. Ich erinnere mich, als wäre es gestern gewesen, wie er sich mühsam zur Gasthaustür hereinschleppte, Ich erinnere mich, als wäre es gestern gewesen, wie er sich mühsam zur Gasthaustür hereinschleppte, hinter sich eine Seemannskiste auf einer Schubkarre. hinter sich eine Seemannskiste auf einer Schubkarre. Ein hochgewachsener Kerl, stark und schwer, das Gesicht nussbraun, quer über die Wange Ein hochgewachsener Kerl, stark und schwer, das Gesicht nussbraun, quer über eine Wange die schmutzigweiß verschorfte Spur eines Säbelhiebs; die schmutzig-weiß verschorfte Spur eines Säbelhiebs. die Hände rissig und voller Narben, die Fingernägel schwarz und abgebrochen; Die Hände rissig und voller Narben, die Fingernägel schwarz und abgebrochen. ein teeriger Matrosenzopf baumelte ihm auf die Schultern seines fleckigen blauen Rocks. Ein tieriger Matrosenzopf baumelte ihm auf die Schultern seines fleckigen blauen Rocks. Ich erinnere mich noch genau, wie er forschend über die Bucht blickte; dabei pfiff er erst Ich erinnere mich noch genau, wie er forschend über die Bucht blickte, da bei Pfiff er erst leise vor sich hin, dann brach er in ein altes Seemannslied aus – wir sollten es später leise vor sich hin, dann brach er in ein altes Seemannslied aus, wir sollten es später noch oft von ihm hören: noch oft von ihm hören. „Fünfzehn Mann auf dem Totenschrein – Jo-ho-ho, und ’ne Buddel voll Rum.“ Fünfzehn Mann auf dem Totenschrein, johoho, und ne Buddel voll rum.

