Donation
WMZ: Z087754155981 (USD) WME: E110509803261 (EUR)
|
Balabolka  Utilitaire pour les services de synthèse vocale
L'application en ligne de commande permet d'utiliser des services de synthèse vocale en ligne : les fichiers texte ou les sous-titres peuvent être convertis en fichiers audio. L'utilitaire peut être utilisé à des fins de test : il vous aidera à choisir un service de cloud computing qui répond à vos besoins. L'application distincte pour Yandex SpeechKit est disponible au téléchargement, car Yandex est une entreprise informatique russe étroitement liée au gouvernement.
 |
Services en ligne avec technologies vocales :
- Google Cloud TTS
- Amazon Polly
- Baidu TTS
- CereVoice Cloud
- IBM Watson TTS
- Iciba TTS
- iTranslate TTS
- Microsoft Azure
- Naver TTS
- OpenAI TTS
- Youdao TTS
- Yandex SpeechKit
|
Télécharger Balabolka (application pour les services en ligne)
Taille de fichier : Mo |
|
Version : Changelog |
|
Licence : Freeware |
|
Système d'exploitation : |
Utilitaire de ligne de commande pour Yandex SpeechKit : Télécharger ( Mo)
Le programme convertit le texte ou les sous-titres en fichiers audio en utilisant le service Yandex.
Pour effectuer des opérations via l'API Yandex, il est nécessaire de s'authentifier à l'aide d'une clé API.
Ligne de commande
L'utilitaire gère divers paramètres de ligne de commande afin de pouvoir enregistrer la parole sous forme de fichier audio. Les paramètres doivent être séparés par un espace et commencer par « - » (tiret). Les options peuvent apparaître dans n'importe quel ordre sur la ligne de commande, à condition qu'elles soient associées à leurs paramètres correspondants. Tous les paramètres sont insensibles à la casse. Utilisez la commande bal4web avec les options -? ou -h pour obtenir de l'aide sur la syntaxe et les paramètres de ligne de commande.
- -s nom_du_service
- Définit le nom du service TTS en ligne. ("google" ou "g", "amazon" ou "a", "baidu" ou "b", "cerevoice" ou "c", "ibm" ou "i", "iciba" ou "k", "itranslate" ou "t", "microsoft" ou "m", "naver" ou "n", "openai" ou "o", "youdao" ou "y"). La valeur par défaut est "google".
- -l nom_de_langue
- Définit le nom de la langue pour le service TTS en ligne. Le nom est une combinaison d'un code ISO 639 à deux lettres minuscules associé à une langue et d'un code ISO 3166 à deux lettres majuscules associé à un pays ou une région. Par exemple : fr-FR, en-US, de-DE. La valeur par défaut est "en-US".
Remarque : OpenAI TTS effectue l'identification de la langue du texte saisi, ce service ignore donc cette option pour le moment. OpenAI TTS peut reconnaître plusieurs dizaines de langues de manière autonome.
- -g sexe
- Définit le genre pour le service TTS en ligne (si le paramètre est pris en charge par le service). Les valeurs disponibles sont : "female" ou "f", "male" ou "m". La valeur par défaut n'est pas définie. Ce paramètre est pris en charge par les services suivants : Amazon Polly, CereProc TTS, Google TTS, IBM Watson TTS, iTranslate TTS, Microsoft Azure, Naver TTS, OpenAI TTS. Si un nom de voix est spécifié, il n'est pas nécessaire de définir son genre.
- -n nom_de_voix
- Définit le nom de la voix pour le service TTS en ligne (si pris en charge). La valeur par défaut n'est pas définie. Ce paramètre est pris en charge par les services : Amazon Polly, CereProc TTS, Google Cloud TTS, IBM Watson TTS, Microsoft Azure, Naver TTS, OpenAI TTS.
- -r débit_de_parole
- Définit la vitesse de parole (si prise en charge).
La valeur par défaut est "1.0" (le débit de parole moyen oral). Amazon Polly: de "0.20" à "2.00". CereProc TTS: de "0.30" à "4.00". Naver TTS, OpenAI TTS, Youdao TTS: de "0.70" à "2.00". Google TTS, IBM Watson TTS, Microsoft Azure: de "0.10" à "3.00". Google Cloud: de "0.25" à "4.00". iTranslate TTS: de "0.50" à "2.00".
- -p nombre_intégral
- Définit la hauteur tonale dans une plage comprise entre -20 et 20 (si pris en charge). La valeur par défaut est 0. Cette option est prise en charge par Amazon Polly, CereProc TTS, Google Cloud TTS, IBM Watson TTS, Microsoft Azure.
- -v nombre_intégral
- Définit le volume dans une plage comprise entre 0 et 200 (la valeur par défaut est 100).
- -st style
- Définit le style vocal spécifique à la voix. La voix peut exprimer des émotions telles que la gaieté, l'empathie ou le calme. Cette option est prise en charge par certaines voix dans Microsoft Azure. Les styles ne sont pas disponibles si le protocole WebSocket pour Microsoft Azure est utilisé.
- --style-degree degré_de_style ou -sd degré_de_style
- Définit l'intensité du style vocal dans une plage comprise entre "0.01" et "2.00" (pour les styles pris en charge par Microsoft Azure). La valeur par défaut est "1.00". Cette option permet de choisir un style plus fort ou plus doux afin de rendre le discours plus expressif ou plus modéré.
- -m
- Affiche la liste des langues prises en charge (noms des sexes et des voix, si disponibles) pour le service TTS en ligne.
- -f nom_de_fichier
- Spécifie le nom du fichier texte d'entrée. La ligne de commande peut contenir quelques options -f.
- -fl nom_de_fichier
- Ouvrir le fichier avec la liste des fichiers texte (un nom de fichier par ligne). La ligne de commande peut contenir quelques options -fl.
- -w nom_de_fichier
- Spécifie le nom du fichier de sortie au format WAV.
- -c
- Utilise le texte du presse-papiers.
- -t texte
- Utilise le texte de la ligne de commande. La ligne de commande peut contenir quelques options -t.
- -i
- Utilise le texte de flux d'entrée standard (STDIN).
- -o
- Enregistre les données audio dans le flux de sortie standard (STDOUT). Si l'option est spécifiée, l'option -w est ignorée.
- --encoding encodage ou -enc encodage
- L'encodage du texte de flux d'entrée standard ("ansi", "utf8" ou "unicode"). Si l'option n'est pas spécifiée, le programme détectera l'encodage du texte.
- --silence-begin nombre_intégral ou -sb nombre_intégral
- Spécifier la longueur de la pause en début du fichier audio (en millisecondes). La valeur par défaut est 0.
- --silence-end nombre_intégral ou -se nombre_intégral
- Spécifier la longueur de la pause en fin du fichier audio (en millisecondes). La valeur par défaut est 0.
- -ln nombre_intégral
- Sélectionner une ligne du fichier texte à l'aide de son numéro. La numérotation des lignes commence par "1". Pour sélectionner plusieurs lignes, spécifiez les numéros de la ligne de départ et de celle d'achèvement dans le texte (par exemple, "26–34"). La ligne de commande peut contenir quelques options -ln.
- -e nombre_intégral
- Définit la durée des pauses entre les phrases (en millisecondes). La valeur doit être inférieure à 20 000. Si cette option n'est pas spécifiée, le service utilisera les pauses par défaut entre les phrases. Ce paramètre est pris en charge uniquement par Microsoft Azure.
- -d nom_de_fichier
- Utilise un dictionnaire pour la correction de la prononciation (fichier *.BXD, *.DIC ou *.REX). La ligne de commande peut contenir quelques options -d.
- -lrc
- Crée le fichier LRC. Le texte sera synchronisé avec la parole dans le fichier audio de sortie.
- -srt
- Crée le fichier SRT. Les sous-titres seront synchronisés avec la parole dans le fichier audio de sortie.
- -sub
- Le texte constitue des sous-titres et doit être converti en fichier audio, compte tenu des pauses spécifiées. Le paramètre peut être utile lorsque les options -i ou -c sont spécifiées en ligne de commande.
- -host nom_hôte
- Définit le nom d'hôte du serveur proxy.
- -port nombre_intégral
- Définit le numéro de port du serveur proxy.
- -fr nombre_intégral
- Sélectionner la fréquence d’échantillonnage audio de sortie en kHz (8, 11, 16, 22, 24, 32, 44, 48). Si le paramètre n’est pas spécifié, la valeur par défaut de la voix sélectionnée sera utilisée.
- -ae encodage_audio
- Définit le codage audio pour les données renvoyées par Google Cloud ou Microsoft Azure ("linear16", "mp3" ou "oggopus"). Ce paramètre permet d'améliorer la qualité sonore. L'option est disponible si la clé API est spécifiée. Il n'est pas recommandé de l'utiliser sans nécessité particulière : appliquez-la uniquement à des fins de test.
- --ignore-square-brackets ou -isb
- Ignorer le texte entre [les crochets].
- --ignore-curly-brackets ou -icb
- Ignorer le texte entre {les accolades}.
- --ignore-angle-brackets ou -iab
- Ignorer le texte entre <les crochets angulaires>.
- --ignore-round-brackets ou -irb
- Ignorer le texte entre (les parenthèses).
- --ignore-url ou -iu
- Ignorer les adresses URL.
- --ignore-comments or -ic
- Ignorer les commentaires dans le texte. Les commentaires sur une seule ligne commencent par // et se poursuivent jusqu’à la fin de la ligne. Les commentaires multilignes commencent par /* et se terminent par */.
- -dp
- Afficher les informations sur l’avancement dans la fenêtre de console.
- -cfg nom_de_fichier
- Définit le nom du fichier de configuration contenant les options de ligne de commande (un fichier texte où chaque ligne contient une option). Si l'option n'est pas spécifiée, le fichier bal4web.cfg situé dans le même dossier que l'utilitaire sera utilisé.
- -h
- Affiche la liste des options de ligne de commande.
- --lrc-length nombre_intégral
- Spécifie la longueur maximale des lignes de texte pour le fichier LRC (en caractères).
- --lrc-fname nom_de_fichier
- Spécifie le nom du fichier LRC. L'option peut être utile lorsque l'option -o est spécifiée en ligne de commande.
- --lrc-enc encodage
- Spécifie l'encodage pour le fichier LRC ("ansi", "utf8" ou "unicode"). La valeur par défaut est "ansi".
- --lrc-offset nombre_intégral
- Spécifie le décalage temporel pour le fichier LRC (en millisecondes).
- --lrc-artist texte
- Spécifie une balise ID pour le fichier LRC : artiste.
- --lrc-album texte
- Spécifie une balise ID pour le fichier LRC : album.
- --lrc-title texte
- Spécifie une balise ID pour le fichier LRC : titre.
- --lrc-author texte
- Spécifie une balise ID pour le fichier LRC : auteur.
- --lrc-creator texte
- Spécifie une balise ID pour le fichier LRC : créateur du fichier LRC.
- --lrc-sent
- Insérer des lignes vides après les phrases dans le fichier LRC.
- --lrc-para
- Insérer des lignes vides après les alinéas dans le fichier LRC.
- --srt-length nombre_intégral
- Spécifie la longueur maximale des lignes de texte pour le fichier SRT (en caractères).
- --srt-fname nom_de_fichier
- Spécifie le nom du fichier SRT. L'option peut être utile lorsque l'option -o est spécifiée en ligne de commande.
- --srt-enc encodage
- Spécifie l'encodage pour le fichier SRT ("ansi", "utf8" ou "unicode"). La valeur par défaut est "ansi".
- --raw
- Sortie des données audio comme fichiers PCM brut ; les données audio sont sans l'en-tête WAV. L'option est utilisée avec l'option -o.
- --ignore-length ou -il
- Omet la longueur des données audio dans l'en-tête WAV. L'option est utilisée avec l'option -o.
- --wss
- Utilise le protocole WebSocket pour Microsoft Azure. Il permet d'améliorer la qualité sonore des fichiers audio (24 kHz au lieu de 16 kHz). L'option est ignorée si la clé d'abonnement pour les services cognitifs Microsoft Azure est définie. Utilisez l'option -m pour vérifier si une voix prend en charge le protocole WebSocket ou non.
- --sub-format texte
- Le format des sous-titres ("srt", "lrc", "ssa", "ass", "smi" ou "vtt"). Si le paramètre n'est pas spécifié, le format est déterminé d'après l'extension du fichier des sous-titres.
- --sub-fit ou -sf
- Augmente automatiquement la vitesse de lecture pour s'adapter aux intervalles de temps (lorsque le programme convertit les sous-titres en fichier audio). La bibliothèque SoundTouch sera utilisée pour modifier la vitesse.
- --sub-max nombre_intégral ou -sm nombre_intégral
- Définit la vitesse maximale de la parole dans une plage comprise entre 110% et 200% (lorsque le programme convertit les sous-titres en fichier audio). L'utilitaire augmentera automatiquement la vitesse de la parole sans dépasser la valeur définie.
- --aws-keyid texte ou -ak texte
- Sets AWS access key ID for the Amazon Polly. It is recommended to apply such key if you have it.
- --aws-secret texte ou -as texte
- Sets AWS secret access key for the Amazon Polly.
- --aws-region texte ou -ar texte
- Sets AWS region for the Amazon Polly.
- --crv-email texte ou -ce texte
- Sets the email address used when registering on the CereProc website. This information is necessary for CereVoice Cloud API authorization. It is recommended to apply such email if you have it.
- --crv-pwd texte ou -cp texte
- Sets the password used when registering on the CereProc website. This information is necessary for CereVoice Cloud API authorization. It is recommended to apply such password if you have it.
- --gc-apikey texte ou -gk texte
- Sets API key ID for the Google Cloud. It is recommended to apply such key if you have it.
- --ms-apikey texte ou -mk texte
- Sets the subscription key for the Microsoft Azure Cognitive Services. It is recommended to apply such key if you have it.
- --ms-region texte ou -mr texte
- Sets the subscription region for the Microsoft Azure Cognitive Services.
Exemples
Créer le fichier texte LANGUAGE.TXT avec la liste de toutes les langues prises en charge par le service Google TTS :
bal4web -s Google -m > language.txt
Convertir le texte de BOOK.TXT en parole et l'enregistrer dans le fichier BOOK.WAV :
bal4web -f "d:\Text\book.txt" -w "d:\Sound\book.wav" -s Google -l en-US -g female
Convertir les sous-titres en paroles et les enregistrer dans le fichier MOVIE.WAV :
bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l de-DE -n Conrad -r 1.1
bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l de-DE -n Conrad --sub-fit
Un exemple de l'utilisation de l'application avec l'utilitaire LAME.EXE :
bal4web -f d:\book.txt -s Baidu -l en-US -o --raw | lame -r -s 16 -m m -h - d:\book.mp3
Un exemple de l'utilisation de l'application avec l'utilitaire OGGENC2.EXE :
bal4web -f d:\book.txt -s Baidu -l en-US -o -il | oggenc2 --ignorelength - -o d:\book.ogg
Fichier de configuration
Les options de ligne de commande peuvent être enregistrées en tant que fichier de configuration « bal4web.cfg » dans le même dossier que l'application console.
Exemple de fichier de configuration :
-f d:\Text\book.txt
-w d:\Sound\book.wav
-s Google
-l de-DE
-g female
-d d:\Dict\rules.bxd
-lrc
--lrc-length 75
--lrc-enc utf8
|
Le programme peut combiner les options du fichier de configuration et celles de la ligne de commande.
Licence
Droits d'utilisation non commerciale de l’application :
- personnes physiques – sans restriction,
- personnes morales – avec les restrictions stipulées dans l'Accord de Licence du logiciel Balabolka.
L’utilisation commerciale du logiciel demande l'autorisation du détenteur du copyright.
|