SAPI – co to jest? |
Speech Application Programming Interface lub SAPI - to pakiet oprogramowania, opracowany przez Microsoft dlatego, żeby programy mogły wykorzystywać komputerową syntezę mowy. Istnieją dwie podstawowe wersje SAPI (SAPI 4 i SAPI 5), które są niekompatybilne. System operacyjny Windows 2000 zawierał SAPI 4, Windows XP i wszystkie późniejsze wersje - SAPI 5. Można pobrać i zainstalować obie wersje SAPI na jeden komputer; to pozwoli wykorzystywać wszystkie istniejące silniki rozpoznawania mowy (stare i nowe). |
Gdzie ja mogę znałeżć SAPI 4? |
Dla tego, aby wykorzystać głosy SAPI 4, trzeba pobrać i zainstalować Microsoft Speech API 4.0. Także, można pobrać i zainstalować Microsoft Speech Control Panel; po tym w panelu sterowania pojawi się ikonka "Mowa". |
Gdzie ja mogę znałeżć SAPI 5? |
Windows XP (i późniejsze wersje) zawiera SAPI 5. |
Jak dowiedzieć się, jakie głosy są zainstalowane na moim komputerze? |
Listę głosów można sprawdzić tutaj: Control Panel (Panel sterowania)
Speech (Mowa)
Speech Properties (Właściwości Głosu)
Text To Speech (Tekst na mowę)
Voice selection (Wybór głosu). |
Jak wykonać "cichą" instalację programu? |
Instalacja automatyczna programu bez demonstracji dialogów ("cicha" instalacja) możliwa przy podaniu klucza -silent w wierszu poleceń. |
W moim komputerze zainstalowane dwie karty dźwiękowe. Jak wybrać prawidłowe potrzebne urządzenie audio do odtwarzania mowy? |
Można wybrać urządzenie audio w panelu sterowania Windows; na przykład, w kategorii "Dźwięk, mowa i urządzenia audio", przycisk "Wyjście audio" ("Audio Output"). Kartę dźwiękową można także wybrać w programie Balabolka (punkt głównego menu programu "Opcje | Wyjście audio"). |
Otwieram w programie plik w formacie DjVu, ale tekst jest nieobecny. W czym jest problem? |
Format DjVu został opracowany dla przechowywania skanowanych dokumentów. To znaczy, w plikach DjVu są przechowywane skompresowane graficzne obrazy stron książek, pism itp. Format DjVu przewiduje obecność warstwy tekstowej (OCR), co zawiera tekst strony. Pliki z warstwą tekstową czasem oznaczają jak DjVu+OCR.
Program Balabolka umie wyciągać dane tylko z warstwy tekstowej. W przypadku, jeśli warstwa tekstowa jest niedostępna, jedyną metodą otrzymywania tekstu jest optyczne rozpoznawanie, na przykład, w FineReader. |
Mam 64-bitową wersję systemu Windows. Zainstalowałem 64-bitowy moduł Runtime do Microsoft Speech Platform, a także polski głos. Ale liśta dostępnych głosów w programie Balabolka jest pusta. W czym jest problem? |
Program Balabolka jest 32-bitową aplikacją. Więc trzeba zainstalować 32-bitny moduł Runtime do Microsoft Speech Platform. |
Co to jest Google Text-To-Speech? |
Przy wykorzystaniu usługi tłumaczeń Google obok przetłumaczonego tekstu jest przycisk "Listen" ("Słuchać"). Wystarczy kliknąć ikonkę a przeglądarka sciągnie z strony Google plik dźwiękowy MP3 z udźwiękowionym tłumaczeniem. Dostępne są 30 języków. Długosć tekstu nie może przekraczać 100 symboli. Z programem Balabolka można zapomnieć o tym ograniczeniu: duże teksty dzielą się na drobne części, dla każdej części tekstu pobiera się plik dźwiękowy, wszystkie pliki łączą się w jeden audioplik. |
Otwieram w programie e-book, ale nie ma w oknie tekstu. W czym problem? |
Może być kilka wyjaśnień. Po pierwsze, plik może wyglądać jak zestaw zeskanowanych obrazów stron książki papierowej. Po drugie, e-book może być chroniony przez DRM. Program nie ma możliwości wyodrębnić tekst z książki pod taką ochroną (to byłoby niezgodne z prawem). |
Windows 10 has the new voices Microsoft Adam Mobile and Microsoft Paulina Mobile, but they are not available in text-to-speech software. Is it possible to unlock the new voices? |
By default, the Microsoft mobile voice (also known as "OneCore") is locked for using in text-to-speech software via SAPI 5. You can unlock it with a simple registry tweak. Download the archive, extract the file for your language and for your version of the operating system ("mobile_x86.reg" for 32bit and "mobile_x64.reg" for 64bit), click the right mouse button on the file's name and choose the context menu item "Merge". The Microsoft mobile voice will appear in the list of the available voices in Balabolka.
Alternatively, the utility SAPI Unifier can be used for the same purpose. |
Windows 11 introduces more natural voices, such as Microsoft Jenny and Microsoft Aria. How can I access them with SAPI 5? |
This problem can be fixed with the NaturalVoiceSAPIAdapter utility. It will add new speech engines to the SAPI 5 voice list; it can also add the voices available in the Microsoft Edge browser to this list. More information can be found here. Since Balabolka is a 32-bit application, you should install the 32-bit and 64-bit versions of the utility (see "Installation Status" in the utility's window). You can download the latest release of the utility. |
I have Windows 11 24H2 installed on my computer. In Balabolka, I press the "Read aloud" button: the application reads the first two words in the text and crashes out. Why does this happen? |
Here's what we know about the problem that appears after installing the 24H2 update for Windows 11: if the user's monitor contains speakers, if the graphics card and the monitor are connected by a cable that transmits sound – this leads to unstable work of the Balabolka program, it periodically crashes, and in the event log the MMDevApi.dll system library is specified as the cause of the crash. But if you connect speakers or headphones to the audio jack on the motherboard of the same computer, the Balabolka program works stably.
The problem occurs in 32-bit applications that use the IMMNotificationClient interface. Until Microsoft developers fix the problem, here's the situation: if you installed the 24H2 update for Windows 11 and the text-to-speech application starts crashing, connect your audio output device to a different port on your computer. I wrote to Microsoft support about this situation, but they ignored my messages. We all have to wait for Microsoft developers to fix the problem.
A user from Japan, Ikuo Kurihara, found one more way to fix the problem: first you need to launch Windows Media Player Legacy (click the "Start" button and type this name in the search bar), open any audio file in the player, start playing it and immediately pause; then launch Balabolka. In this case, the text-to-speech application will work stably. "Windows Media Player Legacy" is a 32-bit application, just like Balabolka. This method will also work with any other 32-bit audio player. |