Дарение
WMZ: Z087754155981 (USD) WME: E110509803261 (EUR)
|
Програмата позволява извличането на текста от разни типове файлове. Извлеченият текст може да бъде обединен в един общ файл или/и разцепен на няколко файла. Списъкът с правилата от Balabolka за корекция на произношението може да бъде приложен върху текста.
За вход се поддържат следните файлови формати: AZW, AZW3, CHM, DjVu, DOC, DOCX, EML, EPUB, FB2, FB3, HTML, LIT, MD, MHT, MOBI, ODP, ODS, ODT, PDB, PDF, PPT, PPTX, PRC, RTF, TCR, TXT, TXTZ, WPD, WRI, XLS, XLSX.
Програмата поддържа интерфейс с команден ред и работи в текстов (конзолен) режим.
Програмата изпълнява действията в следния ред:
- Извлича текста от входни(я/те) файл(ове).
- Форматира текста: премахване на интервали, знаци за нов ред, и пр. (ако съответната опция е зададена).
- Обединява файловете в един общ (ако съответната опция е зададена).
- Разцепва текста (ако съответната опция е зададена).
- Прилага правилата за корекция на произношението (ако съответната опция е зададена).
- Съхранява изходни(я/те) файл(ове).
Изтегляне на Balabolka (инструмент за извличане на текст)
Размер: MB |
|
Версия: Списък с промени |
|
Лиценз: Безплатен (Freeware) |
|
Операционна система: |
Команден ред
Опциите за командния ред използват синтаксиса "blb2txt.exe [опции ...]", всички параметри трябва да бъдат разделени един от друг чрез интервал. Опциите могат да бъдат подреждани в произволен ред в командния ред, стига да са сдвоени със свързаните с тях параметри. Използвайте командата "blb2txt -?" за да получите помощ за параметрите и синтаксиса на командния ред.
- -f файлов_филтър
- Задава името на входния файл или маската за групата от входни файлове. Командния ред може да съдържа повече от една -f опция.
- -fl име_на_файл
- Задава името на текстовия файл със списъка от входни файлове (по едно име на файл на ред).
- -v име_на_папка
- Задава името на папката за запис на изходните текстови файлове.
- -p текст
- Задава образеца за име на изходния файл (например: "Текстов Документ"). Ако не е зададено, ще бъде използвано името на входния файл.
- Използвайте променливата %FileName%, за да вмъкнете името на входния файл в името на изходния файл.
- Използвайте променливата %FirstLine%, за да вмъкнете първия ред от текста.
- Използвайте променливата %Header%, за да вмъкнете заглавието на главата.
- Използвайте променливата %Number%, за да промените позицията на поредния номер в името на изходния файл.
- Използвайте променливата %Title%, за да вмъкнете заглавието на HTML документа (само за HTML файлове).
Внимание! Необходимо е да се удвои знакът за процент (%) в батч скрипта. Например: -p %%Number%%
- -ext текст
- Задава разширението за имената на изходните файлове. По подразбиране е "txt".
- -out име_на_файл
- Задава пълното име на изходния файл. Препоръчва се тази опция да се задава само когато програмата се използва като част от друг софтуер.
- -s
- Търси входни файлове в подпапки.
- -cf
- Създава подпапка за всеки входен файл. Името на файла ще се използва като име на изходната подпапка.
- -i
- Получава входни данни от STDIN. Ако опцията е зададена, опцията -f бива игнорирана.
- -o
- Записва текста в STDOUT. Ако опцията е зададена, опциите -v и -p биват игнорирани.
- -u
- Обединява всички входни файлове в един общ изходен такъв.
- -b
- Добавя нарастващо число в началото на имената на изходните файлове.
- -a
- Добавя нарастващо число в края на имената на изходните файлове.
- -n целочислена_стойност
- Задава началното число за имената на изходните файлове. Стойността по подразбиране е 1.
- -e кодиране
- Задава кодировката на изходните файлове ("ansi", "utf8" или "unicode"). Стойността по подразбиране е "ansi".
- -t целочислена_стойност
- Разцепва текста на части на база размера на изходните файлове. The number corresponds to an amount of characters.
- -k ключова_дума
- Разцепва текста на базата на специална ключова дума във входния файл. За опцията е от значение дали се използват малки или главни букви. Командния ред може да съдържа повече от една -k опция.
- -r ключова_дума
- Разцепва текста на базата на ключова дума, и я премахва от изходните файлове. За опцията е от значение дали се използват малки или главни букви. Командния ред може да съдържа повече от една -r опция.
- -w
- Разцепва текста на базата на два последователни празни реда.
- -l
- Разцепва текста на базата на редове, на които всички букви са главни.
- -c
- Разделя текста по съдържание. Приложението извлича позициите на началото на главите от входния файл (или се генерира ново съдържание, ако е зададена опцията -toc).
- -toc
- Генерира съдържание и разделя текста. Приложението разделя извлечения текст по ключови думи (като "глава" или "том"). Ако опцията се използва заедно с опцията -c, приложението ще се опита да извлече съдържание от документа; ако това не успее, ще бъде генерирано ново съдържание.
- -m целочислена_стойност
- Задава минималния размер на текстовите части за разделяне (като брой символи).
- -j целочислена_стойност
- Игнорира началото на главата, ако размерът на предходната глава е по-малък от зададената стойност (в символи). Този параметър се използва в комбинация с параметъра -o или -toc.
- -hh текст
- Вмъква текст пред заглавията (например: ## Глава 1).
- -d име_на_файл
- Използва речник за корекция на произношението (*.BXD, *.REX или *.DIC). Командния ред може да съдържа повече от една -d опция.
- -if
- Използва интерфейса IFilter за извличане на текст. Ако това не успее, приложението ще използва метода по подразбиране.
- -g име_на_папка
- Задава името на папката за запазване на изображения от документи.
- -cvr име_на_папка
- Задава името на папката за запазване на изображението на корицата на книгата.
- -cft
- Клонира времето на създаване/модифициране/достъп на входния файл във изходния файл. Ако програмата комбинира текстови файлове или разделя извлечения текст, опцията се игнорира.
- -x file_type
- Задава типа на входния файл. Позволява да се дефинира формат на входни документи с неизвестни разширения на имената на файловете. Например: -x doc.
- -pwd текст
- Задава паролата за шифрованите PDF файлове.
- -dll име_на_файл
- Задава пътя и името на 7z.dll (32-битова). Тази библиотека помага за извличане на текст и изображения от документи в архиви (ZIP, RAR и др.). 7z.dll е част от софтуера 7-Zip. Ако опцията не е зададена, приложението и библиотеката трябва да се намират в една и съща папка, в противен случай програмата няма да може да извлича данни от архивните файлове.
- -dex file_types
- Sets the list of file types for extracting from archives. The option contains a comma-separated list of file types, for example: -dex "fb2,epub"
The command line may contain few options -dex. If the option is not specified, the application will extract text from all files in an archive. If it is necessary to extract text for all file types supported by the application, use the value "all-". For example: -dex all-
- -dne file_types
- Sets the list of file types to ignore when documents are extracted from archives. The option contains a comma-separated list of file types, for example: -dne "exe,dll"
The command line may contain few options -dne. If the option is not specified, the application will extract text from all files in an archive.
- -dp
- Показва информация за напредъка в конзолен прозорец.
- -cfg име_на_файл
- Задава името на конфигурационния файл с опциите на командния ред (текстов файл, в който всеки ред съдържа една опция). Ако опцията не е зададена, ще се използва файлът blb2txt.cfg в същата папка като програмата.
- -h
- Извежда списък с възможните опции за командния ред.
- --remove-spaces или -rs
- Премахва излишните интервали (два или повече последователни интервала, непрекъсващи интервали).
- --remove-hyphens или -rh
- Премахва тиретата в края на редовете в текста.
- --remove-linebreaks или -rl
- Премахва знаците за нов ред в абзаците (параграфите).
- --remove-empty-lines или -rm
- Премахва празните редове.
- --replace-empty-lines или -rp
- Замества два или повече празни реда с един такъв.
- --remove-square-brackets или -rsb
- Премахва текста в [квадратни скоби].
- --remove-curly-brackets или -rcb
- Премахва текста във {вълнообразни скоби}.
- --remove-angle-brackets или -rab
- Премахва текста в <ъглови скоби>.
- --remove-round-brackets или -rrb
- Премахва текста в (кръгли скоби).
- --remove-comments или -rc
- Премахва коментарите. Едноредовите коментари започват с // и продължават до края на реда. Многоредовите коментари започват с /* и завършват с */.
- --remove-page-numbers или -rpn
- Премахва номерата на страниците (може да е полезно за DjVu/PDF файлове).
- --fix-ocr-errors или -ocr
- Поправя OCR грешки (само за езици с кирилска азбука).
- --fix-letter-spacing или -ls
- Коригира разстоянието между буквите в думите (например: п р а з н и н а, _д_у_м_а).
- --add-period или -ap
- Добавя точка, ако след последната дума в параграфа няма препинателен знак.
- --extract-summary целочислена_стойност или -es целочислена_стойност
- Извлича резюме (наричано още "анотация") от FB2/FB3 файлове и го вмъква в началото на текста. Възможни стойности за целочисления параметър:
- 0 – пропуска резюме (тази стойност се използва по подразбиране);
- 1..5 – извлича резюме (стойност определя реда, в който се изброяват името на автора и заглавието на книгата).
- --skip-notes или -sn
- Пропуска бележки, когато приложението извлича текст от DOCX/FB2/FB3/MD/ODT файлове.
- --include-notes целочислена_стойност или -in целочислена_стойност
- Включва бележки в текста, когато приложението извлича текст от DOCX/FB2/FB3/MD/ODT файлове. Възможни стойности за целочисления параметър:
- 0 – премахва връзки към бележки от текста;
- 1 – запазва подразбиращите се позиции на бележките в текста
(тази стойност се използва по подразбиране);
- 2 – поставя бележки в края на изреченията;
- 3 – поставя бележки в края на параграфите.
- --insert-note-begin текст или -inb текст
- Вмъква думи в началото на бележките, когато бележките са включени в текста (например: Бележка на редактора.).
Опцията се използва за файлове DOCX/FB2/FB3/MD/ODT.
- --insert-note-end текст или -ine текст
- Вмъква думи в края на бележките, когато бележките са включени в текста (например: Край на бележката.).
Опцията се използва за файлове DOCX/FB2/FB3/MD/ODT.
- --extract-tables целочислена_стойност или -et целочислена_стойност
- Извлича таблици от DOCX/FB2/FB3/ODT файлове. Възможни стойности за целочисления параметър:
- 0 – пропуска таблици;
- 1 – извлича данни от всяка клетка като нов текстов ред
(тази стойност се използва по подразбиране);
- 2 – запазва форматирането при извличане на таблица.
- --csv-comma
- Columns are separated by a comma, when the application extracts data from XLS/XLSX/ODS files (default delimiter for CSV files).
- --csv-semicolon
- Columns are separated by a semicolon, when the application extracts data from XLS/XLSX/ODS files.
- --csv-space
- Columns are separated by a blank space, when the application extracts data from XLS/XLSX/ODS files.
- --csv-tab
- Columns are separated by a tab, when the application extracts data from XLS/XLSX/ODS files.
- --csv-double-quote
- Uses double-quote characters, if a field must be quoted (export from XLS/XLSX/ODS files).
- --csv-single-quote
- Uses single-quote characters, if a field must be quoted (export from XLS/XLSX/ODS files).
- --eml-save име_на_папка
- Extracts attachments from EML files and saves to a specified folder.
- --eml-att
- Extracts the list of attachments from EML files (names of files attached to the message).
- --eml-cc
- Extracts the header field "Cc" from EML files ("carbon copy"; it specifies additional recipients of the message).
- --eml-date формат_на_датата
- Extracts the header field "Date" from EML files (the local time and date when the message was composed and sent). A date format are defined by specifiers (such as "d", "m", "y", etc.). For example: "dd.mm.yyyy hh:nn:ss".
- --eml-from
- Extracts the header field "From" from EML files (the email address, and optionally the name of the author).
- --eml-org
- Extracts the header field "Organization" from EML files (the name of the organization through which the sender of the message has net access).
- --eml-rt
- Extracts the header field "Reply-To" from EML files (the address for replies to go to).
- --eml-subj
- Extracts the header field "Subject" from EML files (the subject of the message).
- --eml-to
- Extracts the header field "To" from EML files (the email address, and optionally the name of the message's recipient).
Примери за команден ред
Извличане на текста от BOOK.DOC и записване като "Нова книга.txt":
blb2txt -f "d:\Docs\book.doc" -v "d:\Text\" -p "Нова книга"
Извличане на текста от документи на Microsoft Word и RTF документи, премахване на празните редове и записване в текстови файлове с кодиране UTF-8:
blb2txt -f "d:\Docs\*.doc" -f "d:\Docs\*.rtf" -v "d:\Text\" -e utf8 --replace-empty-lines
Извличане на текста от всички файлове в указаната директория, обединяване и записване като "Документ.txt":
blb2txt -f "d:\Docs\*.*" -v "d:\Text\" -p "Документ" -u
Извличане на текста от 1.DOC, разделяне на части с размер 100 KB и записване като текстови файлове "Документ 20.txt", "Документ 21.txt", и т.н.:
blb2txt -f "d:\Docs\1.doc" -v "d:\Text\" -p "Документ" -a -n 20 -t 100000
Извличане на текста от BOOK.FB2, намиране на думите "ГЛАВА" и "СЪДЪРЖАНИЕ" с цел разделяне на текста на части и записване като файлове с имената "Книга 1.txt", "Книга 2.txt", и т.н.:
blb2txt -f "d:\Book\book.fb2" -v "d:\Text\" -p "Книга" -k "ГЛАВА" -k "СЪДЪРЖАНИЕ"
Извличане на текста от BOOK.EPUB, намиране на "###" с цел разделяне на текста на части, премахване на "###" от текста и записване на всяка част като нов файл:
blb2txt -f "d:\Book\book.epub" -v "d:\Text\" -p "Книга" -r "###"
Extract text from BOOK.FB2, split by a table of contents, save files and use chapter titles as file names. New text files must not be less than one kilobyte:
blb2txt -f "d:\Book\book.fb2" -v "d:\Text\" -p "%Number% - %Header%" -c -j 1024
Получаване на текста от STDIN, премахване на излишните интервали, прекъсвания на редове и празните редове, записване на обновения текст в STDOUT:
blb2txt -i -o --remove-spaces --remove-linebreaks --replace-empty-lines
Extract text from all Wicrosoft Word documents inside ZIP archives:
blb2txt -f "d:\Archive\*.zip" -v "d:\Text\" -dll "e:\7-Zip\7z.dll" -dex doc,docx
Конфигурационен файл
Опциите за командния ред могат да бъдат съхранени в конфигурационен файл "blb2txt.cfg" в същата папка, в която е и програмата.
Пример за конфигурационен файл:
-f d:\Docs\*.rtf
-f d:\Books\*.epub
-f d:\Books\*.fb2
-v d:\Text
-b
-n 1
-t 25000
-e utf8
-d d:\Dict\rules.bxd
--remove-spaces
--remove-linebreaks
--replace-empty-lines
|
Програмата може да използва комбинация от опции от конфигурационния файл и от командния ред.
Лиценз
Можете свободно да използвате и разпространявате софтуера за некомерсиални цели. За комерсиално използване или разпространение е необходимо да получите разрешение от притежателя на авторските права.
|