Donation
WMZ: Z087754155981 (USD) WME: E110509803261 (EUR)
|
Balabolka Oprogramowanie narzędziowe do wydobycia tekstu z plików
Program pozwala wydobywać tekst z plików różnego formatu. Wydobyty tekst można połączyć w jeden plik i/lub podzielić na kilka plików. Do tekstu można zastosować przepisy słowników korekty wymowy programu Balabolka.
Obsługiwane formaty plików: AZW, AZW3, CHM, DjVu, DOC, DOCX, EML, EPUB, FB2, FB3, HTML, LIT, MD, MHT, MOBI, ODP, ODS, ODT, PDB, PDF, PPT, PPTX, PRC, RTF, TCR, TXT, WPD, WRI, XLS, XLSX.
Oprogramowanie narzędziowe nie ma interfejsu graficznego i wykonuję się w trybie tekstowym. Tryb pracy programu można ustawić przy użyciu wiersza poleceń lub pliku konfiguracyjnego.
Program wykonuje operacje w następującej kolejności:
- Wydobyć tekst z pliku.
- Formatować tekst: usunąć zbędne spacje, znaki końca linii itp. (jeśli wybrane odpowiednie parametry).
- Połączyć tekst w jeden plik (jeśli wybrany odpowiedni parametr).
- Rozdzielić tekst na części (jeśli wybrane odpowiednie parametry).
- Stosować reguły korekty wymowy (jeśli wybrane odpowiednie parametry).
- Zachować plik lub pliki na płytę.
Pobrać oprogramowanie narzędziowe BLB2TXT
Rozmiar pliku: MB |
|
Wersja: Lista zmian |
|
Licenzja: Freeware |
|
System operacyjny: |
Wiersz poleceń
Program można skonfigurować za pomocą parametrów wiersza poleceń. Są one oddzielone od siebie znakiem spacji i zaczynają się z "-" (kreska).Pełną liste parametrów wiersza poleceń można uzyskać wpisując "blb2txt.exe" z parametrami -? lub -h.
- -f nazwa_pliku
- Nazwa pliku lub maska dla nazw plików, z których należy wydobyć tekst. Wiersz poleceń może zawierać kilka parametrów -f.
- -fl nazwa_pliku
- Sets the name of the text file with the list of input files (one file name per line).
- -v nazwa_folderu
- Nazwa folderu dla zachowania pliku z wydobytym tekstem.
- -p tekst
- Szablon dla nazwy pliku z wydobytym tekstem (naprzykład, "Dokument tekstowy"). Jeśli parametr nie ustawiony, wykorzystuję się nazwa pliku źródłowego.
- Use the %FileName% variable to insert the input file name to the output file name.
- Use the %FirstLine% variable to insert the first line of text.
- Use the %Header% variable to insert the chapter title.
- Use the %Number% variable to change the position of the sequence number inside the output file name.
Warning! It is necessary to double a percent sign (%) in a batch script. For example: -p %%Number%%
- -ext tekst
- Set the extension for output filenames. The default is "txt".
- -out nazwa_pliku
- Sets the full name for output file. The option is recommended to specify only when the utility is used as a part of other software. If the utility is used for custom document import, the external program runs the utility from a command line and passes the full name of a text file to create.
- -s
- Search input files in subfolders.
- -cf
- Create a subfolder for each input file. A file name will be used as a name of an output subfolder.
- -i
- Czytać tekst z standarowego strumienia wejścia (STDIN).
Jeśli parametr jest ustawiony, parametr -f jest ignorowany.
- -o
- Zapisać tekst do standarowego strumienia wyjścia (STDOUT).
Jeśli parametr jest ustawiony, parametry -v i -p są ignorowane.
- -u
- Połączyć tekst z kilku plików w jeden plik.
- -b
- Dodać numer porządkowy przed nazwą pliku.
- -a
- Dodać numer porządkowy po nazwie pliku.
- -n liczba
- Ustawić początkowy numer porządkowy pliku. Wartość domyślna dorówna 1.
- -e kodowanie
- Kodowanie pliku z wydobytym tekstem ("ansi", "utf8" lub "unicode"). Wartość domyślna dorówna "ansi".
- -t liczba
- Ustawić sposób rozdzielenia tekstu: wykorzystanie wybranego romiaru pliku. The number corresponds to an amount of characters.
- -k słowo_kluczowe
- Ustawić sposób rozdzielenia tekstu: wyszukiwanie słowa kluczowego w pliku źródłowym. Parametr jest zależny od rejestru. Wiersz poleceń może zawierać kilka parametrów -k.
- -r słowo_kluczowe
- Rozdzielić tekst na słowie kluczowym i usunąć go z tekstu. Parametr jest zależny od rejestru. Wiersz poleceń może zawierać kilka parametrów -r.
- -w
- Ustawić sposób rozdzielenia tekstu: wyszukiwanie dwóch kolejnych wierszy pustych.
- -l
- Ustawić sposób rozdzielenia tekstu: wyszukiwanie wiersza w którym wszyskie litery są wielkie.
- -c
- Splits text by a table of contents. The application extracts positions of chapter beginnings from the input file (or a new table of contents will be generated if the option -toc is specified).
- -toc
- Generates a table of contents. The application splits the extracted text by keywords (like "rozdział"). Parametr wykorzystuję się razem z parametrem -c.
- -m liczba
- Sets the minimal size of text parts for splitting (as a number of characters).
- -j liczba
- Ignores the chapter beginning if the size of the previous chapter is less than the specified value (in characters). Parametr wykorzystuję się razem z parametrem -c.
- -hh tekst
- Inserts text in front of headings (for example: ## Chapter 1).
- -d nazwa_pliku
- Użyć słownika dla korekty wymowy (plik z rozszerzeniem *.BXD, *.REX lub *.DIC). Wiersz poleceń może zawierać kilka parametrów -d.
- -if
- Uses IFilter interface to extract text. If this fails, the default method will be used by the application.
- -g nazwa_folderu
- Sets the name of output folder for saving of images from documents.
- -cvr nazwa_folderu
- Sets the name of output folder for saving of a book cover image.
- -cft
- Clones the Created/Modified/Accessed time of the input file into the output file. If the application combines text files or splits the extracted text, the option is ignored.
- -x file_type
- Sets the input file type. It allows to define a format of input documents with unknown file name extensions. For example: -x doc.
- -pwd tekst
- Ustawić hasło dla wydobycia tekstu z pliku PDF.
- -dll nazwa_pliku
- Sets the path and name for 7z.dll (32bit). This library helps to extract text and images from documents inside archives (ZIP, RAR, etc.). 7z.dll is a part of 7-Zip software. If the option is not specified, the application and the library must be in the same folder; otherwise, the application will not be able to extract data from archive files.
- -dex file_types
- Sets the list of file types for extracting from archives. The option contains a comma-separated list of file types, for example: -dex "fb2,epub"
The command line may contain few options -dex. If the option is not specified, the application will extract text from all files in an archive. If it is necessary to extract text for all file types supported by the application, use the value "all-". For example: -dex all-
- -dne file_types
- Sets the list of file types to ignore when documents are extracted from archives. The option contains a comma-separated list of file types, for example: -dne "exe,dll"
The command line may contain few options -dne. If the option is not specified, the application will extract text from all files in an archive.
- -dp
- Display progress information in a console window.
- -cfg nazwa_pliku
- Sets the name of the configuration file with the command line options (a text file where each line contains one option). If the option is not specified, the file blb2txt.cfg in the same folder as the utility will be used.
- -h
- Pokazać opis parametrów wiersza poleceń.
- --remove-spaces lub -rs
- Usunąć zbędne spacje (dwie lub wiecej kolejnych, twarde spacje).
- --remove-hyphens lub -rh
- Usunąć kreski na końcu wiersza w tekście.
- --remove-linebreaks lub -rl
- Usunąć znaki końca linii wewnątrz akapitów.
- --remove-empty-lines lub -rm
- Usunąć wszystkie puste wiersze.
- --replace-empty-lines lub -rp
- Zamienić kilka pustych wierszy o jeden pusty wiersz.
- --remove-square-brackets lub -rsb
- Usunąć tekst wewnątrz [nawiasów kwadratowych].
- --remove-curly-brackets lub -rcb
- Usunąć tekst wewnątrz {nawiasów klamrowych}.
- --remove-angle-brackets lub -rab
- Usunąć tekst wewnątrz <nawiasów ostrokątnych>.
- --remove-round-brackets lub -rrb
- Removes text in (round brackets).
- --remove-comments lub -rc
- Removes comments. Single-line comments start with // and continue until the end of the line. Multiline comments start with /* and end with */.
- --remove-page-numbers lub -rpn
- Removes page numbers (it may be useful for DjVu/PDF files).
- --fix-ocr-errors lub -ocr
- Poprawić błędy, które mogą wystąpić podczas rozpoznawania tekstu (tylko alfabet cyryliczny).
- --fix-letter-spacing lub -ls
- Fixes letter-spacing in words (for example: s p a c e, _w_o_r_d).
- --add-period lub -ap
- Adds a period if there is no punctuation after the last word of the paragraph.
- --extract-summary liczba or -es liczba
- Extracts a summary (also called "annotation") from FB2/FB3 files and inserts at the beginning of text. Possible values for the integer parameter:
- 0 - skips a summary (used by default);
- 1..5 - extracts a summary (a value determines the order in which an author name and a book title are listed).
- --skip-notes lub -sn
- Skips notes, when the application extracts text from DOCX/FB2/FB3/MD/ODT files.
- --include-notes liczba lub -in liczba
- Includes notes inside text, when the application extracts text from DOCX/FB2/FB3/MD/ODT files.
Possible values for the integer parameter:
- 0 - removes links to notes from text;
- 1 - keeps default positions of notes inside text (this value is used by default);
- 2 - places notes at the end of sentences;
- 3 - places notes at the end of paragraphs.
- --insert-note-begin tekst lub -inb tekst
- Inserts words at the beginning of notes, when notes are included inside text (for example: Editor's note.).
The option is used for DOCX/FB2/FB3/MD/ODT files.
- --insert-note-end tekst lub -ine tekst
- Inserts words at the end of notes, when notes are included inside text (for example: End of note.).
The option is used for DOCX/FB2/FB3/MD/ODT files.
- --extract-tables liczba lub -et liczba
- Extract tables from DOCX/FB2/FB3/ODT files. Possible values for the integer parameter:
- 0 - skips tables;
- 1 - extract data from each cell as a new text line (this value is used by default);
- 2 - keep formatting when extracting a table.
- --csv-comma
- Columns are separated by a comma, when the application extracts data from XLS/XLSX/ODS files (default delimiter for CSV files).
- --csv-semicolon
- Columns are separated by a semicolon, when the application extracts data from XLS/XLSX/ODS files.
- --csv-space
- Columns are separated by a blank space, when the application extracts data from XLS/XLSX/ODS files.
- --csv-tab
- Columns are separated by a tab, when the application extracts data from XLS/XLSX/ODS files.
- --csv-double-quote
- Uses double-quote characters, if a field must be quoted (export from XLS/XLSX/ODS files).
- --csv-single-quote
- Uses single-quote characters, if a field must be quoted (export from XLS/XLSX/ODS files).
- --eml-save nazwa_folderu
- Extracts attachments from EML files and saves to a specified folder.
- --eml-att
- Extracts the list of attachments from EML files (names of files attached to the message).
- --eml-cc
- Extracts the header field "Cc" from EML files ("carbon copy"; it specifies additional recipients of the message).
- --eml-date format_daty
- Extracts the header field "Date" from EML files (the local time and date when the message was composed and sent). A date format are defined by specifiers (such as "d", "m", "y", etc.). For example: "dd.mm.yyyy hh:nn:ss".
- --eml-from
- Extracts the header field "From" from EML files (the email address, and optionally the name of the author).
- --eml-org
- Extracts the header field "Organization" from EML files (the name of the organization through which the sender of the message has net access).
- --eml-rt
- Extracts the header field "Reply-To" from EML files (the address for replies to go to).
- --eml-subj
- Extracts the header field "Subject" from EML files (the subject of the message).
- --eml-to
- Extracts the header field "To" from EML files (the email address, and optionally the name of the message's recipient).
Przykłady komend
Przykłady komend do uruchomienia oprogramowania narzędziowego do wydobycia tekstu:
blb2txt -f "d:\Docs\book.doc" -v "d:\Text\"
blb2txt -f "d:\Docs\book.doc" -out "d:\Text\book.txt"
blb2txt -f "d:\Docs\*.doc" -f "d:\Docs\*.rtf" -v "d:\Text\" -e utf8 --replace-empty-lines
blb2txt -f "d:\Docs\*.*" -v "d:\Text\" -p "Dokument" -u
blb2txt -f "d:\Docs\1.doc" -v "d:\Text\" -p "Dokument" -a -n 20 -t 100000
blb2txt -f "d:\Book\book.fb2" -v "d:\Text\" -p "Książka" -k "ROZDIAŁ" -k "SPIS TREŚCI"
blb2txt -f "d:\Book\book.epub" -v "d:\Text\" -p "Książka" -r "###"
blb2txt -f "d:\Book\book.fb2" -v "d:\Text\" -p "%Number% - %Header%" -c -j 1024
blb2txt -i -o --remove-spaces --remove-linebreaks --replace-empty-lines
blb2txt -f "d:\Archive\*.zip" -v "d:\Text\" -dll "e:\7-Zip\7z.dll" -dex doc,docx
Plik konfiguracyjny
Parametry można zachować jak plik konfiguracyjny "blb2txt.cfg" w tym samym folderze co aplikacja konsolowa.
Przykład zawartości pliku:
-f d:\Docs\*.rtf
-f d:\Books\*.epub
-f d:\Books\*.fb2
-v d:\Text
-b
-n 1
-t 25000
-e utf8
-d d:\Dict\rules.bxd
--remove-spaces
--remove-linebreaks
--replace-empty-lines
|
Program może kombinować parametry z pliku konfiguracyjnego i wiersza poleceń.
Licenzja
You are free to use and distribute software for noncommercial purposes. For commercial use or distribution, you need to get permission from the copyright holder.
|