RSS
Donation

WMZ: Z087754155981 (USD)
WME: E110509803261 (EUR)

WebMoney

Balabolka Oprogramowanie narzędziowe do wydobycia tekstu z plików

Program pozwala wydobywać tekst z plików różnego formatu. Wydobyty tekst można połączyć w jeden plik i/lub podzielić na kilka plików. Do tekstu można zastosować przepisy słowników korekty wymowy programu Balabolka.

Obsługiwane formaty plików: AZW, AZW3, CHM, DjVu, DOC, DOCX, EML, EPUB, FB2, FB3, HTML, LIT, MD, MHT, MOBI, ODP, ODS, ODT, PDB, PDF, PPT, PPTX, PRC, RTF, TCR, TXT, WPD, WRI, XLS, XLSX.

Oprogramowanie narzędziowe nie ma interfejsu graficznego i wykonuję się w trybie tekstowym. Tryb pracy programu można ustawić przy użyciu wiersza poleceń lub pliku konfiguracyjnego.


Program wykonuje operacje w następującej kolejności:

  1. Wydobyć tekst z pliku.
  2. Formatować tekst: usunąć zbędne spacje, znaki końca linii itp. (jeśli wybrane odpowiednie parametry).
  3. Połączyć tekst w jeden plik (jeśli wybrany odpowiedni parametr).
  4. Rozdzielić tekst na części (jeśli wybrane odpowiednie parametry).
  5. Stosować reguły korekty wymowy (jeśli wybrane odpowiednie parametry).
  6. Zachować plik lub pliki na płytę.

Pobrać oprogramowanie narzędziowe BLB2TXT


Rozmiar pliku: MB
 
Wersja: Lista zmian
 
Licenzja: Freeware
 
System operacyjny:




Wiersz poleceń

Program można skonfigurować za pomocą parametrów wiersza poleceń. Są one oddzielone od siebie znakiem spacji i zaczynają się z "-" (kreska).Pełną liste parametrów wiersza poleceń można uzyskać wpisując "blb2txt.exe" z parametrami -? lub -h.


-f nazwa_pliku
Nazwa pliku lub maska dla nazw plików, z których należy wydobyć tekst. Wiersz poleceń może zawierać kilka parametrów -f.
-fl nazwa_pliku
Ustawia nazwę pliku tekstowego z listą plików wejściowych (jedna nazwa pliku na wiersz). Wiersz poleceń może zawierać kilka parametrów -fl.
-v nazwa_folderu
Nazwa folderu dla zachowania pliku z wydobytym tekstem.
-p tekst
Szablon dla nazwy pliku z wydobytym tekstem (naprzykład, "Dokument tekstowy"). Jeśli parametr nie ustawiony, wykorzystuję się nazwa pliku źródłowego.
  • Użyj zmiennej %FileName%, aby wstawić nazwę pliku wejściowego do nazwy pliku wyjściowego.
  • Użyj zmiennej %FirstLine%, aby wstawić pierwszą linię tekstu.
  • Użyj zmiennej %Header%, aby wstawić tytuł rozdziału.
  • Użyj zmiennej %Number%, aby zmienić pozycję numeru sekwencji w nazwie pliku wyjściowego.
  • Użyj zmiennej %Title%, aby wstawić tytuł dokumentu HTML (tylko dla plików HTML).
Ostrzeżenie! Konieczne jest podwojenie znaku procentu (%) w skrypcie wsadowym.
Na przykład: -p %%FirstLine%%
-ext tekst
Ustawia rozszerzenie dla nazw plików wyjściowych. Wartość domyślna dorówna "txt".
-out nazwa_pliku
Ustawia pełną nazwę pliku wyjściowego. Opcja zaleca się określenie tylko wtedy, gdy narzędzie jest używane jako część innego oprogramowania. Jeśli narzędzie jest używane do niestandardowego importu dokumentów, zewnętrzny program uruchamia narzędzie z wiersza poleceń i przekazuje pełną nazwę pliku tekstowego do utworzenia.
-s
Wyszukiwanie plików wejściowych w podfolderach.
--create-folder lub -cf
Utwórz podfolder wyjściowy dla każdego pliku wejściowego. Nazwa pliku zostanie użyta jako nazwa podfolderu.
-i
Czytać tekst z standarowego strumienia wejścia (STDIN).
Jeśli parametr jest ustawiony, parametr -f jest ignorowany.
-o
Zapisać tekst do standarowego strumienia wyjścia (STDOUT).
Jeśli parametr jest ustawiony, parametry -v i -p są ignorowane.
-u
Połączyć tekst z kilku plików w jeden plik.
-b
Dodać numer porządkowy przed nazwą pliku.
-a
Dodać numer porządkowy po nazwie pliku.
-n liczba
Ustawić początkowy numer porządkowy pliku. Wartość domyślna dorówna 1.
-e kodowanie
Kodowanie pliku z wydobytym tekstem ("ansi", "utf8" lub "unicode"). Wartość domyślna dorówna "ansi".
-t liczba
Ustawić sposób rozdzielenia tekstu: wykorzystanie wybranego romiaru pliku. Liczba odpowiada ilości znaków.
-k słowo_kluczowe
Ustawić sposób rozdzielenia tekstu: wyszukiwanie słowa kluczowego w pliku źródłowym. Parametr jest zależny od rejestru. Wiersz poleceń może zawierać kilka parametrów -k.
-r słowo_kluczowe
Rozdzielić tekst na słowie kluczowym i usunąć go z tekstu. Parametr jest zależny od rejestru. Wiersz poleceń może zawierać kilka parametrów -r.
-w
Ustawić sposób rozdzielenia tekstu: wyszukiwanie dwóch kolejnych wierszy pustych.
-l
Ustawić sposób rozdzielenia tekstu: wyszukiwanie wiersza w którym wszyskie litery są wielkie.
-c
Dzieli tekst według spisu treści. Aplikacja wyodrębnia pozycje początków rozdziałów z pliku wejściowego (jeśli plik zawiera takie informacje).
-toc
Generates a table of contents. The application splits the extracted text by keywords (like "rozdział"). Parametr wykorzystuję się razem z parametrem -c.
-m liczba
Ustawia minimalny rozmiar części tekstu do podziału (jako liczbę znaków).
-j liczba
Ignoruje początek rozdziału, jeśli rozmiar poprzedniego rozdziału jest mniejszy niż określona wartość (w znakach). Opcja ta jest używana razem z opcją -c lub -toc.
-hh tekst
Wstawia tekst przed nagłówkami (np: ## Chapter 1).
-d nazwa_pliku
Użyć słownika dla korekty wymowy (plik z rozszerzeniem *.BXD, *.REX lub *.DIC). Wiersz poleceń może zawierać kilka parametrów -d.
-if
Używa interfejsu IFilter do wyodrębniania tekstu. Jeśli to się nie powiedzie, aplikacja użyje metody domyślnej.
-g nazwa_folderu
Ustawia nazwę folderu wyjściowego do zapisywania obrazów z dokumentu.
-cvr nazwa_folderu
Ustawia nazwę folderu wyjściowego do zapisania obrazu okładki książki.
--clone-file-time lub -cft
Klonowanie czasu utworzenia/modyfikacji/udostępnienia pliku wejściowego do pliku wyjściowego. Jeśli aplikacja łączy pliki tekstowe lub dzieli wyodrębniony tekst, opcja ta jest ignorowana.
-x typ_pliku
Ustawia typ pliku wejściowego. Pozwala zdefiniować format dokumentów wejściowych z nieznanymi rozszerzeniami nazw plików. Na przykład: -x doc.
-pwd tekst
Ustawić hasło dla wydobycia tekstu z pliku PDF.
-dll nazwa_pliku
Ustawia ścieżkę i nazwę dla 7z.dll (32bit). Biblioteka ta pomaga wyodrębniać tekst i obrazy z dokumentów znajdujących się w archiwach (ZIP, RAR, itp.). 7z.dll jest częścią oprogramowania 7-Zip. Jeśli opcja nie zostanie określona, aplikacja i biblioteka muszą znajdować się w tym samym folderze; W przeciwnym razie aplikacja nie będzie w stanie wyodrębnić danych z plików archiwum.
-dex typy_plików
Ustawia listę typów plików do wyodrębnienia z archiwów. Opcja zawiera oddzieloną przecinkami listę typów plików, na przykład: -dex "fb2,epub"
Linia poleceń może zawierać kilka opcji -dex. Jeśli opcja nie zostanie określona, aplikacja wyodrębni tekst ze wszystkich plików w archiwum. Jeśli konieczne jest wyodrębnienie tekstu dla wszystkich typów plików obsługiwanych przez aplikację, należy użyć wartości "all-". Na przykład: -dex all-
-dne typy_plików
Ustawia listę typów plików, które mają być ignorowane podczas wyodrębniania dokumentów z archiwów. Opcja zawiera oddzieloną przecinkami listę typów plików, np.: -dne "exe,dll"
Wiersz poleceń może zawierać kilka opcji -dne. Jeśli opcja nie zostanie określona, aplikacja wyodrębni tekst ze wszystkich plików w archiwum.
-dp
Wyświetl informacje o postępach w oknie konsoli.
-cfg nazwa_pliku
Ustawia nazwę pliku konfiguracyjnego z opcjami wiersza poleceń (plik tekstowy, w którym każda linia zawiera jedną opcję). Jeśli opcja nie zostanie określona, plik blb2txt.cfg w tym samym folderze, w którym będzie używane narzędzie.
-h
Pokazać opis parametrów wiersza poleceń.
--remove-spaces lub -rs
Usunąć zbędne spacje (dwie lub wiecej kolejnych, twarde spacje).
--remove-hyphens lub -rh
Usunąć kreski na końcu wiersza w tekście.
--remove-linebreaks lub -rl
Usunąć znaki końca linii wewnątrz akapitów.
--remove-empty-lines lub -rm
Usunąć wszystkie puste wiersze.
--replace-empty-lines lub -rp
Zamienić kilka pustych wierszy o jeden pusty wiersz.
--remove-square-brackets lub -rsb
Usunąć tekst wewnątrz [nawiasów kwadratowych].
--remove-curly-brackets lub -rcb
Usunąć tekst wewnątrz {nawiasów klamrowych}.
--remove-angle-brackets lub -rab
Usunąć tekst wewnątrz <nawiasów ostrokątnych>.
--remove-round-brackets lub -rrb
Usuwa tekst w (nawiasach okrągłych).
--remove-comments lub -rc
Usuwa komentarze. Komentarze jednowierszowe zaczynają się od // i kontynuuj do końca wiersza. Komentarze wielowierszowe zaczynają się od /* i kończą na */.
--remove-page-numbers lub -rpn
Usuń numery stron (może to być przydatne w przypadku plików DjVu/PDF).
--fix-ocr-errors lub -ocr
Poprawić błędy, które mogą wystąpić podczas rozpoznawania tekstu (tylko alfabet cyryliczny).
--fix-letter-spacing lub -ls
Poprawia odstępy między literami w słowach (na przykład: s p a c e, _w_o_r_d).
--add-period lub -ap
Dodaje kropkę, jeśli po ostatnim słowie akapitu nie ma znaku interpunkcyjnego.
--extract-summary liczba or -es liczba
Wyodrębnia podsumowanie (zwane również "adnotacją") z plików FB2/FB3 i wstawia je na początku tekstu. Możliwe wartości dla parametru całkowitego:
  • 0 – pomija podsumowanie (wartość ta jest domyślnie używana);
  • 1..5 – wyodrębnia podsumowanie (wartość określa kolejność, w której wymieniono nazwę autora i tytuł książki).
--skip-notes lub -sn
Pomija notatki, gdy aplikacja wyodrębnia tekst z plików DOCX/FB2/FB3/MD/ODT.
--include-notes liczba lub -in liczba
Zawiera notatki w tekście, gdy aplikacja wyodrębnia tekst z plików DOCX/FB2/FB3/MD/ODT.
Możliwe wartości dla parametru całkowitego:
  • 0 – usuwa linki do notatek z tekstu;
  • 1 – zachowuje domyślne pozycje notatek w tekście (wartość ta jest domyślnie używana);
  • 2 – umieszcza notatki na końcu zdań;
  • 3 – umieszcza notatki na końcu akapitów.
--insert-note-begin tekst lub -inb tekst
Wstawia słowa na początku notatek, gdy notatki są zawarte w tekście (na przykład: Edytory notatki.).
Opcja jest używana do plików DOCX/FB2/FB3/MD/ODT.
--insert-note-end tekst lub -ine tekst
Wstawia słowa na końcu notatek, gdy notatki są zawarte w tekście (na przykład: Koniec notatki.).
Opcja jest używana dla plików DOCX/FB2/FB3/MD/ODT.
--extract-tables liczba lub -et liczba
Wyodrębnianie tabel z plików DOCX/FB2/FB3/ODT. Możliwe wartości dla parametru całkowitego:
  • 0 – pomija tabele;
  • 1 – wyodrębnia dane z każdej komórki jako nowy wiersz tekstu (ta wartość jest używana domyślnie);
  • 2 – zachowuje formatowania podczas wyodrębniania tabeli.
--csv-comma
Kolumny są oddzielone przecinkiem, gdy aplikacja wyodrębnia dane z plików XLS/XLSX/ODS (domyślny separator dla plików CSV).
--csv-semicolon
Kolumny są oddzielone średnikiem, gdy aplikacja wyodrębnia dane z plików XLS/XLSX/ODS.
--csv-space
Kolumny są oddzielone pustym miejscem, gdy aplikacja wyodrębnia dane z plików XLS/XLSX/ODS.
--csv-tab
Kolumny są oddzielone tabulatorem, gdy aplikacja wyodrębnia dane z plików XLS/XLSX/ODS.
--csv-double-quote
Używa znaków podwójnego cudzysłowu, jeśli pole musi być cytowane (eksport z plików XLS/XLSX/ODS).
--csv-single-quote
Używa pojedynczych cudzysłowów, jeśli pole musi być cytowane (eksport z plików XLS/XLSX/ODS).
--eml-save nazwa_folderu
Wyodrębnia załączniki z plików EML i zapisuje je w określonym folderze.
--eml-att
Wyodrębnia listę załączników z plików EML (nazwy plików dołączonych do wiadomości).
--eml-cc
Wyodrębnia pole nagłówka "Cc" z plików EML ("carbon copy", "kopia węglowa"; określa dodatkowych odbiorców wiadomości).
--eml-date format_daty
Wyodrębnia pole nagłówka "Data" z plików EML (lokalny czas i data utworzenia i wysłania wiadomości). Format daty jest definiowany przez specyfikatory (takie jak "d", "m", "y" itp.). Na przykład: "dd.mm.yyyy hh:nn:ss".
--eml-from
Wyodrębnia pole nagłówka "Od" z plików EML (adres e-mail i opcjonalnie nazwisko autora).
--eml-org
Wyodrębnia pole nagłówka "Organizacja" z plików EML (nazwa organizacji, przez którą nadawca wiadomości ma dostęp do sieci).
--eml-rt
Wyodrębnia pole nagłówka "Odpowiedź-Do" z plików EML (adres, na który mają trafiać odpowiedzi).
--eml-subj
Wyodrębnia pole nagłówka "Temat" z plików EML (temat wiadomości).
--eml-to
Wyodrębnia pole nagłówka "Do" z plików EML (adres e-mail i opcjonalnie nazwa odbiorcy wiadomości).


Przykłady komend

Przykłady komend do uruchomienia oprogramowania narzędziowego do wydobycia tekstu:

blb2txt -f "d:\Docs\book.doc" -v "d:\Text\"

blb2txt -f "d:\Docs\book.doc" -out "d:\Text\book.txt"

blb2txt -f "d:\Docs\*.doc" -f "d:\Docs\*.rtf" -v "d:\Text\" -e utf8 --replace-empty-lines

blb2txt -f "d:\Docs\*.*" -v "d:\Text\" -p "Dokument" -u

blb2txt -f "d:\Docs\1.doc" -v "d:\Text\" -p "Dokument" -a -n 20 -t 100000

blb2txt -f "d:\Book\book.fb2" -v "d:\Text\" -p "Książka" -k "ROZDIAŁ" -k "SPIS TREŚCI"

blb2txt -f "d:\Book\book.epub" -v "d:\Text\" -p "Książka" -r "###"

blb2txt -f "d:\Book\book.fb2" -v "d:\Text\" -p "%Number% - %Header%" -c -j 1024

blb2txt -i -o --remove-spaces --remove-linebreaks --replace-empty-lines

blb2txt -f "d:\Archive\*.zip" -v "d:\Text\" -dll "e:\7-Zip\7z.dll" -dex doc,docx




Plik konfiguracyjny

Parametry można zachować jak plik konfiguracyjny "blb2txt.cfg" w tym samym folderze co aplikacja konsolowa.

Przykład zawartości pliku:

-f d:\Docs\*.rtf
-f d:\Books\*.epub
-f d:\Books\*.fb2
-v d:\Text
-b
-n 1
-t 25000
-e utf8
-d d:\Dict\rules.bxd
--remove-spaces
--remove-linebreaks
--replace-empty-lines

Program może kombinować parametry z pliku konfiguracyjnego i wiersza poleceń.




Licenzja

Prawo do użytku niekomercyjnego:

  • dla osób fizycznych – bez ograniczeń;
  • dla osób prawnych – z zastrzeżeniem ograniczeń, co określa "Umowa licencyjna" programu Balabolka.

Użytek komercyjny dozwolony jedynie za wcześniejszą zgodą posiadacza praw autorskich.