RSS
Unterstützung

Balabolka Dienstprogramm zur Textextraktion

Das Programm ermöglicht es, Text aus verschiedenen Dateiarten zu extrahieren. Der extrahierte Text kann in einer Datei zusammengefasst oder/und in mehrere Dateien aufgeteilt werden. Die Liste der Aussprache-Korrektur-Regeln von Balabolka kann auf den Text angewandt werden.

Unterstützte Formate für Input-Dateien: AZW, AZW3, CHM, DjVu, DOC, DOCX, EML, EPUB, FB2, HTML, LIT, MHT, MOBI, ODS, ODT, PDB, PDF, PRC, RTF, TCR, TXT, WPD, WRI, XLS, XLSX.

Das Programm arbeitet von der Befehlszeile aus, ohne Anzeige einer Benutzeroberfläche. Dies ist nützlich, wenn man zum Beispiel die Textverarbeitungs-Optionen in andere Anwendungen integrieren möchte.

Ausführungsreihenfolge der Operationen:

  1. Text von Eingabedatei(en) extrahieren.
  2. Text formatieren: Leerzeichen, Zeilenumbrüche usw. entfernen (wenn Option gewählt).
  3. Dateien in einer Datei zusammenfassen (wenn Option gewählt).
  4. Text splitten (wenn Option gewählt).
  5. Regeln für Aussprache-Korrektur anwenden (wenn Option gewählt).
  6. Ausgabedatei(en) speichern.

Download Balabolka (Dienstprogramm zur Textextraktion)


Größe: MB
 
Version:
 
Lizenzart: Freeware
 
Plattformen:
Befehlszeilen-Anwendung

Die Konsolenanwendung verwaltet verschiedene Befehlszeilen-Parameter, um Text aus Dateien extrahieren zu können. Die Befehlszeilen-Optionen verwenden die Syntax "blb2txt [Optionen ...]", alle Parameter müssen durch ein Leerzeichen getrennt werden. Die Optionen können in beliebiger Reihenfolge in der Befehlszeile aufgeführt werden, solange sie mit ihren zugehörigen Parametern verbunden sind. Verwenden Sie die "blb2txt -?" Befehlszeile, um Hilfe bezüglich Syntax und Parameter der Kommandozeile zu erhalten.


-f Dateiname
Bestimmt den Namen der Eingabedatei oder die Maske für eine Gruppe von Eingabedateien. Die Befehlszeile kann einige Optionen enthalten -f.
-v Ordner
Bestimmt den Namen des Ausgabeordners zum Speichern der Textdateien.
-p Textzeile
Bestimmt das Muster für den Namen der Ausgabedatei (zum Beispiel "Textdokument"). Wenn nicht vorhanden, wird der Name der Eingabedatei verwendet.
  • Verwenden Sie die Variable %FirstLine%, um die erste Textzeile als Namen der Ausgabedatei einzufügen.
  • Verwenden Sie die Variable %Header%, um den Kapiteltitel als Namen der Ausgabedatei einzufügen.
  • Verwenden Sie die Variable %Number%, um die Position der Sequenznummer im Namen der Ausgabedatei zu ändern.
-out Dateiname
Sets the full name for output file. The option is recommended to specify only when the utility is used as a part of other software. If the utility is used for custom document import, the external program runs the utility from a command line and passes the full name of a text file to create.
-i
Liest Text aus STDIN. Wenn diese Option gewählt ist, wird die Option -f ignoriert.
-o
Schreibt Text in STDOUT. Wenn diese Option gewählt ist, werden die Optionen -v und -p ignoriert.
-u
Kombiniert Textdateien in einer Ausgabedatei.
-b
Setzt die Sequenznummer vor den Namen der Ausgabedatei.
-a
Setzt die Sequenznummer hinter den Namen der Ausgabedatei.
-n Zahl
Bestimmt die Start-Sequenznummer für die Ausgabedateien. Die Standardzahl ist 1.
-e Kodierung
Bestimmt die Kodierung der Ausgabedateien ("ansi", "utf8" oder "unicode"). Standard ist "ansi".
-t Zahl
Splittet Text nach Zielgröße für Ausgabedateien (in Kilobytes).
-k Schlüsselwort
Splittet Text vor einem speziellem Schlüsselwort in der Eingabedatei. Diese Option beachtet die Groß- und Kleinschreibung. Die Befehlszeile kann einige Optionen enthalten -k.
-r Schlüsselwort
Splittet Text vor einem Schlüsselwort und entfernt dieses von den Ausgabedateien. Diese Option beachtet die Groß- und Kleinschreibung. Die Befehlszeile kann einige Optionen enthalten -r.
-w
Splittet Text an zwei Leerzeilen in Folge.
-l
Splittet Text vor Zeilen, die nur Großbuchstaben enthalten.
-c
Teilt den Text nach einem Inhaltsverzeichnis. Die Anwendung extrahiert Positionen von Kapitelanfängen aus der Eingabedatei (oder ein neues Inhaltsverzeichnis wird generiert, wenn die Option -toc angegeben wird).
-toc
Erzeugt ein Inhaltsverzeichnis. Die Anwendung teilt den extrahierten Text nach Stichworten (wie "Kapitel" oder "Buch"). Diese Option wird zusammen mit der Option -c verwendet.
-m Zahl
Ignores the chapter beginning if the size of the previous chapter is less than the specified value (in characters). Diese Option wird zusammen mit der Option -c verwendet.
-d Dateiname
Verwendet ein Wörterbuch zur Aussprache-Korrektur (*.BXD, *.REX oder *.DIC). Die Befehlszeile kann einige Optionen enthalten -d.
-if
Verwendet die IFilter-Schnittstelle, um Text zu extrahieren. Wenn dies fehlschlägt, wird die Standardmethode von der Anwendung verwendet.
-pwd Textzeile
Legt das Passwort für die verschlüsselten PDF-Dateien fest.
-? oder -h
Druckt die Liste der verfügbaren Befehlszeilen-Optionen.
--remove-spaces oder -rs
Entfernt überschüssige Leerzeichen (zwei oder mehr Leerzeichen in Folge, geschützte Leerzeichen).
--remove-hyphens oder -rh
Entfernt Bindestriche am Ende von Textzeilen.
--remove-linebreaks oder -rl
Entfernt Zeilenumbrüche innerhalb von Absätzen.
--remove-empty-lines oder -rm
Entfernt Leerzeilen.
--replace-empty-lines oder -rp
Ersetzt mehrere Leerzeilen durch eine einzige Leerzeile.
--remove-square-brackets oder -rsb
Entfernt Text in [eckigen Klammern].
--remove-curly-brackets oder -rcb
Entfernt Text in {geschweiften Klammern}.
--remove-angle-brackets oder -rab
Entfernt Text in <spitzen Klammern>.
--fix-ocr-errors oder -ocr
Behebt OCR-Fehler (nur für Sprachen mit kyrillischen Alphabeten).
--fix-letter-spacing oder -ls
Buchstabenabstand entfernen (zum Beispiel: W o r t, _T_e_x_t).
--skip-fb2-summary oder -sfs
Überspringt eine Zusammenfassung, wenn die Anwendung Text aus FB2-Dateien extrahiert.
--skip-notes oder -sn
Überspringt Notizen, wenn die Anwendung Text aus DOCX-, FB2- und ODT-Dateien extrahiert.
--include-notes Zahl oder -in Zahl
Enthält Anmerkungen im Text, wenn die Anwendung Text aus DOCX-, FB2- und ODT-Dateien extrahiert. Mögliche Werte für den Integer-Parameter:
  • 0 - entfernt Verknüpfungen zu Anmerkungen aus dem Text;
  • 1 - behält die Standardpositionen der Anmerkungen im Text bei
    (dieser Wert wird standardmäßig verwendet);
  • 2 - platziert Anmerkungen am Ende von Sätzen;
  • 3 - platziert Anmerkungen am Ende von Absätzen.
--csv-comma
Spalten werden durch ein Komma getrennt, wenn die Anwendung Daten aus XLS/XLSX/ODS-Dateien extrahiert (Standard-Trennzeichen für CSV-Dateien).
--csv-semicolon
Spalten werden durch ein Semikolon getrennt, wenn die Anwendung Daten aus XLS/XLSX/ODS-Dateien extrahiert.
--csv-space
Spalten werden durch ein Leerzeichen getrennt, wenn die Anwendung Daten aus XLS/XLSX/ODS-Dateien extrahiert.
--csv-tab
Spalten werden durch Tab getrennt, wenn die Anwendung Daten aus XLS/XLSX/ODS-Dateien extrahiert.
--csv-double-quote
Verwendet doppelte Anführungszeichen, wenn ein Feld zitiert werden muss (Export aus XLS/XLSX/ODS-Dateien).
--csv-single-quote
Verwendet einfache Anführungszeichen, wenn ein Feld zitiert werden muss (Export aus XLS/XLSX/ODS-Dateien).
--eml-save Ordner
Extracts attachments from EML files and saves to a specified folder.
--eml-att
Extracts the list of attachments from EML files (names of files attached to the message).
--eml-cc
Extracts the header field "Cc" from EML files ("carbon copy"; it specifies additional recipients of the message).
--eml-date Datumsformat
Extracts the header field "Date" from EML files (the local time and date when the message was composed and sent). A date format are defined by specifiers (such as "d", "m", "y", etc.). For example: "dd.mm.yyyy hh:nn:ss".
--eml-from
Extracts the header field "From" from EML files (the email address, and optionally the name of the author).
--eml-org
Extracts the header field "Organization" from EML files (the name of the organization through which the sender of the message has net access).
--eml-rt
Extracts the header field "Reply-To" from EML files (the address for replies to go to).
--eml-subj
Extracts the header field "Subject" from EML files (the subject of the message).
--eml-to
Extracts the header field "To" from EML files (the email address, and optionally the name of the message's recipient).



Befehlszeilen-Beispiele

blb2txt -f "d:\Docs\book.doc" -v "d:\Text\" -p "Buch"

blb2txt -f "d:\Docs\*.doc" -f "d:\Docs\*.rtf" -v "d:\Text\" -e utf8 --replace-empty-lines

blb2txt -f "d:\Docs\*.*" -v "d:\Text\" -p "Dokument" -u

blb2txt -f "d:\Docs\1.doc" -v "d:\Text\" -p "Dokument" -a -n 20 -t 100

blb2txt -f "d:\Book\book.fb2" -v "d:\Text\" -p "Buch" -k "KAPITEL" -k "BAND"

blb2txt -f "d:\Book\book.epub" -v "d:\Text\" -p "Buch" -r "###"

blb2txt -f "d:\Book\book.fb2" -v "d:\Text\" -p "%Number% - %Header%" -c -m 1024

blb2txt -i -o --remove-spaces --remove-linebreaks --replace-empty-lines



Konfigurationsdatei

Die Befehlszeilen-Optionen können als Konfigurationsdatei "blb2txt.cfg" im Ordner der Konsolen-Anwendung gespeichert werden.

Beispiel für eine Konfigurationsdatei:

-f d:\Docs\*.rtf
-f d:\Books\*.epub
-f d:\Books\*.fb2
-v d:\Text
-b
-n 1
-t 25
-e utf8
-d d:\Dict\rules.bxd
--remove-spaces
--remove-linebreaks
--replace-empty-lines

Das Programm kann Optionen von der Konfigurationsdatei und der Kommandozeile kombinieren.




Lizenzart

Sie können Software für nichtkommerzielle Zwecke verwenden und vertreiben. Für die kommerzielle Nutzung oder den Vertrieb benötigen Sie die Genehmigung des Urheberrechtsinhabers.