Konvertieren Sie PDF in TEXT – kostenloser Online-Konverter
Konvertieren Sie das Portable Document Format (.pdf) kostenlos online in Plain Text (.text). Schnelle und sichere Dokumentenkonvertierung ohne Wasserzeichen oder Registrierung.
Konvertieren Sie das Portable Document Format (.pdf) kostenlos online in Plain Text (.text). Schnelle und sichere Dokumentenkonvertierung ohne Wasserzeichen oder Registrierung.
Upload your .pdf file by dragging it into the upload area or clicking to browse.
Choose your output settings. The default settings work great for most files.
Click Convert and download your .txt file when it's ready.
Beim Extrahieren von reinem Text aus PDF werden alle Formatierungs-, Bild- und Layoutinformationen entfernt, sodass nur der rohe Zeicheninhalt übrig bleibt. Dies ist die grundlegendste Art der Dokumentenkonvertierung – die Reduzierung eines umfangreichen PDF-Dokuments auf seinen Textinhalt. Die Ausgabe ist eine einfache TXT-Datei, die jeder Texteditor, jede Programmiersprache oder jedes Befehlszeilentool verarbeiten kann.
Die Textextraktion aus PDF ist komplexer als es scheint, da PDF Text als einzeln positionierte Zeichenglyphen und nicht als lineare Zeichenfolgen speichert. Der Konverter muss Zeichenpositionen analysieren, die Lesereihenfolge bestimmen (insbesondere bei mehrspaltigen Layouts), Absatzumbrüche anhand des Abstands identifizieren und Sonderzeichen und Ligaturen verarbeiten. Das Ergebnis ist ein sauberer Textstrom, der der logischen Lesereihenfolge des Dokuments folgt.
Klartext ist das universelle Datenformat. Jede Programmiersprache kann Textdateien nativ lesen. Textverarbeitungstools wie grep, awk, sed und Python-String-Operationen arbeiten direkt an Textdateien. Pipelines für die Verarbeitung natürlicher Sprache (NLP), Suchindizes und Trainingsdatensätze für maschinelles Lernen beginnen alle mit der Eingabe von Klartext.
Die Textextraktion ist auch für die Inhaltsmigration, das Data Mining und die Barrierefreiheit von entscheidender Bedeutung. Das Extrahieren von Text aus Tausenden von PDFs für ein Dokumentenverwaltungssystem, das Erstellen eines durchsuchbaren Korpus aus PDF-Archiven oder das Erstellen von für Bildschirmleseprogramme geeigneten Versionen von Dokumenten beginnt mit der Konvertierung von PDF in Text.
LibreOffice oder Ghostscript extrahieren Text aus der PDF-Datei, indem sie die Content-Stream-Operatoren lesen, die einzelne Zeichen an bestimmten Koordinaten platzieren. Zeichen werden basierend auf dem Abstand zwischen den Zeichen in Wörter, Wörter basierend auf der vertikalen Position in Zeilen und Zeilen basierend auf Zeilenabstandsmustern in Absätze gruppiert. Mehrspaltige Layouts werden linearisiert, indem Spaltengrenzen erkannt und jede Spalte von oben nach unten gelesen wird, bevor zur nächsten übergegangen wird. Bei gescannten PDFs wird OCR (optische Zeichenerkennung) angewendet, um Seitenbilder in Text umzuwandeln.
Die Qualität der Textextraktion hängt vom Ursprung der PDF-Datei ab. Digital erstellte PDFs (aus Word, LaTeX, InDesign) erzeugen eine nahezu perfekte Textausgabe mit korrekter Lesereihenfolge und Absatzumbrüchen. Gescannte PDFs hängen von der OCR-Genauigkeit ab, die je nach Scanqualität, Sprache und Schriftklarheit variiert. Mehrspaltige Layouts werden normalerweise korrekt linearisiert, aber komplexe Layouts mit Textfeldern, Seitenleisten und schwebenden Elementen erzeugen möglicherweise Text in unerwarteter Reihenfolge. Sonderzeichen, mathematische Symbole und nicht-lateinische Schriften hängen von den Unicode-Zuordnungstabellen der PDF-Datei ab.
| Device | TXT | |
|---|---|---|
| Windows PC | Partial | Partial |
| macOS | Partial | Partial |
| iPhone/iPad | Partial | Partial |
| Android | Partial | Partial |
| Linux | Partial | Partial |
| Web Browser | Native |
Bei der PDF-zu-Text-Konvertierung werden Rohzeicheninhalte zur Verarbeitung, Indizierung oder Zugänglichkeit extrahiert. Digital erstellte PDFs liefern hervorragende Ergebnisse; Bei gescannten PDFs kommt es auf die OCR-Qualität an. Die Ausgabe erfolgt im möglichst universell verarbeitbaren Format – einer reinen Textdatei.
Beyond format conversion, our PDF toolkit covers compression, merging, signing, OCR, annotation, watermarking, PDF/A conversion, and 10 more utilities.
Sichere Übertragung
HTTPS-verschlüsselte Uploads
Datenschutz an erster Stelle
Dateien werden nach der Verarbeitung automatisch gelöscht
Keine Registrierung
Sofort mit der Konvertierung beginnen
Funktioniert überall
| No |
Jeder Browser, jedes Gerät
| Merkmal | TXT | |
|---|---|---|
| Vollständiger Name | Portable Document Format | Plain Text |
| Erweiterung | .txt | |
| Am besten für | Universal format | Universal |