Raster, Vektoren und Text – woraus besteht eigentlich meine PDF-Datei?

Übersicht

So finden Sie heraus, ob Sie es mit einer raster- oder vektorbasierten PDF-Datei zu tun haben und was dies für das Ausrichten eines Objekts bzw. Auswählen von Text bedeutet.

Relevante Produkte

Revu® für Windows® und Revu für Mac®


Problem

  • Ein Objekt lässt sich beim Messen nicht ausrichten.
  • Das Auswählen oder Durchsuchen von Text funktioniert nicht.

Warum passiert das?

Salopp gesagt liegt es in beiden Fällen daran, dass PDF-Datei nicht gleich PDF-Datei ist. Selbst wenn zwei Dateien auf den ersten Blick gleich aussehen, kann es sein, dass die eine mehr Daten enthält als die andere.

Der Anschein, dass eine Seite Linien und Zeichen enthält, kann trügen. Das Ausrichten am Inhalt und Durchsuchen und Auswählen von Text funktioniert indes nur bei PDF-Dateien, die tatsächlich aus Vektorlinien und Textelementen bestehen.

Raster- und Vektorinhalte im Vergleich

Worin besteht nun der Unterschied zwischen PDF-Dateien mit Raster- bzw. Vektorinhalten?

PDF-Datei mit Rasterinhalten PDF-Datei mit Vektorinhalten

Raster

Ein Rasterbild besteht aus rechteckigen Punkten, sogenannten Pixeln. Wenn Sie beispielsweise ein Dokument scannen, wird eine Datei mit Rasterinhalten erstellt. Beim Scannen wird ein Bitmap-Bild (wie ein JPEG oder TIFF) der jeweiligen Seite erstellt und auf der PDF-Seite positioniert. Anstelle von Linien und Text, die für den Computer als solche erkennbar sind, enthalten eingescannte PDF-Dateien also nur ein Raster aus Punkten, die Linien und Text repräsentieren. Folglich haben sie weder Linien, an denen Inhalte ausgerichtet werden können, noch Text, der ausgewählt oder durchsucht werden kann.

Wenn Sie herausfinden wollen, ob es sich bei einer PDF-Datei um ein Rasterbild oder einen Scan handelt, müssen Sie sie in der Bildschirmansicht stark vergrößern. Dann erscheinen die Linien und Zeichen auf der Seite entweder als Raster aus rechteckigen Punkten, oder sie verschwimmen.

Vektor

In einer vektorbasierten PDF-Datei werden sämtliche geometrischen Elemente auf der Seite mit Liniensegmenten definiert. PDF-Dateien, die mit CAD-Programmen erstellt wurden, sind in den meisten Fällen vektorbasiert. Vektor-PDFs sind Raster-PDFs in aller Regel vorzuziehen, weil sie mehr Daten enthalten und sich daher besser bearbeiten lassen. Wenn irgend möglich, sollten Sie lieber mit Vektor-PDFs arbeiten, die direkt aus der Ausgangsdatei erstellt wurden, statt PDFs aus eingescannten Dokumenten zu erstellen.

vektorbasierte PDF-Dateien haben u. a. den Vorteil, dass die geometrischen Elemente auch beim Vergrößern einzelner Details einer Zeichnung scharf dargestellt werden. Mithilfe der Funktion „Am Inhalt ausrichten“ sind in einer vektorbasierten PDF-Datei präzise Messungen und Materialberechnungen (einschließlich ihrer Kalibrierung) möglich.

Text

In PDF-Dateien ist Text ein eigenständiger Inhaltstyp. So können Sie nicht automatisch davon ausgehen, dass es sich bei Textzeichen in PDF-Dateien tatsächlich um PDF-Textelemente handelt. Es kann auch sein, dass sie aus Rasterpunkten oder vektoriellen Liniensegmenten bestehen. Diese Elemente sehen zwar aus wie Text, enthalten jedoch nicht die Daten, die sie für den Computer als Text erkennbar machen. Insofern handelt es sich eigentlich nicht um Texte, sondern um Bilder, die sich weder auswählen noch durchsuchen lassen.

Um keine weitere Verwirrung zu stiften, bezieht sich die Bezeichnung „Zeichen“ im Folgenden auf Text im allgemeinen Sinn. Als „Text“ werden nur PDF-Textelemente bezeichnet, also Text, der für den Computer als solcher erkennbar ist.

Mit einem einfachen Test können Sie feststellen, ob Ihre PDF-Datei Text enthält. Klicken Sie in der Menüleiste auf Bearbeiten > Auswählen > Gesamten Text auswählen. Alle in Ihrer PDF-Datei enthaltenen Textelemente (einschließlich OCR, siehe unten) werden nun blau hervorgehoben. Wenn Zeichen nicht hervorgehoben werden, handelt es sich um raster- bzw. vektorbasiert Bilder.

Hervorgehobener Text
  1. PDF-Textelemente (echter Text) – Für PDFs immer vorzuziehen, da sich Inhalte dadurch besser bearbeiten lassen. PDF-Dateien, die aus textbasierten Programmen wie Word® und Excel® erstellt werden, enthalten so gut wie immer echten Text. Beim Vergrößern sehen die Zeichenränder immer scharf und sauber aus, auch wenn Sie noch so nahe heranzoomen. Der Text kann immer durchsucht und ausgewählt werden.
  2. Mithilfe der optischen Zeichenerkennung (OCR) können gescannte PDF-Dokumente in durchsuchbare Daten umgewandelt werden. OCR übersetzt sozusagen die Bilder in einer eingescannten PDF-Datei und legt dann eine unsichtbare Textschicht darüber. Dadurch wird es möglich, Bilder, die keinen Text enthalten, zu durchsuchen, auszuwählen und zu markieren.
  3. Vektorbasierte Zeichen – Die Form der einzelnen Zeichen wird mit Liniensegmenten gezeichnet. Dies betrifft vor allem PDF-Dateien, die mit CAD-Programmen (zumeist AutoCAD®) erstellt wurden oder Schriftarten enthalten, die nicht zu den TrueType-Schriften gehören.
    • Warum verwenden CAD-Programme nicht einfach TrueType-Schriften zum Erstellen von Text? Das liegt daran, dass es AutoCAD bereits vor Macintosh®, Windows® und TrueType-Schriften gab. Die Programmierer mussten damals eigene Systemschriften entwickeln, die als SHX-Schriften bezeichnet werden. SHX-Schriften werden aus Liniensegmenten aufgebaut. Diese Liniensegmente werden anstelle von Textdaten in die PDF-Datei übernommen.
    • Zum Erstellen von PDF-Dateien sind TrueType-Fonts in CAD-Programmen vorzuziehen. Das Bluebeam-Zusatzmodul für Auto CAD konvertiert TrueType-Schriftarten automatisch in durchsuchbaren Text.
    • Vektor-Zeichen weisen beim Vergrößern klumpige Konturen auf. Diese Klümpchen werden durch die Liniensegmente verursacht, aus denen die einzelnen Zeichen zusammengesetzt sind.
    • In Grafikprogrammen wie Adobe Illustrator® werden Zeichen ebenfalls aus Vektoren zusammengesetzt. Hier sehen die Ränder beim Vergrößern der Bildschirmansicht jedoch scharf und sauber aus.
  4. Rasterbasierte Zeichen – Wie bereits erläutert, besteht jedes Zeichen aus einzelnen Pixeln.
Von oben nach unten: Text-, vektor- und rasterbasierte Zeichen

Related Articles