Raster, vektor og tekst – hvad er der egentlig i min PDF-fil?

Oversigt

Sådan finder du ud af, om din PDF-fil er raster- eller vektorbaseret, og hvordan dette påvirker muligheden for at fastgøre til et objekt eller vælge tekst.

Relevante produkter

Revu® til Windows® og Revu til Mac®


Problem

  • Du kan ikke fastgøre til et objekt, når du foretager opmålinger.
  • Du kan ikke vælge eller søge efter tekst.

Hvorfor sker dette?

Begge dele sker, fordi ikke alle PDF-filer er skabt på samme måde. Nogle PDF-filer indeholder flere oplysninger end andre, selvom de ser ens ud ved første øjekast.

Siden ser måske ud til at indeholde linjer og tegn, men underliggende elementer, der repræsenterer dem i PDF-filen er måske ikke vektorlinjer og tekstelementer, der er nødvendige for at fastgøre til indhold og søge og vælge tekst.

Raster- vs. vektorindhold

Lad os kigge på forskellen mellem raster- og vektorindhold i en PDF-fil.

PDF-fil med raster PDF-fil med vektor

Raster

Et rasterbillede er oprettet fra en serie af firkantede prikker kaldet pixels. Et eksempel på en PDF-fil med raster er en fil oprettet fra et indscannet ark papir. En scannet PDF-fil oprettes ved at lave et bitmap-billede (som et JPEG eller TIFF) af siden og placere billedet på PDF-siden. Dette betyder, at en scannet PDF eller PDF med raster kun indeholder et gitter af prikker, der repræsenterer linjer og tekst. Den indeholder rent faktisk ikke linjer eller tekst, som en computer kan genkende. Der er derfor ingen linjer, som funktionen Fastgør til indhold kan fastgøre til og ingen tekst at vælge eller søge i.

Find ud af, om en PDF-fil er et rasterbillede eller scanning ved at zoome helt tæt på. Linjerne eller tegnene på siden ændres enten til et gitter med firkantede prikker eller bliver sløret.

Vektor

En vektorbaseret PDF-fil bruger linjesegmenter til at definere al geometrien på siden. De fleste PDF-filer oprettet fra CAD (Computer-Aided Design) er vektor-baserede. PDF-filer med vektor er normalt at foretrække i forhold til PDF-filer med raster, da de indeholder flere data, der gør det nemmere at arbejde med filen. Du bør normalt altid prøve at arbejde med PDF-filer med vektor oprettet fra kilden i stedet for at oprette PDF-filer fra indscanninger.

Fordelen ved at arbejde med en PDF-fil med vektor er, at visningen af geometrien forbliver skarp, når du zoomer ind for at se tegningens detaljer. Derfor er opmålinger og materialeforbrug (samt kalibrering) nøjagtigt i en PDF-fil med vektor, da du kan bruge Fastgør til indhold til at fastgøre til vektorlinjerne i PDF-filen.

Tekst

Tekst er en uafhængig indholdstype i PDF-filer. Du kan se teksttegn i PDF-filen, men disse tegn er ikke nødvendigvis PDF-tekstelementer. De kan i stedet for være defineret af raster-prikker eller vektor-linjeelementer. Selvom disse elementer ser ud til at være tekst, har de ikke dataene, der gør det muligt for en computer at genkende dem som tekst. Derfor er denne type “tekst” i bund og grund et billede, der ikke kan vælges eller søges i.

For at undgå forvirring henviser “tegn” til tekst i al almindelighed, mens “tekst” henviser til PDF-tekstelementer eller “rigtig tekst”.

Inden vi går i detaljer, findes der en hurtig test til at finde ud af, om din PDF-fil indeholder tekst. Fra menulinjen skal du gå til Rediger > Vælg > Vælg al tekst, og al tekst i PDF-filen (både tekst og OCR-tekst, mere om dette senere) fremhæves med blåt. Hvis tegnene ikke fremhæves, er de enten et raster- eller vektor-billede.

Fremhævet tekst
  1. PDF-tekstelementer (eller rigtig tekst) – foretrækkes altid i PDF-filer, da det giver indhold, der reagerer mere. PDF-filer, der er oprettet fra tegnbaserede programmer (f.eks. Word® og Excel®), opretter næsten altid PDF-filer, der indeholder rigtig tekst. Når du zoomer ind på teksten, er enderne på tegnene altid skarpe og tydelige – uanset hvor meget du zoomer ind. Det er muligt at søge i teksten, og den kan altid vælges.
  2. Optical Character Recognition (OCR)-tekst – kørsel af OCR (kun til Revu eXtreme) giver mulighed for at oversætte raster- og vektorbilleder til søgbare data. ICR fortolker med andre ord billederne i en scannet PDF-fil og opretter et usynligt tekstlag oven på dem. Dette lag er det, der gør det muligt at søge, vælge og fremhæve billeder, der ikke indeholder rigtig tekst.
  3. Vektortegn – oprettet af linjeelementer, der bruges til at tegne formen for hvert tegn. Dette sker normalt, når PDF-filen er blevet oprettet fra CAD (ofte AutoCAD®), eller der bruges en skrifttype, der ikke er TrueType.
    • Hvorfor bruger CAD ikke TrueType-skrifttyper til at oprette rigtig tekst? Svaret er, fordi AutoCAD kom før Macintosh®, Windows® og TrueType-skrifttyper. De var nødt til, at lave deres eget skrifttypesystem kaldet SHX-skrifttyper. SHX-skrifttyper er defineret vha. linjesegmenter. Disse linjesegmenter oversættes i PDF-filen i stedet for tekstdata.
    • Det foretrækkes at bruge TrueType-skrifttyper i CAD til at oprette PDF-filer. Bluebeam-plugin’et til AutoCAD konverterer automatisk TrueType-skrifttyper til søgbar test.
    • Vektortegn kan genkendes på deres ujævne udseende, når der zoomes ind. Disse ujævnheder oprettes af de linjesegmenter, der udgør hvert tegn.
    • Grafiske designprogrammer (f.eks. Adobe Illustrator®) opretter også vektortegn. Disse vektortegn har dog tydelige, skarpe kanter, når der zoomes ind.
  4. Rastertegn –individuelle pixels bruges som nævnt tidligere til at definere hvert tegn.
Eksempler på tegn, der er henholdsvis tekst, vektor og raster.

Related Articles