Raster, vektor och text – vad innehåller egentligen min PDF?

Sammanfattning

Så här avgör du om din PDF är raster- eller vektorbaserad och hur detta påverkar förmågan att fästa mot ett objekt eller välja text.

Relevanta produkter

Revu® för Windows® och Revu för Mac®


Problem

  • Du kan inte fästa mot ett objekt när du gör mätningar.
  • Du kan inte välja eller söka efter text.

Varför händer detta?

Anledningen till att problemen inträffar beror på att PDF:erna inte har skapats på samma sätt. Vissa PDF:er innehåller mer information än andra, även om det inte går att se skillnad på dem först.

Det kan se ut som att sidan innehåller linjer och tecken, men det är inte säkert att de underliggande delarna som representerar dem i PDF:en är vektorlinjer och textdelar, vilka behövs för att fästa mot innehåll och söka efter samt välja text.

Jämförelse av raster- och vektorinnehåll

Låt oss titta på skillnaden mellan raster- och vektorinnehåll i en PDF.

Raster-PDF Vektor-PDF

Raster

En rasterbild skapas från en rad fyrkantiga punkter som kallas pixlar. Ett exempel på en raster-PDF är en fil som skapats genom att man skannat ett papper. En skannad PDF skapas genom att en bitmap-bild (en JPEG eller TIFF) görs av sidan och placeras på PDF-sidan. Det innebär att en skannad PDF eller raster-PDF endast innehåller ett rutnät av punkter som representerar linjer och text; den innehåller inte linjer och text som en dator kan känna igen. Därför finns det inga linjer för Fäst mot innehåll-funktionen att fästa mot, och ingen text att välja eller söka i.

För att avgöra om en PDF är en rasterbild eller skannad bild zoomar du in nära. Linjerna och tecknen på sidan ändras antingen till ett rutnät av fyrkantiga punkter eller blir suddiga.

Vektor

En vektorbaserad PDF använder linjesegment för att definiera all geometri på sidan. De flesta PDF:er som skapas från CAD (Computer-Aided Design) är vektorbaserade. Vektor-PDF:er är oftast att föredra framför raster-PDF:er eftersom de innehåller mer data, vilket gör dem enklare att arbeta med. Du bör alltid försöka arbeta med vektor-PDF:er som skapats från källan istället för att skapa PDF:er från skanning.

Fördelen med en vektor-PDF är att geometrin blir tydlig även när du zoomar in för att se detaljer i ritningen. Mätningar och materialberäkningar (samt kalibreringen av dessa) är precisa i en vektor-PDF, eftersom att du kan använda Fäst mot innehåll för att fästa mot vektorlinjerna i PDF:en.

Text

Text är en oberoende innehållstyp i PDF:er. Du kan se text i PDF:en, men det betyder inte att tecknen är PDF-textelement. Texten kan istället bestå av rasterpunkter eller vektorlinjesegment. Även om dessa delar ser ut som text innehåller de inte de data som gör att en dator känner igen dem som text. Den här typen av ”text” är därmed en bild som man inte kan välja eller söka i.

För att undvika förvirring hänvisar ”tecken” till text i allmänhet medan ”text” hänvisar till PDF-textelement, eller ”riktig text”.

Innan vi går in på detaljer kan du genomföra ett snabbt test för att avgöra om din PDF innehåller text. Från menyraden går du till Redigera > Välj > Välj all text. All text i PDF:en (både text och OCR-text, mer om detta senare) markeras då som blå. Om tecknen inte markeras i blått är de antingen en raster- eller vektorbild.

Markerad text
  1. PDF-textelement (eller riktig text) är alltid att föredra i PDF:er för ett innehåll som svarar bättre. PDF:er som skapats från teckenbaserade program (t.ex. Word® och Excel®) skapar nästan alltid PDF:er som innehåller riktig text. När du zoomar in på texten ser kanterna på tecknen alltid klara och tydliga ut – oavsett hur mycket du zoomar in. Texten är sökbar och kan alltid väljas.
  2. Optisk teckenläsning (OCR) – om du kör OCR (endast för Revu eXtreme) översätts raster- och vektorbilder till sökbara data. Med andra ord så tolkar OCR bilderna i en skannad PDF och skapar ett osynligt textlager ovanpå dem. Det här lagret gör att du kan söka i, välja och markera bilder som egentligen inte innehåller något riktig text.
  3. Vektortecken – skapas av linjesegmenten som används för att formge varje tecken. Detta inträffar vanligtvis när PDF:en har skapats från CAD (ofta AutoCAD®) eller om ett annat teckensnitt än ett True Type-teckensnitt används.
    • Varför använder inte CAD True Type-teckensnitt för att skapa riktig text? Det beror på att AutoCAD föregick Macintosh®-, Windows®– och True Type-teckensnitt. De behövde skapa sina egna teckensnittssystem, så kallade SHX-teckensnitt. SHX-teckensnitt definieras med linjesegment. Dessa linjesegment översätts till PDF:en istället för textdata.
    • True Type-teckensnitt i CAD är att föredra när du skapar PDF:er. Bluebeam-pluginprogrammet för AutoCAD konverterar automatiskt True Type-teckensnitt till sökbar text.
    • Vektortecken kännetecknas av ett ojämnt utseende om man zoomar in på dem. Dessa ojämnheter skapas av linjesegmenten som varje tecken består av.
    • Program för grafisk formgivning (t.ex. Adobe Illustrator®) skapar också vektortecken. Men dessa vektortecken har tydliga, skarpa kanter om man zoomar in på dem.
  4. Rastertecken använder – som tidigare nämnts – enskilda pixlar för att definiera varje tecken.
Exempel på tecken i text, vektor och raster.

Related Articles