Per què copiar des de PDF surt malament?

Per Ernest Vidal Clavé, fundador d’Insert My Comments

1. La il·lusió del text: per què veiem una cosa que no està “escrita”

En obrir un PDF en pantalla, tot sembla normal: un text ordenat en paràgrafs, amb títols, columnes, cites… fins i tot subratllats o notes al peu. El que veiem sembla un document editable, com si fos Word o Google Docs. Però no ho és.

El PDF no va ser dissenyat per ser una font de text. Va ser dissenyat per preservar l’aspecte visual d’un document, no la seva estructura lògica. Internament, no existeix una noció clara de paràgraf, ni de lectura en ordre. El que veus com un text continu pot estar fragmentat en desenes d’instruccions de dibuix, disperses en l’arxiu, cadascuna amb la seva font, la seva mida i la seva posició en coordenades XY.

Copiar des d’un PDF, per tant, no és copiar text: és reconstruir una il·lusió. Sovint, aquesta il·lusió es trenca tan bon punt enganxem el que hem copiat en un altre entorn. Apareixen salts de línia inesperats, paraules partides, caràcters estranys. No perquè hi hagi “errors”, sinó perquè mai no hi va haver realment una estructura textual per copiar.

El PDF és com una postal: pots llegir el que hi ha imprès, però no pots separar les lletres del cartró.

2. Quan l’“error” és la petjada de l’arquitectura del PDF

Les distorsions que apareixen en copiar o exportar un PDF —salts de línia indesitjats, signes estranys, frases barrejades— no són errors casuals. Són el senyal de tres capes internes superposades que conformen qualsevol document PDF:

Capa interna	Què controla	Síntoma en extreure
2.1 Fragmentació visual	Com es reparteix el text sobre la pàgina (coordenades, guions, sagnats)	Paraules partides, paràgrafs mal tallats
2.2 Codificació i mapa de glifs	Quins codis Unicode —o no Unicode— s’assignen a cada lletra	Espais invisibles, “caràcters brossa”, fonts PUA
2.3 Disposició lògica	En quin ordre “es llegeixen” els blocs (files de taula, columnes, notes)	Columnes barrejades, taules desordenades, RTL invertit

Cada capa resol un problema diferent per al dissenyador de la pàgina; juntes expliquen per què el text que veiem no coincideix amb el text que copiem.

A continuació examinem breument cadascuna d’elles.

A. Fragmentació visual induïda per la maquetació

En un PDF no existeixen “paràgrafs” en sentit lògic: el que hi ha són desenes (o centenars) de fragments de text posicionats amb coordenades X-Y, cadascun dibuixat com si fos una petita enganxina sobre el llenç de la pàgina. Aquesta arquitectura purament gràfica provoca cinc símptomes característics quan intentem extreure el contingut:

Salts de línia que es converteixen en salts de paràgraf
L'extractor insereix un caràcter de “final de paràgraf” cada vegada que la coordenada Y canvia més d’un llindar: lectura perfecta per a la pantalla, desastre per al flux de text.
Paràgrafs reals fusionats en un únic bloc
El contrari també passa: si els blocs successius són molt propers, l’algoritme assumeix que són una sola línia contínua i uneix el que eren dos o més paràgrafs diferents.
Guions de final de línia conservats com a part de la paraula
La maquetació original insereix un guió visible o un soft hyphen per dividir la paraula. En copiar, el guió viatja amb el text o queda ocult com a U+00AD, trencant cerques i concordances.
Sagnats i vinyetes que generen falsos retorns de carro
Les llistes amb sagnat es componen sovint com dos objectes separats: el marcador (•, -, 1.) i la línia de text. L'extractor hi afegeix un salt abans o després del marcador en no poder agrupar-los.
Ligadures mal decodificades dins del flux
Encara que la ligadura “fi” o “fl” és un sol glif, en el PDF es col·loca com una altra enganxina independent. Alguns extractors no la mapegen com “f” + “i” i l’eliminen, deixant paraules escurçades.

En conjunt, aquests cinc fenòmens formen la capa de “fragmentació visual”: el text es veu continu, però la seva representació interna està trossejada per decisions de disseny (columnes, guions, vinyetes, interlineat). En copiar o exportar, el que aflora no és un error del visor, sinó la conseqüència lògica d’aquest model purament gràfic.

B. Codificació ambigua i manipulació interna del text

Un PDF pot mostrar-se impecable en pantalla i, tanmateix, contenir un codi textual profundament alterat. La causa és que el format permet mapar cada glif a qualsevol valor Unicode —o fins i tot a cap—, incrustar diverses capes de text superposades, o substituir fragments per simples vectors. D’aquí en sorgeixen els següents fenòmens, igualment habituals i corrosius per a qualsevol intent d’extracció fiable:

Paraules fusionades per absència d’espais reals
Alguns creadors de PDF eliminen el caràcter d’espai i confien en la posició X-Y per “dibuixar” la separació. En copiar, les paraules s’enganxen entre elles sense remei.
Text il·legible o “caràcters brossa”
Quan una font incrustada utilitza un mapa intern no estàndard, cada glif s’associa a un codi arbitrari. El resultat en copiar pot ser una cadena de símbols inconnexos (✓,®,¤) en lloc del text original.
Caràcters invisibles que trenquen la cerca
Guions suaus, espais de zero amplada o no separables s’insereixen per controlar la composició. Copiats al porta-retalls, divideixen paraules o bloquegen concordances sense que l’usuari ho vegi.
Fonts amb codificació personalitzada (PUA) que anul·len el mapeig Unicode
En lloc d’assignar “a” al codi U+0061, un PDF pot assignar-la a un punt de l’Àrea Privada d’Unicode. El visor reprodueix la forma correcta, però en copiar es recupera un codi estrany, il·legible per a qualsevol cercador.
Text convertit en vectors o imatges
Per assegurar la fidelitat visual —o impedir la còpia—, el creador pot traçar cada lletra com un contorn o, directament, rasteritzar el paràgraf. Als ulls de l’extractor, allí ja no hi ha text per recuperar.
Capes duplicades després d’un OCR innecessari
En aplicar OCR sobre un PDF que ja contenia text digital, alguns programes afegeixen una segona capa “fantasma”. El resultat són frases repetides o barrejades en exportar.
Alteracions deliberades per dificultar la còpia
Certs documents de pagament utilitzen scripts JavaScript, glifs substituïts o salts d’ordre lògic perquè el text copiat perdi el sentit; és un “antibots” casolà però efectiu.

En conjunt, aquests mecanismes conformen la capa de codificació ambigua: el text existeix, però la seva representació està distorsionada, duplicada o empaquetada en formes que un extractor convencional no entén. Copiar en brut és, aquí, traduir un idioma que no segueix les regles d’Unicode ni de la lectura humana.

C. Disposició no lineal i reordenació errònia del contingut

La posició gràfica dicta la lectura en un PDF. Quan aquesta disposició és complexa —taules, columnes, encapçalaments, notes— l’extractor ha de deduir què va primer i sovint s’equivoca. Aquests són els errors més freqüents:

Taules llegides per columnes en lloc de per files
Cada cel·la de la columna 1 es concatena amb la de la columna 1 de la fila següent (columna-major), de manera que el resultat és “Col-0 Fil-0, Col-0 Fil-1, Col-1 Fil-0, Col-1 Fil-1…”. L’ordre per registres horitzontals es perd i la informació de la taula queda descomposta.
Barreja de fragments per invasió de columnes adjacents
En pàgines a dues columnes, si l’intercolumnat és estret, la darrera línia de la columna esquerra “salta” a la dreta o viceversa, generant frases ensamblades amb parts de columnes diferents.
Encapçalaments, peus i notes que irrompen al mig del cos
Elements perifèrics —número de pàgina, títol de capçalera, crida de nota— s’insereixen on la seva coordenada X-Y els situa, interrompent el discurs principal.
Ordre invertit en escriptures bidireccionals (RTL)
En àrab o hebreu, alguns extractors apliquen malament l’algoritme Bidi: les seqüències es llegeixen d’esquerra a dreta i les ligadures es desfan, invertint-ne el significat.
Salts verticals mal interpretats com a límits de cel·la o columna
Un espai per airejar el disseny es confon amb un divisor semàntic; el text següent es considera nova columna i canvia d’ordre.
Paràgrafs desordenats per salts de pàgina mal gestionats
Si la darrera línia d’una pàgina i la primera de la següent formen una frase, la conversió pot invertir-les o duplicar-les.
Numeracions de títols confoses amb llistes
“1 Introducció”, “2 Metodologia” s’interpreten com a ítems de llista; l’extractor reagrupa el contingut a sota, alterant la jerarquia del document.

En conjunt, aquests fenòmens conformen la capa de disposició no lineal: el text sembla continu, però els blocs que el composen estan reposicionats o barrejats en extreure’ls, dificultant qualsevol anàlisi o cerca posterior.

3. Guia pràctica: quina eina utilitzar segons el problema

No tots els errors es resolen igual. Algunes eines estan especialitzades a netejar guions i lligadures; d’altres, a rescatar taules, reconstruir l’estructura lògica o extreure només les anotacions. El més important és identificar quin tipus de distorsió té el PDF —fragmentació visual, codificació errònia o disposició desordenada— i aplicar l’eina més adequada per a aquest cas.

La següent guia pràctica ofereix una orientació ràpida segons el símptoma detectat.

Taules que es barregen o es llegeixen malament?

👉 Tabula, Camelot o PDFTables permeten extreure taules en format net (CSV, Excel), evitant que les files es desordenin o es barregin columnes veïnes. Camelot ofereix més control tècnic si el PDF és complex.

Text amb errors visuals en copiar (guions, lligadures, símbols estranys)?

👉 PDFlib TET i Apryse PDF2Text detecten guions de final de línia, lligadures tipogràfiques o caràcters invisibles i els corregeixen automàticament. Ideals per a neteges massives i resultats fidels.

Text que no es pot seleccionar perquè està convertit en imatge?

👉 ABBYY FineReader aplica OCR d’alta precisió i reconstrueix el contingut com a text editable, mantenint el disseny original. També és útil si el PDF conté text duplicat per capes superposades.

Només necessites extreure els comentaris o els textos ressaltats?

👉 Foxit Reader i Sumnotes permeten exportar únicament el que està ressaltat o anotat, sense copiar la resta del contingut. Molt útil si el cos del text està corrupte o mal ordenat.

Vols inserir els comentaris del PDF directament al document font?

👉 InsertMyComments.com va un pas més enllà: en lloc d’exportar els comentaris, els insereix automàticament al document font (Word, Markdown…), respectant la gramàtica i la ubicació originals. Ideal per a autors, editors o correctors que treballen amb documents llargs o tècnics.

Busques una solució completa però no màgica?

👉 Adobe Acrobat Pro intenta recompondre el flux de lectura i conservar el format, però no sempre resol bé columnes complexes ni guions ocults. Serveix per a casos moderats amb bona estructura interna.

Només vols el text en brut, ràpid i sense floritures?

👉 pdftotext (Poppler) extreu el contingut pla de forma scriptable i ràpida. Perfecte per a lots, encara que ignora notes, taules i estructura.

Necessites netejar el text extret de guions ocults o símbols estranys?

👉 qpdf + iconv scripts ajuden a eliminar caràcters invisibles i normalitzar la codificació. Útil com a pas intermedi en fluxos tècnics.

4. Conclusió

Els errors en copiar text des d’un PDF no són fallades anecdòtiques, sinó conseqüències previsibles de com està construït aquest format. Comprendre les capes internes que els provoquen —visual, codificació, lògica— permet no només diagnosticar millor els símptomes, sinó escollir amb criteri l’eina més adequada per a cada situació. No hi ha una solució universal, però sí combinacions eficaces segons el tipus de distorsió. Aquest text és una guia inicial per orientar-se en aquest terreny tècnic, sovint invisible, però fonamental en qualsevol flux de treball documental.