¿Por qué copiar desde PDF sale mal?

Por Ernest Vidal Clavé, fundador de Insert My Comments

1. La ilusión del texto: por qué vemos algo que no está “escrito”

Al abrir un PDF en pantalla, todo parece normal: un texto ordenado en párrafos, con títulos, columnas, citas… incluso subrayados o notas al pie. Lo que vemos parece un documento editable, como si fuera Word o Google Docs. Pero no lo es.

El PDF no fue diseñado para ser una fuente de texto. Fue diseñado para preservar el aspecto visual de un documento, no su estructura lógica. Internamente, no existe una noción clara de párrafo, ni de lectura en orden. Lo que ves como un texto continuo puede estar fragmentado en decenas de instrucciones de dibujo, dispersas en el archivo, cada una con su fuente, su tamaño y su posición en coordenadas XY.

Copiar desde un PDF, por tanto, no es copiar texto: es reconstruir una ilusión. A menudo, esa ilusión se rompe en cuanto pegamos lo copiado en otro entorno. Aparecen saltos de línea inesperados, palabras partidas, caracteres extraños. No porque haya “errores”, sino porque nunca hubo realmente una estructura textual que copiar.

El PDF es como una postal: puedes leer lo que está impreso, pero no puedes separar las letras del cartón.

2. Cuando el “error” es la huella de la arquitectura del PDF

Las distorsiones que aparecen al copiar o exportar un PDF —saltos de línea indeseados, signos extraños, frases mezcladas— no son fallos casuales. Son la señal de tres capas internas superpuestas que conforman cualquier documento PDF:

Capa interna	Qué controla	Síntoma al extraer
2.1 Fragmentación visual	Cómo se reparte el texto sobre la página (coordenadas, guiones, sangrías)	Palabras partidas, párrafos mal cortados
2.2 Codificación y mapa de glifos	Qué códigos Unicode —o no Unicode— se asignan a cada letra	Espacios invisibles, “garbage characters”, fuentes PUA
2.3 Disposición lógica	En qué orden “se leen” los bloques (filas de tabla, columnas, notas)	Columnas mezcladas, tablas desordenadas, RTL invertido

Cada capa resuelve un problema distinto para el diseñador de la página; juntas explican por qué el texto que vemos no coincide con el texto que copiamos.

A continuación examinamos brevemente cada una de ellas.

A. Fragmentación visual inducida por la maquetación

En un PDF no existen “párrafos” en sentido lógico: lo que hay son decenas (o cientos) de fragmentos de texto posicionados con coordenadas X-Y, cada uno dibujado como si fuera una pequeña pegatina sobre el lienzo de la página. Esa arquitectura puramente gráfica provoca cinco síntomas característicos cuando intentamos extraer el contenido:

Saltos de línea que se convierten en saltos de párrafo
El extractor inserta un carácter “fin de párrafo” cada vez que la coordenada Y cambia más de un umbral: lectura perfecta para la pantalla, desastre para el flujo de texto.
Párrafos reales fusionados en un único bloque
Lo opuesto también ocurre: si los bloques sucesivos están muy próximos, el algoritmo asume que son una sola línea continua y une lo que eran dos o más párrafos distintos.
Guiones de final de línea conservados como parte de la palabra
La maquetación original inserta un guion visible o un soft hyphen para dividir la palabra. Al copiar, el guion viaja con el texto o queda oculto como U+00AD, rompiendo búsquedas y concordancias.
Sangrías y viñetas que generan falsos retornos de carro
Las listas con sangría se componen muchas veces como dos objetos separados: el marcador (•, -, 1.) y la línea de texto. El extractor añade un salto antes o después del marcador al no poder agruparlos.
Ligaduras mal decodificadas dentro del flujo
Aunque la ligadura “fi” o “fl” es un solo glifo, en el PDF se sitúa como otra pegatina independiente. Algunos extractores no la mapean a “f” + “i” y la eliminan, dejando palabras cercenadas.

En conjunto, estos cinco fenómenos forman la capa de “fragmentación visual”: el texto se ve continuo, pero su representación interna está troceada por decisiones de diseño (columnas, guiones, viñetas, interlínea). Al copiar o exportar, lo que aflora no es un fallo del visor, sino la consecuencia lógica de ese modelo puramente gráfico.

B. Codificación ambigua y manipulación interna del texto

Un PDF puede mostrarse impecable en pantalla y, sin embargo, contener un código textual profundamente alterado. La causa es que el formato permite mapear cada glifo a cualquier valor Unicode —o incluso a ninguno—, incrustar varias capas de texto superpuestas, o sustituir fragmentos por simples vectores. De ahí surgen los siguientes fenómenos, igualmente habituales y corrosivos para cualquier intento de extracción fiable:

Palabras fusionadas por ausencia de espacios reales
Algunos creadores de PDF eliminan el carácter espacio y confían en la posición X-Y para “dibujar” la separación. Al copiar, las palabras se pegan unas a otras sin remedio.
Texto ilegible o “garbage characters”
Cuando una fuente incrustada utiliza un mapa interno no estándar, cada glifo se asocia a un código arbitrario. El resultado al copiar puede ser una cadena de símbolos inconexos (✓,®,¤) en lugar del texto original.
Caracteres invisibles que rompen la búsqueda
Guiones suaves, espacios de anchura cero o no separables se insertan para controlar la composición. Copiados al portapapeles, dividen palabras o bloquean concordancias sin que el usuario los vea.
Fuentes con codificación personalizada (PUA) que anulan el mapeo Unicode
En vez de asignar “a” al código U+0061, un PDF puede asignarla a un punto del Área Privada de Unicode. El visor reproduce la forma correcta, pero al copiar se recupera el código extraño, ilegible para cualquier buscador.
Texto convertido a vectores o imágenes
Para asegurar la fidelidad visual —o impedir la copia—, el creador puede trazar cada letra como un contorno o, directamente, rasterizar el párrafo. A ojos del extractor, allí ya no hay texto que recuperar.
Capas duplicadas tras un OCR innecesario
Al aplicar OCR sobre un PDF que ya contenía texto digital, algunos programas añaden una segunda capa “fantasma”. El resultado son frases repetidas o mezcladas al exportar.
Alteraciones deliberadas para dificultar la copia
Ciertos documentos de pago utilizan scripts JavaScript, glifos sustituidos o saltos de orden lógico para que el texto copiado pierda sentido; es un “antibots” casero pero efectivo.

En conjunto, estos mecanismos conforman la capa de codificación ambigua: el texto existe, pero su representación está distorsionada, duplicada o empaquetada en formas que un extractor convencional no entiende. Copiar en bruto es, aquí, traducir un idioma que no sigue las reglas de Unicode ni de la lectura humana.

C. Disposición no lineal y reordenación errónea del contenido

La posición gráfica dicta la lectura en un PDF. Cuando esa disposición es compleja —tablas, columnas, encabezados, notas— el extractor debe deducir qué viene primero y a menudo se equivoca. Estos son los fallos más frecuentes:

Tablas leídas por columnas en lugar de por filas
Cada celda de la columna 1 se concatena con la de la columna 1 de la fila siguiente (columna-mayor), de modo que el resultado es “Col-0 Fil-0, Col-0 Fil-1, Col-1 Fil-0, Col-1 Fil-1…”. El orden por registros horizontales se pierde y la información de la tabla queda descompuesta.
Mezcla de fragmentos por invasión de columnas adyacentes
En páginas a dos columnas, si el intercolumnado es estrecho, la última línea de la columna izquierda “salta” a la derecha o viceversa, generando frases ensambladas con partes de columnas distintas.
Encabezados, pies y notas que irrumpen en medio del cuerpo
Elementos periféricos —número de página, título de cabecera, llamada de nota— se insertan donde su coordenada X-Y los sitúa, interrumpiendo el discurso principal.
Orden invertido en escrituras bidireccionales (RTL)
En árabe o hebreo, algunos extractores aplican mal el algoritmo Bidi: las secuencias se leen de izquierda a derecha y las ligaduras se deshacen, invirtiendo el significado.
Saltos verticales mal interpretados como límites de celda o columna
Un espacio para airear el layout se confunde con un divisor semántico; el texto siguiente se considera nueva columna y cambia de orden.
Párrafos desordenados por saltos de página mal gestionados
Si la última línea de una página y la primera de la siguiente forman una frase, la conversión puede invertirlas o duplicarlas.
Numeraciones de títulos confundidas con listas
“1 Introducción”, “2 Metodología” se interpretan como ítems de lista; el extractor reagrupa el contenido debajo, alterando la jerarquía del documento.

En conjunto, estos fenómenos conforman la capa de disposición no lineal: el texto parece continuo, pero los bloques que lo componen están reposicionados o mezclados al extraer, dificultando cualquier análisis o búsqueda posterior.

3. Guía práctica: qué herramienta usar según el problema

No todos los errores se solucionan igual. Algunas herramientas están especializadas en limpiar guiones y ligaduras; otras, en rescatar tablas, reconstruir la estructura lógica o extraer solo las anotaciones. Lo importante es identificar qué tipo de distorsión tiene el PDF —fragmentación visual, codificación errónea o disposición desordenada— y aplicar la herramienta más adecuada para ese caso.

La siguiente guía práctica ofrece una orientación rápida según el síntoma detectado.

¿Tablas que se mezclan o se leen mal?

👉 Tabula, Camelot o PDFTables permiten extraer tablas en formato limpio (CSV, Excel), evitando que las filas se desordenen o se mezclen columnas vecinas. Camelot ofrece más control técnico si el PDF es complejo.

¿Texto con errores visuales al copiar (guiones, ligaduras, símbolos raros)?

👉 PDFlib TET y Apryse PDF2Text detectan guiones de final de línea, ligaduras tipográficas o caracteres invisibles y los corrigen automáticamente. Son ideales para limpieza masiva y resultados fieles.

¿Texto que no se puede seleccionar porque está convertido en imagen?

👉 ABBYY FineReader aplica OCR de alta precisión y reconstruye el contenido como texto editable, manteniendo el diseño original. También es útil si el PDF contiene texto duplicado por capas superpuestas.

¿Solo necesitas extraer los comentarios o los textos resaltados?

👉 Foxit Reader y Sumnotes permiten exportar únicamente lo que está resaltado o anotado, sin copiar el resto del contenido. Muy útil si el cuerpo del texto está corrupto o mal ordenado.

¿Quieres insertar los comentarios del PDF directamente en el documento fuente?

👉 InsertMyComments.com va un paso más allá: en lugar de exportar los comentarios, los inserta automáticamente en el documento fuente (Word, Markdown…), respetando la gramática y la ubicación original. Ideal para autores, editores o correctores que trabajan con documentos largos o técnicos.

¿Buscas una solución completa pero no mágica?

👉 Adobe Acrobat Pro intenta recomponer el flujo de lectura y conservar el formato, pero no siempre resuelve bien columnas complejas ni guiones ocultos. Sirve para casos moderados con buena estructura interna.

¿Solo quieres el texto crudo, rápido y sin adornos?

👉 pdftotext (Poppler) extrae el contenido plano de forma scriptable y veloz. Perfecto para lote, aunque ignora notas, tablas y estructura.

¿Necesitas limpiar el texto extraído de guiones ocultos o símbolos raros?

👉 qpdf + iconv scripts ayudan a eliminar caracteres invisibles y normalizar codificación. Útil como paso intermedio en flujos técnicos.

4. Conclusión

Los errores al copiar texto desde un PDF no son fallos anecdóticos, sino consecuencias previsibles de cómo está construido ese formato. Comprender las capas internas que los provocan —visual, codificación, lógica— permite no solo diagnosticar mejor los síntomas, sino elegir con criterio la herramienta más adecuada para cada situación. No hay una solución universal, pero sí combinaciones eficaces según el tipo de distorsión. Este texto es una guía inicial para orientarse en ese terreno técnico, a menudo invisible, pero fundamental en cualquier flujo de trabajo documental.