Insert My Comments ← Volver al blog

Trampas del PDF · PDF comentado → fuente editable

Por qué pegar desde PDF sale mal

Copiar desde un PDF no siempre es copiar texto. A veces es desmontar una página visual y pedirle que se comporte como un documento editable.

En pantalla parece sencillo.

Ves una página ordenada: líneas, columnas, palabras, tablas, notas, títulos, pies, números. Seleccionas una frase, copias, pegas.

Y entonces aparece el pequeño desastre.

El PDF parece texto, pero muchas veces es página

El problema está antes del portapapeles.

Un PDF no siempre guarda el contenido como lo guarda Word, XML, HTML o un documento fuente editable. Guarda una composición visual: posiciones, cajas, líneas, glifos, fragmentos.

Tú ves una frase. El archivo puede guardar piezas colocadas en una página.

Por eso copiar desde PDF no siempre significa extraer una frase limpia. A veces significa reconstruir una ilusión visual.

No falla solo el copiar y pegar

Esto no ocurre únicamente cuando usas Ctrl+C y Ctrl+V.

También puede pasar cuando exportas un PDF a Word. O cuando usas un conversor online. O cuando una herramienta de Adobe intenta reconstruir el documento. O cuando una librería técnica extrae texto con Python u otro sistema.

Cada camino tiene sus trampas.

El exportador puede inventar cajas, estilos, saltos o columnas. El conversor puede ordenar mal bloques de texto. La extracción técnica puede leer coordenadas, glifos y posiciones, pero no entender la página como la entiende una persona.

El PDF no siempre te entrega el texto que ves. Te entrega el texto que puede reconstruir.

Por qué esto importa al aplicar comentarios

Todo esto sería solo una molestia si el objetivo fuera pegar un párrafo en otro sitio.

Pero cuando trabajas con comentarios de revisión, el problema se vuelve mucho más delicado.

Si copias una selección del PDF para buscarla con Ctrl+F en el documento fuente, quizá no estás buscando la frase real. Estás buscando una versión deformada de la frase.

Ejemplo simple

Lo que puede llegar desde el PDF

revi-
sión editorial

Lo que vive en el fuente

revisión editorial

Visualmente sabes que es lo mismo.

El buscador no siempre.

Por eso pegar desde PDF sale mal por la misma razón por la que buscar desde PDF puede fallar: antes de comparar PDF y fuente, alguien ha tenido que convertir una página visual en texto comparable.

El criterio IMC

Insert My Comments no puede tratar el texto que viene del PDF como si fuera una verdad limpia.

Tiene que normalizar, comparar con cuidado y sospechar de lo que parece obvio: guiones que quizá no son guiones reales, espacios que no son espacios normales, columnas que visualmente estaban separadas pero técnicamente llegan mezcladas.

El problema no empieza cuando pegas mal.

Empieza antes: cuando el PDF te hace creer que estás copiando texto, pero en realidad estás desmontando una página.