Trampas del PDF · PDF comentado → fuente editable
Por qué pegar desde PDF sale mal
Copiar desde un PDF no siempre es copiar texto. A veces es desmontar una página visual y pedirle que se comporte como un documento editable.
En pantalla parece sencillo.
Ves una página ordenada: líneas, columnas, palabras, tablas, notas, títulos, pies, números. Seleccionas una frase, copias, pegas.
Y entonces aparece el pequeño desastre.
- Saltos de línea donde no tocaba.
- Palabras partidas.
- Guiones de final de línea.
- Columnas mezcladas.
- Espacios invisibles.
- Ligaduras raras.
- Tablas convertidas en una fila imposible.
- Un orden de lectura que nadie habría leído así.
El PDF parece texto, pero muchas veces es página
El problema está antes del portapapeles.
Un PDF no siempre guarda el contenido como lo guarda Word, XML, HTML o un documento fuente editable. Guarda una composición visual: posiciones, cajas, líneas, glifos, fragmentos.
Tú ves una frase. El archivo puede guardar piezas colocadas en una página.
Por eso copiar desde PDF no siempre significa extraer una frase limpia. A veces significa reconstruir una ilusión visual.
No falla solo el copiar y pegar
Esto no ocurre únicamente cuando usas Ctrl+C y Ctrl+V.
También puede pasar cuando exportas un PDF a Word. O cuando usas un conversor online. O cuando una herramienta de Adobe intenta reconstruir el documento. O cuando una librería técnica extrae texto con Python u otro sistema.
Cada camino tiene sus trampas.
El exportador puede inventar cajas, estilos, saltos o columnas. El conversor puede ordenar mal bloques de texto. La extracción técnica puede leer coordenadas, glifos y posiciones, pero no entender la página como la entiende una persona.
El PDF no siempre te entrega el texto que ves. Te entrega el texto que puede reconstruir.
Por qué esto importa al aplicar comentarios
Todo esto sería solo una molestia si el objetivo fuera pegar un párrafo en otro sitio.
Pero cuando trabajas con comentarios de revisión, el problema se vuelve mucho más delicado.
Si copias una selección del PDF para buscarla con Ctrl+F en el documento fuente, quizá no estás buscando la frase real. Estás buscando una versión deformada de la frase.
Ejemplo simple
Lo que puede llegar desde el PDF
revi- sión editorial
Lo que vive en el fuente
revisión editorial
Visualmente sabes que es lo mismo.
El buscador no siempre.
Por eso pegar desde PDF sale mal por la misma razón por la que buscar desde PDF puede fallar: antes de comparar PDF y fuente, alguien ha tenido que convertir una página visual en texto comparable.
El criterio IMC
Insert My Comments no puede tratar el texto que viene del PDF como si fuera una verdad limpia.
Tiene que normalizar, comparar con cuidado y sospechar de lo que parece obvio: guiones que quizá no son guiones reales, espacios que no son espacios normales, columnas que visualmente estaban separadas pero técnicamente llegan mezcladas.
El problema no empieza cuando pegas mal.
Empieza antes: cuando el PDF te hace creer que estás copiando texto, pero en realidad estás desmontando una página.