21 mayo 2006

De PDF a TXT (Texto plano)

Vamos a aprender a pasar ficheros PDF a TXT (texto plano). La utilidad de esto es poder llevar los PDFs en dispositivos como un teléfono móvil, un PDA o cualquier otro donde no queramos instalar un pesado lector de PDFs.

Alguno pensará que soy idiota, el Acrobat Reader 7, que es gratuito, incluye en la opción «Guardar Como» el paso a TXT. Sin embargo los PDFs tienen un fallo que es introducir un salto de línea o párrafo manual al final de cada línea de texto. Esto para imprimir será muy útil y permitirá que el texto quede bien impreso pero a la hora de cambiar a un dispositivo móvil produce un efecto parecido a éste:
—Vino a mi habitación; hará cosa de media hora, quizás un poco más. Me
desperté y lo vi ahí, a los pies de mi cama... ¡Dioses, por un instante pensé que
algo había venido a buscar mi alma! Y tenía un aspecto muy extraño, Carnon. A
duras penas lo reconocí; por eso me impresionó tanto.
Los saltos de línea forzados dan lugar a líneas que se cortan con tan solo una o dos palabras y estéticamente es horrible. Además de desaprovechar la escasa pantalla del dispositivo.

La solución que os voy a dar viene de parte del paquete de Microsoft Office 2000. No dudo que habrá programas gratuitos, como OpenOffice.org, que realicen la misma tarea pero el Office es lo que hay más a mano. Si alguien conoce otro método con otro programa que lo diga y lo pondré.

Lo primero es abrir el PDF con el Acrobat Reader y en el menú «Archivo» elegir «Guardar Como» y guardar el fichero como texto. Ya podemos cerrar el Acrobat Reader. Abrimos el documento de texto nuevo con el Word y en la barra de tareas pulsamos el icono ¶. Veremos que los espacios en blanco se transforman en · y que al final de cada línea hay un símbolo ¶, esa es la marca de párrafo. Donde hay un salto de párrafo real (uno que queremos conservar) nos encontraremos una línea en con un único carácter ¶. Por ejemplo, en la penúltima línea de este fragmento:
—Vino·a·mi·habitación;·hará·cosa·de·media·hora,·quizás·un·poco·más.·Me·¶
desperté·y·lo·vi·ahí,·a·los·pies·de·mi·cama...·¡Dioses,·por·un·instante·pensé·que·¶
algo·había·venido·a·buscar·mi·alma!·Y·tenía·un·aspecto·muy·extraño,·Carnon.·A·¶
duras·penas·lo·reconocí;·por·eso·me·impresionó·tanto.·¶

—¿Extraño?·—preguntó·Carnon.·¶
Bien, repasemos. Si hay dos ¶ seguidos (el segundo ocupando toda una línea) es un salto de página (nombre técnico «Marca de párrafo») que queremos conservar y si hay un ¶ sólo entonces lo que queremos es borrarlo. Para eso vamos a usar la opción «Reemplazar» del menú «Edición». Hay que tener en cuenta que el ordenador no sabe distinguir ¶ de ¶¶. Si le dijésemos, por ejemplo, que cambiara todos los ¶ por A los ¶¶ se convertirían en AA y los perderíamos. La solución es empezar por los ¶¶, convirtiéndolos en algo que luego podamos usar. Yo personalmente utilizo JOSUEJOSUE dado que estoy seguro de que esta construcción no se va a utilizar en el texto normal. Podemos utilizar SALTODEPARRAFO o cualquier cosa que estemos seguros de que no exista en el texto. Vamos con el proceso:
  1. Seleccionamos «Reemplazar» y en el cuadro «Buscar» hay que poner dos «Marca de párrafo» seguidas. Para hacer esto pulsamos en el botón «Especial» y seleccionamos «Marca de párrafo», otra vez para decirle que vamos a buscar las marcas dobles, las que queremos conservar. En «Reemplazar con» ponemos lo que queramos, en mi caso JOSUEJOSUE. Pulsamos en «Reemplazar todos».
  2. Volvemos a usar «Reemplazar», esta vez en el cuadro de búsqueda ponemos una única «Marca de párrafo» y el cuadro «Reemplazar con» lo dejamos vacío. Pulsamos «Reemplazar todos» y habremos hecho desaparecer todos los saltos manuales que nos estorbaban
  3. La última parte. Usamos «Reemplazar» y en el cuadro de búsqueda introducimos nuestra marca personal, en mi caso JOSUEJOSUE. En el cuadro «Reemplazar con» ponemos las dos marcas de párrafo. Pulsamos «Reemplazar todos» y habremos recuperado los salto de línea buenos.
Muchos textos llevan un encabezado en cada página del tipo: «EL QUIJOTE - MIGUEL DE CERVANTES». Este encabezado no nos es útil y con la técnica de reemplazar podemos hacerlo desaparecer para una lectura más sencilla en el dispositivo móvil. Ahora solo nos falta guardar el fichero como texto («texto codificado» en Word) y sincronizarlo con el dispositivo móvil. Y a disfrutar.

1 comentario:

Ignacio dijo...

Gracias Josue,muy util tu recomendacion.