Odt2txt

Plantilla:Mejorar

odt2txt
Información sobre la plantilla
IdiomaMultilenguaje

odt2txt. Un simple convertidor de documentos con formatos ODT, convirtiendo estos a texto plano.

Características

Aplicación. odt2txt es una herramienta en Linuxpara ser utilizada mediante la líena de comando desde una terminal, el cual extrae textos de un documento ODT, como los producidos por OpenOffice.org, KOffice, StarOffice entre otros. Puede también extraer texto de varios archivos con formatos similares al ODT, como pueden ser OpenOffice.org XML(*.sxw), cual fue usado por OpenOffice.org

versión 1.x y versiones mayores del StarOffice. También puede ser útil para extraer contenidos de documentos de hoja de cálculos(*.ods) y documentos de presentación (*.odp).

Opciones

--width=WIDTH

Permite encapsular los caracteres del texto a una anchura especificada. Por defecto el valor es 65, lo cual quiere decir que cualquier palabra que se extienda mas allá de la columna 65 es movido para una nueva linea.

Si WIDTH es modificado y puesto en -1 entonces ninguna linea será dañada.

--output=FILE

Escribe la salida en un fichero especificado.

--subst=SUBST Remplaza caracteres extraños dependiendo de la entrada especificada. Los valores válidos para SUBST son: all, some y none.

--subst=all

Substituye todos los caracteres por el cuál la substitución sea conocida.

--subst=some

Substituye todos los caracteres en el cual la salida no contiene el que tiene por defecto.

--subst=none No substituye ningún caracter.

--encoding=X No intenta auto detectar la codificación de la terminal, pero convierte el documento hacia una codificación especificada, en que la codificación de la terminal estará usando el modo automático, usa --encoding=show.

--raw Imprime el XML puro.

Ejemplos de uso

odt2txt --width=100 Escritorio/Ecured1.odt

odt2txt --output=Ecured.txt Escritorio/Ecured1.odt En este caso “Ecured.txt” es el fichero que se generará con el resultado devuelto por la línea antes mostrada.

odt2txt –encoding=show Insertando lo anterior en una terminal le muestra la codificación que tiene activada en mi caso me devolvió UTF-8.

odt2txt --encoding=ISO-8859-1 Escritorio/Ecured1.odt La línea anterior devuelve el documento “Ecured1.odt” en texto plano utilizando el estándar de codificación ISO-8859-1.

odt2txt --output=ecuredall.txt --subst=all Escritorio/Ecured1.odt En este caso remplazo todos los caracteres extraños conocidos(ej: remplazo « » por << >>, ü por uu, etc) que tienen el documento “Ecured1.odt” y lo salvo en el fichero “ecuredall.txt”.

odt2txt --output=ecuredxml.txt --raw Escritorio/Ecured1.odt En éste extraigo en formato xml puro todo el documento “Ecured1.odt” y lo guardo en el fichero “ecuredxml.txt”.

Licencia

Usted puede redistribuirlo y/o modificado con algunos términos de la Licencia Pública General GNU, versión 2 publicada por la fundación de software libre.

Fuente

  • Ayuda y Soporte de Ubuntu
  • Odt2txt Disponible en "stosberg.net". Consultado el 9 de diciembre del 2011