Diferencia entre revisiones de «Html2text»

(Página creada con '{{Ficha_Software |nombre= html2text |imagen= Terminal2.jpg |descripción= Un convertidor |creador= |desarrollador= |lanzamiento inicial= |última versión estable= |género= |i...')
 
Línea 1: Línea 1:
 +
{{Normalizar}}
 
{{Ficha_Software
 
{{Ficha_Software
 
|nombre= html2text
 
|nombre= html2text

Revisión del 12:54 10 nov 2011

html2text
Información sobre la plantilla
260px
Un convertidor
IdiomaMultilenguaje

html2text. Un convertidor avanzado que permite llevar un sitio a texto plano.

Características

Aplicación. html2text es muy utilizado en la línea de comando de Linux para convertir documentos en formato HTML a texto plano, el mismo lee los documentos entrados por el usuario, formatea cada uno de ellos en chorros de caracteres de texto puro, y escribe el resultado de forma

 normal (o en un archivo, si se usa la opción -o).


La URL o camino de los documentos se pueden especificar varias formas, utilizando el protocolo de transferencia de hipertexto “http:” y “file:” que especifica archivos locales, entre otras formas que también son válidas.


html2text entiende toda estructura HTML 3.2, pero puede utilizarse sólo

parte de ellos debido a las limitaciones del formato de salida del texto.
Parsea la entrada de 

HTML 4, también, pero no siempre exitoso como otros procesadores de HTML.

También acepta sintácticamente entradas incorrectas e intenta interpretarlas
lógicamente.

==Opciones==

-ascii

 Por defecto, html2text usa ISO 8859-1 para la salida. Especificando 

esta opción, el ASCII es usado en lugar de eso.


-check

 Esta opción es para propósitos de diagnosticos: El documento html
es solo parseado y no es procesado de otra manera. En este modo de 

operación, html2text comunicará los errores al parsear. Note que al analizar y detectar los errores, estos no son fatales para html2text, pero pueden causar mala interpretación del código HTML y/o porciones del documento.


-debug-parser

 Permite reportar sobre los valores simbólicos que fueron detectados, 

la existencia de reglas que se aplicaron, mientras que se parsea el documento HTML. Esta opción se utiliza con el propósitos de diagnósticar

el documento.



-debug-scanner

 Permite reportar sobre cada valor simbólico léxico que se detectó al 

escanear el documento de HTML.


-help

 Imprime un resumen de la línea de comando.



-o output-file

 Imprime el resultado en un archivo especificado.



-unparse

 Esta opción se utiliza con el propósito de diagnosticar el documento: 

En lugar de formatear el documento al que es analizado, solo se genera el código HTML. Si html2text tiene problemas parseando un documento HTML

sintácticamente incorrecto, esta opción le puede servir de ayuda para 

entender y poder arreglar el código original.


-width width

 Por defecto, html2text formatea el documento HTML para una anchura de
la pantalla de 79 caractéres. Usted en este apartado puede especificar 

una anchura diferente a la anterior.

Ejemplos de uso

html2text -o ubuntu.txt file:///usr/share/ubuntu-artwork/home/locales/index-es_ES.html

 En este ejemplo “ubuntu.txt” es el fichero en que se guarda el resultado devuelto por la linea de comando, en este caso se guardó en el home(espacio personal).

html2text -o testinghtml.txt /var/www/testing/index.html

 Esta es otra forma de especificar el camino hacia el fichero.

Nota: Si no se inserta la opción -o seguido del fichero en que se guardará la información, se muestra la conversión en el terminal.

Nota: html2text fue escrito hasta la versión 1.2.2 por Arno Unkring. Actualmente quien lleva este proyecto es Martin Bayer.

Fuente

Ayuda y Soporte de Ubuntu http://userpage.fu-berlin.de/~mbayer/tools/html2text.html