Page 1 sur 1

Outil de récupération de texte

MessagePublié: 28 Juin 2017 13:57
par Scrat
Bonjour.

Je propose ici un petit outil qui permet de récupérer au moins le texte d'un fichier content.xml corrompu a priori réparable (message d'erreur avec le numéro de ligne et le numéro de colonne) mais comportant trop d'erreurs pour que ce soit fait manuellement (vous réparez une erreur et il y en a une autre derrière, et c'est sans fin...)

L'outil suppose que les balises XML comportent toutes le caractère < au début et le caractère > à la fin. Il compte les balises sans se soucier de leur contenu et considère comme du texte tout ce qui est compris entre la fin d'une balise et le début de la suivante. Le texte reconnu comme tel est enregistré dans un fichier de nom content.txt. Bien entendu, styles et mises en page sont perdus, seul le texte est récupéré.

L'outil est écrit en langage Java et se présente sous la forme d'une archive jar exécutable. Je joins un fichier zip contenant l'archive jar, un fichier content.xml exemple, le fichier content.txt résultant de l’exécution, et un document au format odt expliquant le fonctionnement. A tester... :mrgreen:

Note: Bien que réservée aux documents odt, l'utilisation de cet outil sur des documents ods, odp, etc... est possible, mais je n'ai aucune idée de ce que ça peut donner. :aie:

A+