Outil de récupération de texte

Les dernières nouvelles du front du libre, débats et autres informations générales sur nos suites bureautiques préférées ou sur ce site, en évitant de provoquer toute polémique (troll).
Aucun support assuré ici : posez votre question dans la section appropriée.

Modérateur : Vilains modOOs

Scrat
HédOOniste
HédOOniste
Messages : 2051
Inscription : 06 juin 2014 12:39

Outil de récupération de texte

Message par Scrat »

Bonjour.

Je propose ici un petit outil qui permet de récupérer au moins le texte d'un fichier content.xml corrompu a priori réparable (message d'erreur avec le numéro de ligne et le numéro de colonne) mais comportant trop d'erreurs pour que ce soit fait manuellement (vous réparez une erreur et il y en a une autre derrière, et c'est sans fin...)

L'outil suppose que les balises XML comportent toutes le caractère < au début et le caractère > à la fin. Il compte les balises sans se soucier de leur contenu et considère comme du texte tout ce qui est compris entre la fin d'une balise et le début de la suivante. Le texte reconnu comme tel est enregistré dans un fichier de nom content.txt. Bien entendu, styles et mises en page sont perdus, seul le texte est récupéré.

L'outil est écrit en langage Java et se présente sous la forme d'une archive jar exécutable. Je joins un fichier zip contenant l'archive jar, un fichier content.xml exemple, le fichier content.txt résultant de l’exécution, et un document au format odt expliquant le fonctionnement. A tester... :mrgreen:

Note: Bien que réservée aux documents odt, l'utilisation de cet outil sur des documents ods, odp, etc... est possible, mais je n'ai aucune idée de ce que ça peut donner. :aie:

A+
Pièces jointes
recuperation.zip
Kit de survie en milieu XML corrompu
(22.87 Kio) Téléchargé 580 fois
Ne contribue plus au forum
Verrouillé