Tekstbestand openen met Write/trefwoordenregister genereren

Bespreek de tekstverwerker
Graads
Berichten: 6
Lid geworden op: za mei 16, 2009 11:55 am

Tekstbestand openen met Write/trefwoordenregister genereren

Bericht door Graads »

Hallo Allemaal,

Bij mijn pogingen om in Write een in Write gemaakt en bewaard tekstbestand opnieuw te openen blijft Open Office hardnekkig het dialoogvenster aanbieden waarmee een tekstbestand in Calc wordt geimporteerd. Dat verbaast me want in het dialoogvenster opslaan als voor het van bestanden in Write worden wel tekst en tekst gecodeerd - allebei met de extensie .txt - aangeboden. Dit is van belang omdat ik het bestand wil checken op fouten i.v.m. het hieronder beschreven probleem.
Korter geformuleerd: Hoe open ik in Writer een bestand met de extensie .txt

Dat bestand heb ik gemaakt met de bedoeling het als concordantiebestand te gebruiken. In het dialoogvenster invoegen>inhoudsopgave en register>inhoudsopgave en register>Trefwoordenregister werkt dat in die zin dat er een trefwoordenregister wordt gegenereerd (dat werkt ook nadat ik in bestandsbeheer (van Ubuntu in dit geval) de extentie van .txt in .sdi heb veranderd). Het gegenereerde register is echter onbruikbaar. Er zitter 29 (A5) pagina's (op een totaal van 136 pag. register) in helemaal gevuld met het @-teken gescheiden door komma's.

Wat gaat er fout? Is de omvang te ambitieus of deugt het .txt/.sdi bestand niet? Moeten er misschien de ;-tekens in zonder iets ertussen (b.v. apennootjes;;;;)? Wie kan me op weg helpen? Zoeken in de faq's leverde me nog niets op.

Graads

info systeem: dual boot met Windows XP en Ubuntu 9.10 (linux). Ik gebruik in beide installatie's Open Office versie 3.1.1. Het probleem treedt in beide op.
Laatst gewijzigd door floris v op wo jul 14, 2010 4:36 pm, 1 keer totaal gewijzigd.
Reden: als issue gemarkeerd
RPG
Berichten: 4667
Lid geworden op: wo apr 15, 2009 1:01 am
Locatie: Apeldoorn, Nederland

Re: Tekstbestand openen met Write/trefwoordenregister genere

Bericht door RPG »

Hallo

Als je het bestand met kladblok bekijkt is het bestand dan ook defect?

Romke
LibreOffice 7.4.3.2 op openSUSE Leap 15.4
Graads
Berichten: 6
Lid geworden op: za mei 16, 2009 11:55 am

Re: Tekstbestand openen met Write/trefwoordenregister genere

Bericht door Graads »

Als je het bestand met kladblok bekijkt is het bestand dan ook defect?
Hallo Romke,
Dat heb ik niet geprobeerd maar bij verder 'spitwerk' kwam ik er achter dat als ik kies voor West-europees ASCII/US ipv. West-europees UTF open Write het .txt bestand keurig. Dus dat probleem is getackeld. Ik kon toen ook zien dat er geen rare dingen in staan; keurig op elke regel een woord zoals het hoort in een concordantiebestand. Dus nog maar eens geprobeerd een trefwoordenregister te genereren. De nieuwe ervaring was jammer genoeg niet positiever dan de vorige. Office loopt nu vaak helemaal vast maar - om het ingewikkeld te maken - niet altijd ... en er staan dan nog steeds al die @-tekens in gescheiden door een komma.
Ik blijf nog wel even doorgaan met zoeken naar een oplossing maar houd me natuurlijk aanbevolen voor hints van het forum.

groeten Graads.
RPG
Berichten: 4667
Lid geworden op: wo apr 15, 2009 1:01 am
Locatie: Apeldoorn, Nederland

Re: Tekstbestand openen met Write/trefwoordenregister genere

Bericht door RPG »

Hallo

Ik weet niet wat de grenzen zijn van OOo in dit geval. Ik werk nooit met een concordantiebestand en weinig met teksbestanden.

Ik weet niet of het tot de mogelijkheden behoort maar kun je het ook in meerdere keren doen?

Misschien dat op het engelse forum iemand iets weet?

Romke
LibreOffice 7.4.3.2 op openSUSE Leap 15.4
Gebruikersavatar
floris v
Berichten: 2107
Lid geworden op: za apr 11, 2009 3:30 pm
Locatie: Apeldoorn, Nederland

Re: Tekstbestand openen met Write/trefwoordenregister genere

Bericht door floris v »

Ik heb wat zitten spelen en met een klein concordantiebestand werkte het goed. Mijn bestand werd ook correct in Writer geopend (na passeren van het ASCII-scherm) en niet in Calc.
* AOO 4.1.11 en LibreOffice 7.6.1.2 op Ubuntu 20.x
* Heb je de survival guide voor het forum al gelezen?
Graads
Berichten: 6
Lid geworden op: za mei 16, 2009 11:55 am

Re: Tekstbestand openen met Write/trefwoordenregister genere

Bericht door Graads »

floris v schreef:Ik heb wat zitten spelen en met een klein concordantiebestand werkte het goed. Mijn bestand werd ook correct in Writer geopend (na passeren van het ASCII-scherm) en niet in Calc.
Hallo Romke en Floris,

Bedankt voor jullie reaktie. N.a.v. De ervaring van jou, Floris, met een klein concord. bestand heb ik dat ook geprobeerd. Het werkte en er waren geen @-tekens. Het kleine concord.bestand omvatte 335 woorden; elk op een regel. Het volledige concord.bestand omvat 2964 woorden, ook elk op een regel.

Als ik probeer te bedenken waaraan het zou kunnen liggen komt het eerst opmaak of velden in enegerlei vorm bij me op; die zie je niet allemaal ook niet als je 'niet afdrukbare tekens' aan zet. Maar voor zover ik weet wordt in een als ASCII-bestand opgeslagen document geen opmaak of velden bewaard, m.a.w. compacter kun je een niet gecomprimeerd bestand niet opslaan. Blijft voor mij over dat Open Office Writer moeite heeft met de omvang van het concord.bestand en het dus een bug is. Waarschijnlijk is dat veel te kort door de bocht en is de werkelijkheid ingewikkelder. Een manier om daar achter te komen is net zo lang proberen tot ik de grens gevonden heb :crazy: , maar het is al zo drukkend ...

groeten Graads.
Gebruikersavatar
floris v
Berichten: 2107
Lid geworden op: za apr 11, 2009 3:30 pm
Locatie: Apeldoorn, Nederland

Re: Tekstbestand openen met Write/trefwoordenregister genere

Bericht door floris v »

Juist ja, met een groot bestand gaat het totaal de mist in met massa's bladzijden met @. Tot 13xx woorden gaat het goed, bij een paar honderd meer is het uit met de pret. Dat is een goeie voor een bug-report.
* AOO 4.1.11 en LibreOffice 7.6.1.2 op Ubuntu 20.x
* Heb je de survival guide voor het forum al gelezen?
Gebruikersavatar
henke54
Berichten: 305
Lid geworden op: za apr 11, 2009 3:28 pm

Re: Tekstbestand openen met Write/trefwoordenregister genere

Bericht door henke54 »

@Graads,
In de Help (F1) het woord concordantiebestand ingeven, geeft ook wat meer uitleg ... ;)
LibreOffice 3.5.4.2
op Ubuntu Linux 12.04 LTS
Gebruikersavatar
floris v
Berichten: 2107
Lid geworden op: za apr 11, 2009 3:30 pm
Locatie: Apeldoorn, Nederland

Re: Tekstbestand openen met Write/trefwoordenregister genere

Bericht door floris v »

In de Help (F1) het woord concordantiebestand ingeven, geeft ook wat meer uitleg ...
Staat helaas niet bij wat het maximale aantal woorden is dat er in het bestand mag staan. :twisted:
* AOO 4.1.11 en LibreOffice 7.6.1.2 op Ubuntu 20.x
* Heb je de survival guide voor het forum al gelezen?
Graads
Berichten: 6
Lid geworden op: za mei 16, 2009 11:55 am

Re: Tekstbestand openen met Write/trefwoordenregister genere

Bericht door Graads »

floris v schreef:Juist ja, met een groot bestand gaat het totaal de mist in ... Dat is een goeie voor een bug-report.
Henke, Floris,

Dat (bug-report dus) ga ik maar eens doen. Dat opgelost moet dus nog even wachten. Jullie horen nog hoe dat loopt.

groeten Graads.
Gebruikersavatar
floris v
Berichten: 2107
Lid geworden op: za apr 11, 2009 3:30 pm
Locatie: Apeldoorn, Nederland

Re: Tekstbestand openen met Write/trefwoordenregister genere

Bericht door floris v »

Ik kreeg op het Engelse forum te tip om met een paar concordantiebestanden te werken. Dan kunnen we mogelijk nader bepalen of de bottleneck niet in het aantal woorden in de concordantie zit maar bijvoorbeeld in het aantal gegenereerde items voor de index. Ik ga dat nu maar eens proberen.
* AOO 4.1.11 en LibreOffice 7.6.1.2 op Ubuntu 20.x
* Heb je de survival guide voor het forum al gelezen?
Gebruikersavatar
floris v
Berichten: 2107
Lid geworden op: za apr 11, 2009 3:30 pm
Locatie: Apeldoorn, Nederland

Re: Tekstbestand openen met Write/trefwoordenregister genere

Bericht door floris v »

Juist, het probleem zit hem niet in het aantal woorden in het concordantiebestand - ik heb er een gemaakt met 3500 woorden die bijna allemaal maar één keer in het testbestand voorkwamen, en dat leverde geen enkel apenstaartje op - maar in het aantal items voor het register dat daarmee gegenereerd wordt, mogelijk dat daar een grens van bijvoorbeeld 64 Kb aan zit.

PS. Als dit als bug/defect of wat voor issue dan ook wordt geaccepteerd, laten we deze topic gewoon als issue met vlam gemarkeerd staan, dat geeft de status dan goed weer.
* AOO 4.1.11 en LibreOffice 7.6.1.2 op Ubuntu 20.x
* Heb je de survival guide voor het forum al gelezen?
arjen
Berichten: 4
Lid geworden op: za jul 16, 2011 1:06 pm

Re: Tekstbestand openen met Write/trefwoordenregister genere

Bericht door arjen »

Het probleem is het aantal verwijzingen naar een woord. Boven de 64(?) verwijzingen houdt het programma ermee op. Boem.
Probeer een bestand met het woordje 'de' en laat dit indexeren. Als het te vaak voorkomt, crasht het programma.

Oplossing is het veld combineren met e.v. aan te vinken of de vaak voorkomende woorden niet te indexeren. Niet altijd handig als het woord een onderwerp is, maar je kunt niet alles hebben in het leven.
Open Office 3.3 Ubuntu 11.04
arjen
Berichten: 4
Lid geworden op: za jul 16, 2011 1:06 pm

Re: Tekstbestand openen met Write/trefwoordenregister genere

Bericht door arjen »

Hoe kun je een super groot trefwoordenregister maken?

Voorbereiding:
Download jedit op http://www.jedit.org en haal de plugin texttools op.

Selecteer alle tekst in Writer zonder titelblad en inhoudsopgaven en andere registers
met Ctrl-A, kopieer het, Ctrl-C en plak het in Jedit Ctrl-V. Pas de tekst aan naar wens.
Sla het bestand op met een naam zoals woordenlijst.csv

Stap 1:
zoeken in jedit met vinkje bij regular expression naar:
[ \t,.;“”±(!)?'=+-:…€ƒ’‘’"%§°&]
vervangen door nieuwe regel
\n
en maak alle woorden lower case, kleine letter.
Ctrl-a, rechter muisknop, to lowercase

Verwijder alle dubbele regels via de plugin Texttools en sorteer op alfabet.

Stap 2:
Alle woorden die vaker voorkomen dan 64 keer verwijderen door:
Woorden laden in Calc en een draaitabel maken door het bestand woordenlijst.csv als csv-bestand te openen.
Voeg een lege regel bovenaan toe en zet in het veld woorden.
Maak een draaitabel, gegevens, draaitabel, starten, huidige selectie en sleep de kolom woorden naar rijvelden en naar gegevens. Kies bij gegevens voor aantal.
Sorteer op tweede kolom aflopend.

Selecteer alle woorden in kolom 1 die minder dan 65 keer voorkomen en kopieer ze naar het tekstbestand. Ctrl-C, Ctrl-V

Wees er zeker van dat elk woord slechts één keer voorkomt in het bestand.

Stap 3:
Vervang alle enkelvoudige letters ontstaan door bijvoorbeeld opsommingen:
\b[a-z]\b

Opnieuw sorteren, lege regels verwijderen en klaar is de woordenlijst.

Bestand opslaan met bijvoorbeeld de naam woordenlijst.sdi . De sdi extensie is belangrijk om het bestand te herkennen Writer.

Stap 4:
Maak in Writer een trefwoordenregister door: kies Invoegen, Inhoudsopgave en registers,Inhoudsopgave en registers, type trefwoordenregister,
hoofdletters/kleine letter uitvinken, concordantie bestand aanvikken, bestand, openen, woordenlijst.sdi kiezen, OK.

Duimen en hopen de Writer het trefwoordenregister maakt.
Mijn record staat op 11.871 unieke woorden en 371 bladzijden in één trefwoordenregister. Een index dus van ALLE woorden, behalve de woorden die 65 of meer keren voorkomen.

De fout in Writer is het maximale aantal verwijzingen van 64 en, denk ik, het onjuist indexeren van 'rommel' zoals lege regels. Dit leidt weer tot overschrijding van het maximum. Het lukt me echter niet altijd om een goede woordenlijst te maken. Enige oplossing is dan steeds meer bijzondere zaken als koppeltekens te verwijderen totdat Writer wel de index maakt.
Laatst gewijzigd door arjen op zo jul 17, 2011 9:57 pm, 7 keer totaal gewijzigd.
Open Office 3.3 Ubuntu 11.04
Gebruikersavatar
floris v
Berichten: 2107
Lid geworden op: za apr 11, 2009 3:30 pm
Locatie: Apeldoorn, Nederland

Re: Tekstbestand openen met Write/trefwoordenregister genere

Bericht door floris v »

Ik heb dat in een proefbestand uitgeprobeerd met het woord "het", dat daarin een paar duizend keer voorkomt op 99 pagina's.
Dat leverde op:
in LibreOffice 3.4
het 3pp.
Het 3pp., 20pp., 24p., 27pp., 32pp., 82pp.

in OOo 3.3:
het 3pp.
Het 3pp., 24pp., 33pp., 63pp., 81pp.

Hm, geen crash, maar toch vreemd als je nagaat dat het woord op elke pagina voorkomt.
* AOO 4.1.11 en LibreOffice 7.6.1.2 op Ubuntu 20.x
* Heb je de survival guide voor het forum al gelezen?
arjen
Berichten: 4
Lid geworden op: za jul 16, 2011 1:06 pm

Re: Tekstbestand openen met Write/trefwoordenregister genere

Bericht door arjen »

Citaat: Oplossing is het veld "combineren met e.v." aan te vinken of de vaak voorkomende woorden niet te indexeren.

Een vaak voorkomend woord hoeft dus niet te leiden tot een crash zolang het aantal verwijzingen inclusief "en volgende" maar kleiner is dan 64.

En volgende lost dus een deel van de problemen op, maar niet alle.
Open Office 3.3 Ubuntu 11.04
Gebruikersavatar
floris v
Berichten: 2107
Lid geworden op: za apr 11, 2009 3:30 pm
Locatie: Apeldoorn, Nederland

Re: Tekstbestand openen met Write/trefwoordenregister genere

Bericht door floris v »

Geode tips, bedankt. 8-)
* AOO 4.1.11 en LibreOffice 7.6.1.2 op Ubuntu 20.x
* Heb je de survival guide voor het forum al gelezen?
arjen
Berichten: 4
Lid geworden op: za jul 16, 2011 1:06 pm

Re: Tekstbestand openen met Write/trefwoordenregister genere

Bericht door arjen »

Graag gedaan.

Ik ergerde me al een poosje -jaren- aan het feit dat de index niet werkte. Snapte er niets van. Tot ik vandaag de geest kreeg. Kostte een paar uurtjes, maar dan heb je ook wat.
Open Office 3.3 Ubuntu 11.04
Plaats reactie