Redundante Formatierungen machen Writer-Dokumente aufgebläht und langsam

WRITER hat alles, was Sie von einer modernen, voll ausgestatteten Textverarbeitung erwarten.
Antworten
juribel
Beiträge: 234
Registriert: Mi 6. Mai 2020, 15:48

Redundante Formatierungen machen Writer-Dokumente aufgebläht und langsam

Beitrag von juribel » Mo 28. Mär 2022, 15:02

Hallo zusammen,

ich verarbeite viele sehr grosse LibreOffice Dateien maschinell, auf Basis des von LO erzeugten HTML.

Dabei fällt mir auf dass LO manchmal unerträglich langsam reagiert. Im HTML finden sich dann massenhaft redundante Konstrukte wie (nur ein primitives Beispiel):

Code: Alles auswählen

...<b>fett geschriebener </b><b>Text</b>
So etwas geschieht sogar schon beim Austauschen eines Zeichens gegen ein anderes. Natürlich kommt dies nicht nur wie in dem Beispiel bei fetter Schrift vor, sondern es tauchen auch komplette überflüssige Font-Deklarationen auf. So wird beispielsweise in einem Satz ein Wort in einer bestimmten Schrift gefolgt von einem Wort in derselben Schrift. So etwas sieht man am Bildschirm nicht (WYSIWYG), es stört aber immens bei der maschinellen Verarbeitung.

Kennt jemand eine Möglichkeit ausser [Ctrl]+[m], um solche Redundanzen zu entfernen? Der Vorschlaghammer [Ctrl]+[m] setzt ja so gut wie alles zurück, und das ist in diesem Fall eher nicht gewollt.

Viele freundliche Grüsse, juribel

Pit Zyclade
* LO-Experte *
Beiträge: 3042
Registriert: Mo 12. Nov 2012, 16:59

Re: Redundante Formatierungen machen Writer-Dokumente aufgebläht und langsam

Beitrag von Pit Zyclade » Mo 28. Mär 2022, 16:16

Kannst Du mal deinen Betreff präziser formulieren??? Es geht doch gar nicht um Writer-"Dokumente". Das sind .odt 's.
Es geht Dir um HTML-Dokumente und die kann man mit besser geeigneten Editoren basteln.
LO 24.8.7.2 (X86_64) / Windows 11 64bit
Problem gelöst? Dann bitte im Betreff der ersten Nachricht [gelöst] voranstellen.

juribel
Beiträge: 234
Registriert: Mi 6. Mai 2020, 15:48

Re: Redundante Formatierungen machen Writer-Dokumente aufgebläht und langsam

Beitrag von juribel » Mo 28. Mär 2022, 17:54

Hallo,

danke für die Antwort, vielleicht habe ich mich ungenau ausgedrückt.

Ich verarbeite HTML-Dokumente, ja. Aber Die Dokumente werden in Writer geschrieben, formatiert und bebildert, und nach Fertigstellung als HTML exportiert ("Kopie speichern"). Also kommen auch die Formatierungen, die man im HTML-Quellentext sieht, aus Writer und müssen auch dort behoben werden.

Genau genommen führen die Redundanzen in Writer in der Tat zu zwei störenden Effekten: erstens werden die Writer-Dokumente aufgebläht und langsam, zweitens stören die Formatierungen die maschinelle Weiterverarbeitung.

Die HTML-Dateien werden nicht bearbeitet, sondern verarbeitet, also nur gelesen. HTML wird nur deswegen benutzt, weil es im Vergleich mit den .odt- oder .fodt-Dateien halbwegs maschinenlesbar ist.

Viele freundliche Grüsse, juribel

Benutzeravatar
miesepeter
* LO-Experte *
Beiträge: 2146
Registriert: So 19. Dez 2010, 18:16
Wohnort: Bayern

Re: Redundante Formatierungen machen Writer-Dokumente aufgebläht und langsam

Beitrag von miesepeter » Mo 28. Mär 2022, 22:28

Hallo,
diese Probleme scheinen wohl bei Textverarbeitungsprogrammen (Writer, Word) generell vorzuliegen, auch andere Systeme sind davor nicht gefeit (z.B. joomla!).
juribel hat geschrieben:
Mo 28. Mär 2022, 17:54
Die Dokumente werden in Writer geschrieben, formatiert und bebildert, und nach Fertigstellung als HTML exportiert

Aus Erfahrung kann ich dir raten: Lege in LO von Beginn an ein HTML-Dokument an und konvertiere es erst am Schluss ins Writer-Format (odt). Dies reduziert die Anzahl von "Quelltext-Artefakten" bei den HTML-Dokumenten.

Ciao

juribel
Beiträge: 234
Registriert: Mi 6. Mai 2020, 15:48

Re: Redundante Formatierungen machen Writer-Dokumente aufgebläht und langsam

Beitrag von juribel » Mo 28. Mär 2022, 23:20

Hallo und danke für die Antwort,

der "Beginn" liegt leider schon 25 Jahre zurück und mittlerweile ist daraus ein Lexikon mit 57.000 Stichworten und 2.5 Millionen automatisch generierten Hyperlinks geworden.

LibreOffice ist übrigens vor solchen Artefakten auch dann nicht gefeit, wenn man eine HTML-Datei lädt und bearbeitet. Nachvollziehbar: Schreibe einen kurzen Text und formatiere ihn auf irgendeine Farbe. Dann markiere ein Wort und formatiere es fett. Dann markiere dasselbe Wort und formatiere es wieder als unfett. "Rückgängig" funktioniert natürlich nicht, weil dazwischen viel Zeit und viele andere Änderungen liegen können. Und schon haben wir fast mehr Artefakte als Text. Und da ein solches Buch auch nach 25 Jahren nie fertig ist, wird ständig darin redigiert und korrigiert. Und das Schlimme ist, am Bildschirm sieht alles völlig richtig aus.

Nach 13 Jahren Word und 12 Jahren LibreOffice und bei diesen Textmengen kann man einfach nicht mehr mal eben auf ein anderes Textsystem umsteigen.

Wenn mich meine Erinnerung nicht trügt, hatte die damals benutzte Word-Version diese Probleme nicht. Statt dessen ist es unvorhersehbar ständig abgestürzt.

Viele freundliche Grüsse, juribel


An alle, die das LibreOffice-Forum gern nutzen und unterstützen wollen:


Bitte helfen Sie uns mit 7 Euro pro Monat.
Durch Ihren Beitrag tragen Sie dazu bei, unsere laufenden Kosten für die kommenden Monate zu decken.
Unkompliziert per Kreditkarte oder PayPal.
Als ein kleines Dankeschön werden Sie im LO-Forum als SUPPORTER gekennzeichnet.



Antworten