Bei der Nachbearbeitung eingescannter und OCR-gewandelter Bücher ist leider eine aufwändige manuelle Nachbearbeitung notwendig. Häufig gibt es ein Absatzteichen, obwohl der Text im nächsten Absatz weitergeht. Es wäre eine große Hilfe, wenn ich solche Fälle mit der Suchfunktion direkt finden könnte. Das müsste doch mit Regulären Ausdrücken irgendwie gehen. Vielleicht kann mir da jemand helfen?
Interessant wäre auch, Bindestriche vor einem Absatzzeichen auswerten zu können. Solche Fälle muss man sich gezielt ansehen ob es eine Silbentrennung ist, oder ob es danach groß weiter geht (=Doppelwort, wo der Bindestrich bleiben muss).
🍀 Das LibreOffice Forum braucht HEUTE Ihre Hilfe! 🍀
❤️ Spenden Sie jetzt und sichern Sie die Zukunft unseres LibreOffice-Forums ❤️
Ihre Spende hilft, die Community offen, werbefrei (bei Registrierung) und lebendig zu halten. Vielen lieben Dank!
>> Das LibreOffice-Forum lebt von Ihnen – und von vielen Experten, die freiwillig und kostenlos ihr Wissen teilen.<<
Als Dankeschön werden Sie im Forum als LO-SUPPORTER gekennzeichnet.
Absatzzeichen finden, vor denen kein Satzzeichen steht
-
Dr. Seltsam
- Beiträge: 1
- Registriert: So 24. Mär 2019, 16:15
- miesepeter
- * LO-Experte *
- Beiträge: 2273
- Registriert: So 19. Dez 2010, 18:16
- Wohnort: Bayern
Re: Absatzzeichen finden, vor denen kein Satzzeichen steht
Es gibt natürlich beim Scannen mit OCR auch den Fall, dass nach einer Interpunktion ein Leerzeichen steht...Dr. Seltsam hat geschrieben: ↑So 24. Mär 2019, 16:32Häufig gibt es ein Absatzteichen, obwohl der Text im nächsten Absatz weitergeht. Es wäre eine große Hilfe, wenn ich solche Fälle mit der Suchfunktion direkt finden könnte. Das müsste doch mit Regulären Ausdrücken irgendwie gehen.
Hinweis: Mein Code bezieht sich auf den Einsatz von SUCHEN&ERSETZEN und AltSearch.oxt 1.4.2 (getestet mit LO 6.2.0.3).
Wie finde ich letzten Buchstaben/Leerzeichen vor einem Absatzendezeichen
Code: Alles auswählen
[a-z|A-Z| ]{1}$
oder
([a-z|A-Z| ]{1}$)Ich konnte nur mit AltSearch.oxt 1.4.2 einen Workaround finden.
SUCHEN
Code: Alles auswählen
([a-z|A-Z| ]{1}$)\pCode: Alles auswählen
\0
oder
\0 Wie finde ich Punkt/Fragezeichen/Ausrufezeichen vor Absatzendezeichen?
Code: Alles auswählen
(\.|\?|\!)$Code: Alles auswählen
(-|–)$Ich täte mir die Arbeit nicht an. Für wenig Geld gibt's Programme wie Iris oder Finereader, die viel schneller und produktiver sind als die manuelle "Popelei".Dr. Seltsam hat geschrieben: ↑So 24. Mär 2019, 16:32Nachbearbeitung eingescannter und OCR-gewandelter Bücher
Viel Erfolg.
An alle, die das LibreOffice-Forum gern nutzen:
Bitte beteiligen Sie sich mit 7 Euro pro Monat und helfen uns bei unserem Budget für das laufende.
Einfach per Kreditkarte oder PayPal. Als Dankeschön werden Sie im Forum als LO-SUPPORTER gekennzeichnet.
❤️ Vielen lieben Dank für Ihre Unterstützung ❤️