ich bin auf ein für mich unlösbares Problem gestoßen. Es geht um einen vermeintlich fehlerhaften Datensatz und die Dokumentation der von mir vorgenommenen Korrekturen. Es geht um Calc, da muss aber nicht die Ursache liegen. Deshalb habe ich mein Thema hier im allgemeinen Bereich erstellt. Folgendes ist geschehen:
Im März 2017 habe ich mir den ETOPO5-Datensatz von der Portland State University (College of Urban & Public Affairs Portland State University) runtergeladen. Hier der Link: https://www.pdx.edu/sites/www.pdx.edu.e ... ys_geo.zip. In der zip befindet sich das Dokument phys_geo.csv. Daraus habe ich die Spalten "country" und "elev" für Länder und die durchschnittliche Höhe über dem Meeresspiegel kopiert, in ein separates Dokument eingefügt und die Zeilen mit der Filterfunktion auf die für mich relevanten Länder reduziert. Bei der Datensichtung fiel mir auf, dass bei manchen Ländern viel zu hohe Höhenwerte stehen. Es zeigte sich, dass für alle betroffenen Werte das Dezimaltrennzeichen so gesetzt werden muss, dass drei Nachkommastellen entstehen. Nach einer absichernden Internetrecherche bei Wikipedia zum Abgleich der Höhenwerte wurden die Daten entsprechend korrigiert. Heute habe ich das korrigierte Dokument zur Kontrolle erneut geöffnet und das Dezimaltrennzeichen war bei den gleichen Ländern wieder weg. Das betrifft sowohl meine Datei mit den extrahierten Spalten als auch die Originaldatei aus der zip.
Bei der Fehlersuche habe ich eine Lösung für mich gefunden. Aber es handelt sich um Daten für eine wissenschaftliche Arbeit und ich muss die Fehlerursache zumindest dokumentieren bzw. so gut wie möglich beschreiben. Deshalb bitte ich euch um Hilfe. Woran liegt es?
Zur Illustration habe ich Bilder gemacht und Armenia und Finland markiert. Ich benutze den Punkt als Dezimaltrennzeichen, indem ich die Sprache in LibreOffice auf English (USA) eingestellt habe (vom Wiki so empfohlen).
Das ist meine Datei nach dem Doppelklick im Dialog Textimport. Hier ist alles okay. In der zweiten Spalte sind die numerischen Werte, in der dritten meine absichernden Quellen für die Datenkorrektur aus 2017:

So sieht es aber nach dem Öffnen aus – es fehlt das Dezimaltrennzeichen:

Die Lösung besteht darin, die Sprache auch im Dialog Textimport als English anzugeben. Entweder global unter Importieren – Sprache oder nur für diese Spalte über Feldbefehle – Spaltentyp = US-English.

Importiert man mit deutscher Spracheinstellung die Originaldatei, sind die gleichen Zellen betroffen (hier nur Armenia, weil Finland nicht aufs Bild passt).

Was ist das los? Warum sind nur manche Zellen, aber immer die gleichen betroffen? Liegt es an LibreOffice oder am .csv Format? Der Wikipedia-Artikel (https://de.wikipedia.org/wiki/CSV_(Dateiformat)) nennt Probleme mit international verschiedenen Trennzeichen. Im Editor xed werden überall korrekt Punkte als Dezimaltrennzeichen angezeigt. Gnumeric zeigt überall korrekt Kommas als Dezimaltrennzeichen an. Ich kann mir darauf keinen Reim machen.
Der Vollständigkeit halber mein System:
2017 wurde mit Apache OpenOffice 4.2.1 Calc (oder einer älteren, damals aktuellen Version - bin mir da nicht sicher, wann Updates erschienen und eingespielt wurden) und heute mit Libre Office 6.0.7.3 Calc gearbeitet. Das System:
Kernel: 5.3.1-050301-generic x86_64 bits: 64
Desktop: Cinnamon 4.2.4 Distro: Linux Mint 19.2 Tina
Danke schon mal
Hufeisen