Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Umstellung des Respositoriums / Restructuring of the repository #22

Closed
HannesWuensche opened this issue Aug 10, 2022 · 14 comments
Closed
Labels
enhancement New feature or request question Further information is requested

Comments

@HannesWuensche
Copy link
Contributor

HannesWuensche commented Aug 10, 2022

Liebe Alle,

im Issue #10 wurde bereits besprochen, dass die Größe des Repositoriums über die Zeit stark zugenommen hat. Eine der Ursachen dafür ist die doppelte Bereitstellung der Daten: Im Archiv, als auch in der Historie der Aktuell_Deutschland_SarsCov2_Infektionen.csv.

Da die Größe auch uns zu schaffen macht und wir über Git LFS nur ein begrenztes Volumen an Traffic anbieten können, habe wir uns dazu entschlossen eine Umstrukturierung vorzunehmen:

  • Das derzeitige Repositorium „SARS-CoV-2_Infektionen_in_Deutschland“ wird zu einem reinen Archiv Datensatz umgebaut, welcher die Aktuell_Deutschland_SarsCov2_Infektionen.csv nicht weiter enthalten wird. Der Name des Repositoriums wird sich zu „SARS-CoV-2-Infektionen_in_Deutschland_Archiv“ ändern.
  • Die Bereitstellung der Aktuell_Deutschland_SarsCov2_Infektionen.csv erflogt über das Repositorium „SARS-CoV-2-Infektionen_in_Deutschland“.

In beiden Repositorien sind damit täglich die neuen Dateien enthalten: Im Archiv-Repositorum als datierte Datei JJJJ-MM-DD_Deutschland_SarsCov2_Infektionen.csv. Im Repositorium „SARS-CoV-2-Infektionen_in_Deutschland“ als täglich überschriebene Aktuell_Deutschland_SarsCov2_Infektionen.csv.

Achtung, im Vergleich zum derzeitigen Repositorium ändert sich der Branch von master zu main und der Unterstrich im Titel wird zum Bindestrich.
Die Umstellung ist für den 30. August geplant, wenn bis dahin keine grundlegenden Probleme durch die Community geäußert werden. Wir bitten alle User:innen die Information weiterzugeben und laden zum Feedback ein.

----English Version----
Dear All,

In Issue #10 we already discussed that the size of the repository has increased significantly over time. One of the reasons for this is the redundant provision of data: In the archive, as well as in the history of Aktuell_Deutschland_SarsCov2_Infektionen.csv.

Since the size is also a problem for us and we can only offer a limited volume of traffic via Git LFS, we decided to restructure the repository:

  • The current repository "SARS-CoV-2_Infektionen_in_Deutschland" will be converted to an archive-only data set, which will no longer contain the Aktuell_Deutschland_SarsCov2_Infektionen.csv. The name of the repository will change to "SARS-CoV-2-Infektionen_in_Deutschland_Archiv".
  • The provision of the Aktuell_Deutschland_SarsCov2_Infektionen.csv will be done via the repository "SARS-CoV-2-Infektionen_in_Deutschland".

In both repositories the new files are provided on a daily basis: In the archive repository as dated file JJJJ-MM-DD_Deutschland_SarsCov2_Infektionen.csv. In the repository "SARS-CoV-2-Infektionen_in_Deutschland" as daily overwritten Aktuell_Deutschland_SarsCov2_Infektionen.csv.

Note, compared to the current repository, the branch changes from master to main and the underscore in the title becomes a hyphen.
The restructuring is planned for August 30, if no fundamental problems are expressed by the community until then. We ask all users to pass on the information and invite for feedback.

Mit besten Grüßen
@HannesWuensche
für das Team RKI | Open Data

@HannesWuensche HannesWuensche added enhancement New feature or request question Further information is requested labels Aug 10, 2022
@HannesWuensche HannesWuensche pinned this issue Aug 10, 2022
@HannesWuensche HannesWuensche changed the title Umstellung des Respositories / Restructuring of the repository Umstellung des Respositoriums / Restructuring of the repository Aug 10, 2022
@HannesWuensche
Copy link
Contributor Author

Liebe Alle,

kurzer Reminder: Die Umstellung des Repositoriums ist für morgen geplant.
Bitte passt eure Pipelines an.

----English Version----
Dear All,

short reminder: The restructuring of the repository is due tomorrow.
Please adjust your pipelines.

Mit besten Grüßen
@HannesWuensche
für das Team RKI | Open Data

@4nnabeh
Copy link

4nnabeh commented Sep 13, 2022

Moin Hannes, im Moment gibt es ja nun ein Repo mit aktueller Datei und Archiv (https://github.com/robert-koch-institut/SARS-CoV-2_Infektionen_in_Deutschland) sowie das Repo mit Bindestrich statt Unterstrich und nur der aktuellen Datei (https://github.com/robert-koch-institut/SARS-CoV-2-Infektionen_in_Deutschland). Beide enthalten die aktuelle Datei namens Aktuell_Deutschland_SarsCov2_Infektionen.csv, aber nur das erstere Repo enthält auch ein Archiv, wenn ich das richtig sehe. Wird die Struktur bis auf Weiteres so bleiben? Danke vorab und beste Grüße.

@HannesWuensche
Copy link
Contributor Author

Hallo Anna,

die oben angekündigte Umstellung ist nach wie vor geplant. Leider laufen gerade so viele Aufgaben auf, dass ich noch keine Zeit gefunden habe die Umstellung umzusetzen. Ist aber für diese Woche geplant.

Die Aktuell_Deutschland_SarsCov2_Infektionen.csv wird dann nur noch im https://github.com/robert-koch-institut/SARS-CoV-2-Infektionen_in_Deutschland enthalten sein.

Beste Grüße
@HannesWuensche

@4nnabeh
Copy link

4nnabeh commented Sep 13, 2022

Alles klar, dann beäugen wir weiterhin wachsam, was da kommt. Vielen Dank für die schnelle Rückmeldung!

@untergeekDE
Copy link

Gerade gesehen, dass die Umstellung jetzt erfolgt ist... einmal durchatmen, alles gut gegangen! :)

Werden das Archiv-Repo und das Aktuell-Repo zur gleichen Zeit aktualisiert - oder gibt es gute Gründe, für die tagesaktuellen Zahlen auf das neue "Bindestrichrepo" umzusteigen?

@rgerhards
Copy link

@HannesWuensche

Der Name des Repositoriums wird sich zu „SARS-CoV-2-Infektionen_in_Deutschland_Archiv“ ändern.

Sollte mMn unbedingt gemacht werden, damit man den Umstellungsbedarf direkt erkennt. Außerdem sind die optisch identischen aktuellen Namen eine große Fehlerquelle.

Ich hatte heute früh das Fehlen der '*Aktuell`-CSV im Hauptverzeichnis bemerk und Fehler gesucht. Dabei sind mir Umstellungen direkt eingefallen.

Habe RKI Github Präsenz besucht, bin - unbemerkt - in das neue Bindestrich-Repo gestolpert. In der README stand aber noch nichts zu der Änderung, da also nichts gefunden. Dann die ganze Reihe Fehleranalyse bis hin zu "github" benimmt sich merkwürdig, dann in Verzweiflung die repo URLs geprüft. Erst als ich die mit fc verglichen habe ist mir aufgefallen, dass zwei existieren ;-) Und erst dann habe ich den Thread hier entdeckt.

Selbst nachdem es mir klar war, war das Arbeiten mit "Was ist Unterstrich, was ist Bindestrich" schwierig. Das Wort "Archiv" im Repo-Namen wäre das sehr klärend. ;-)

@chesselingfm
Copy link

chesselingfm commented Oct 11, 2022 via email

@HannesWuensche
Copy link
Contributor Author

Liebe Alle,

in den letzten Tagen sehen wir einen stark gestiegenen Traffic auf unseren LFS Dateien. Da wir nach wie vor nur ein begrenztes LFS Volumen auf Github haben, möchten wir dem begegnen und eine weitere Umstellung im Repository vornehmen:

  • der aktuelle Branch master wird gelöscht
  • ein neuer Branch main wird angelegt
  • alle Dateien des Archivs werden als .csv.zip bereitgestellt

Damit wird die stark angewachsene Commit History beseitigt und die Größe des Repositories insgesamt reduziert.
Die Umstellung ist zum Ende der Woche geplant, der neue main Branch wir bereits vorher angelegt und befüllt.

Beste Grüße
@HannesWuensche
für das Team RKI | Open Data

@yetzt
Copy link

yetzt commented Mar 13, 2023

Bitte keine Zip-Dateien, sondern ein Stream-Entpackbares Format wie gzip, lzma oder brotli benutzen, wie hier bereits vor einem halben Jahr vorgeschlagen. Zip-Dateien müssen zur Dekomprimierung vollständig in den Speicher geladen werden, was uns Datenjournalist:innen das Leben schwer macht.

@HannesWuensche
Copy link
Contributor Author

Hallo @yetzt,

vielen dank für das Feedback und die Erinnerung.

Um die größtmögliche Interoperabilität/Nutzer:innenfreundlichkeit zu erreichen, würden wir gzip verwenden. Sofern in den nächsten Tagen keine weiteren Einwände aufkommen, werden die Dateien dann als .csv.gz bereitgestellt.

Beste Grüße
@HannesWuensche

@HannesWuensche
Copy link
Contributor Author

Liebe Alle,

nach erneuter Beratung haben wir uns entschieden auf .csv.xz statt auf .csv.gz umstellen.

Die höhere Kompressionsrate und der Umstand, dass wir das Format es bereits im Datensatz der Sequenzdaten nutzen, hat uns noch einmal zu Umdenken gebracht. Wir bitten erneuten Wechsel zu entschuldigen. 🙄

Beste Grüße
@HannesWuensche
für das Team RKI | Open Data

@yetzt
Copy link

yetzt commented Mar 21, 2023

Kurze Nachfrage: Passiert das perspektivisch auch für das Repository SARS-CoV-2-Infektionen_in_Deutschland?

@HannesWuensche
Copy link
Contributor Author

Hallo @yetzt,

da wir im Repository SARS-CoV-2-Infektionen_in_Deutschland nicht Archivieren und daher nur die Diffs erfasst werden, wächst das Repo nicht ansatzweise so schnellt. Derzeit stellt es somit kein Problem dar, entsprechend ist keine Umstellung geplant.
Das heißt leider nicht, das wir ein Umstellung für die Zukunft ausschließen können.

Insgesamt wollen wir im nächsten Schritt lieber eine Datenbank mit API anbieten, als weiter die Daten per CSV bereitzustellen.

Beste Grüße
@HannesWuensche
für das Team RKI | Open Data

@yetzt
Copy link

yetzt commented Mar 21, 2023

Das ist schade, denn (im Idealfall komprimierte) Rohdaten in simplen, wohlefinierten Formaten ohne API-Overhead sind für uns am einfachsten zu handhaben. Für das CSV benötigt meine Software etwa 30 Sekunden, komprimiert mit gzip unter 5 (i/o und transfert sind die Flaschenhälse, weshalb es mit Kompression schneller geht).

Vielen Dank für die Rückmeldung!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request question Further information is requested
Projects
None yet
Development

No branches or pull requests

6 participants