Skip to content

Commit

Permalink
README Update
Browse files Browse the repository at this point in the history
  • Loading branch information
karl committed Dec 9, 2022
1 parent 17af81b commit e9f0294
Show file tree
Hide file tree
Showing 3 changed files with 6 additions and 4 deletions.
6 changes: 4 additions & 2 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -41,7 +41,7 @@ Das Programm geht davon aus, dass die Namen der Bilderdateien auf Projektebene e

## Metadaten

Die TOML Datei besteht aus vier Ebenen: Einmal Informationen zum Datenpartner, und einmal Informationen zu den Objekten. Die Ebenen werden durch die Strings `[institution]`, `[objects]`, `[images]` und `[OCR]` getrennt. Unterhalb dieser Ebenen wird pro Zeile einem Schlüssel durch ein `=` Zeichen ein Wert zugewiesen. Zeichenfolgen werden dabei in Anführungsstriche gesetzt. Die TOML-Datei ist mit einem Plaintext-Texteditor zu bearbeiten (nicht etwa mit Word o.ä.). Mit Tools wie bspw. [TOML Lint](https://www.toml-lint.com/) kann die erzeugte TOML Datei validiert und auf Syntaxfehler geprüft werden. Das sieht dann exemplarisch so aus - hier fehlt in Zeile 16 ein einfaches Anführungszeichen:
Die TOML Datei besteht aus vier Ebenen: Einmal Informationen zum Datenpartner, und einmal Informationen zu den Objekten. Die Ebenen werden durch die festgelegte Strings in eckigen Klammern definiert. `[institution]` und `[objects]` sind verpflichtend, `[images]` und `[OCR]` können auch weg gelassen werden. Unterhalb dieser Ebenen wird pro Zeile einem Schlüssel durch ein `=` Zeichen ein Wert zugewiesen. Zeichenfolgen werden dabei in Anführungsstriche gesetzt. Die TOML-Datei ist mit einem Plaintext-Texteditor zu bearbeiten (nicht etwa mit Word o.ä.). Mit Tools wie bspw. [TOML Lint](https://www.toml-lint.com/) kann die erzeugte TOML Datei validiert und auf Syntaxfehler geprüft werden. Das sieht dann exemplarisch so aus - hier fehlt in Zeile 16 ein einfaches Anführungszeichen:

![](assets/tomllint.png)

Expand Down Expand Up @@ -72,11 +72,13 @@ jpg_quality = 20

[OCR]
tesseract_language = "deu"
#tesseract_executable = "C:/Program Files/Tesseract-OCR/tesseract.exe"
tesseract_executable = "C:/Program Files/Tesseract-OCR/tesseract.exe"
```

Erweiterte Informationen zu den Elementen finden Sie unter: https://github.com/karkraeg/structmeta/blob/main/toml-elements.md.

> :warning: Wenn OCR durchgeführt werden soll, dürfen nicht gleichzeitig mit `max_dimensions` die JPGs verkleinert werden. (Siehe [Issue](https://github.com/Deutsche-Digitale-Bibliothek/ddblabs-structmeta/issues/2))
## Ordnerstrukturen

### Zeitungen
Expand Down
2 changes: 1 addition & 1 deletion structmeta/__init__.py
Original file line number Diff line number Diff line change
Expand Up @@ -534,7 +534,6 @@ def monographMETS(
doc = etree.fromstring(metsvorlage)
except etree.XMLSyntaxError as e:
logger.warning(f"Fehler beim parsen des erstellen XML: {e}")
print(f"Fehler beim parsen des erstellen XML: {e}")
return
else:
with open(outputfolder / (book.name + "_mets.xml"), "w") as f:
Expand Down Expand Up @@ -629,6 +628,7 @@ def processImages(

if OCR == True:
if len(alltiffs) != 0:
# Wenn es TIFFs waren, dann OCR auf die TIFFs - dann dürfen die JPGs aber nicht kleingerechnet werden...
helpers.ocr(
alltiffs,
logger,
Expand Down
2 changes: 1 addition & 1 deletion toml-elements.md
Original file line number Diff line number Diff line change
Expand Up @@ -16,7 +16,7 @@
| **objects → auflage** | Optional | `//mods:originInfo@eventType="publication"/mods:edition` |
| **objects → year_of_digitization** | Leerer String erlaubt | `//mods:originInfo@eventType="digitization"/mods:dateCaptured` |
| **objects → place_of_digitization** | Leerer String erlaubt | `//mods:originInfo@eventType="digitization"/mods:place/mods:placeTerm` |
| **objects → sprache** | Leerer String erlaubt | `//mods:language/mods:languageTerm` Der Wert von `sprache` muss ein iso639-2b Code sein. |
| **objects → sprache** | Leerer String erlaubt | `//mods:language/mods:languageTerm` Der Wert von `sprache` muss ein [iso639-2b](https://wiki.dnb.de/download/attachments/90411323/sprachenCodesDeutsch.pdf) Code sein. |
| **images → imagebaseurl** | Optional | Mit der Angabe von `imagebaseurl` kann man den Dateinamen der Bilddatei mit einer URL prefixen, damit bspw. statt `img0001.jpg` dann `https://mein.repo.de/img0001.jpg` in der `mets:fileGrp` eingetragen wird. Wird die DDB die Bilddateien hosten, ist dieser Parameter nicht zu benutzen. |
| **images → max_dimensions** | Optional / Integer | Angabe der maximalen Breite/Höhe wenn aus TIFF Dateien JPG erzeugt wird. |
| **images → jpg_quality** | Optional / Integer | Qualität der zu berechnenden JPGs von 0 (extrem kompromiert) bis 100 (nicht komprimiert) |
Expand Down

0 comments on commit e9f0294

Please sign in to comment.