Artikulli i plotë: https://medium.com/@eness.188/statistik%C3%AB-e-germave-t%C3%AB-shqipes-810d9b3873a4
Synimi i këtij projekti është të nxjerr në pah elemente gjuhësore të alfabetit të gjuhës shqipe. Kodi i mësipërm llogarit këto të dhëna:
- Përqindjen e shkronjave më të përdorura të gjuhës shqipe,
- Përqindjen e plotë - Numrin e shfaqjeve të një shkronjeje në korpusin e paraqitur.
- Përqindjen e pjesshme - Numrin e paraqitjeve të një zanoreje/bashkëtingëlloreje në krahasim me zanoret/bashkëtingëlloret e tjera në korpusin e dhënë.
- Përqindjen e shkronjave pasuese, p.sh në fjalën
elemente
germat pasuese tëe-së
janë:l, m, n
, secila nga një herë. - Alfabetin i ri - Zëvendësimi i shkronjave të përbëra me germa njëshkronjëshe:
SHRKONJAT_E_PËRBËRA = {
"dh": "ð",
"gj": "ɟ",
"ll": "ɫ",
"nj": "ɲ",
"rr": "r̪",
"sh": "ʃ",
"th": "θ",
"xh": "ҳ", # "d͡ʒ", (NOT STANDART)
"zh": "ʒ",
}
- Krahasimi i gjatësisë së teksteve me alfabete të ndryshme.
Rezultatet bazohen në romanin Gjakftohësia
të Ismail Kadaresë të cilin mund ta gjeni në skedarin e quajtur text.txt
.
-
Teksti me alfabet të vjetër ka
679657
germa kurse ai me alfabet të ri635567
. -
Teksti me alfabet të ri është
6.49%
apo44090
shkronja më i shkurtër. -
Një fjalë ka mesatarisht
3.98
shkronja (përfshin lidhëzat). -
Një fjali përmban rreth
21.67
fjalë. -
Përdorimi i alfabetit të ri do të rezultonte në
14.7
faqe më pak për veprën e analizuar.