Install using pip:
pip install tajik-text-segmentation
Usage:
from tajik_text_segmentation import TextSegmenter
text = '''Осоишгоҳҳои умумӣ (барои калонсолон) ва махсус (оилавӣ, барои занҳои ҳомила, ҷавонон, байнихоҷагӣ, соҳили дарёию баҳрӣ ва ғ.) мешаванд. Осоишгоҳҳо барои дамгирии якрӯза, 6 -рӯза, 12-рӯза ва 24-рӯза таъйин шудаанд.
Дар Тоҷикистон осоишгоҳҳои:
«Қаротоғ», «Явроз» дар водии Ҳисор;
Осоишгоҳи Зумрад, «Баҳористон», «Конибодом», «Ҳавотоғ», ва «Ӯротеппа» ва диг. дар вилояти Суғд;
«Чилучорчашма», «Сари Хосор» ва диг. дар вилояти Хатлон;
«Гармчашма» ва диг. дар ВМКБ амал карда истодаанд.'''
segmenter = TextSegmenter('nn') # or 'heuristic'
result = segmenter.segment_text(text)
print('Sentences:', result['sentences'])
print('Per token probabilities:')
for t, (sp, ep) in zip(result['tokens'], result['probs']):
print(f"{repr(t):20s} start: {sp:.2f} end: {ep:.2f}")
Output:
Sentences: ['Осоишгоҳҳои умумӣ (барои калонсолон) ва махсус (оилавӣ, барои занҳои ҳомила, ҷавонон, байнихоҷагӣ, соҳили дарёию баҳрӣ ва ғ.) мешаванд.', ' Осоишгоҳҳо барои дамгирии якрӯза, 6 -рӯза, 12-рӯза ва 24-рӯза таъйин шудаанд.', '\nДар Тоҷикистон осоишгоҳҳои:', '\n«Қаротоғ», «Явроз» дар водии Ҳисор;', '\nОсоишгоҳи Зумрад, «Баҳористон», «Конибодом», «Ҳавотоғ», ва «Ӯротеппа» ва диг. дар вилояти Суғд;', '\n«Чилучорчашма», «Сари Хосор» ва диг. дар вилояти Хатлон;', '\n«Гармчашма» ва диг. дар ВМКБ амал карда истодаанд.']
Per token probabilities:
'Осоишгоҳҳои' start: 1.00 end: 0.00
' умумӣ' start: 0.00 end: 0.00
' (барои' start: 0.00 end: 0.00
' калонсолон)' start: 0.00 end: 0.00
' ва' start: 0.00 end: 0.00
' махсус' start: 0.00 end: 0.00
' (оилавӣ,' start: 0.00 end: 0.00
' барои' start: 0.00 end: 0.00
' занҳои' start: 0.00 end: 0.00
' ҳомила,' start: 0.00 end: 0.00
' ҷавонон,' start: 0.00 end: 0.00
' байнихоҷагӣ,' start: 0.00 end: 0.00
' соҳили' start: 0.00 end: 0.00
' дарёию' start: 0.00 end: 0.00
' баҳрӣ' start: 0.00 end: 0.00
' ва' start: 0.00 end: 0.00
' ғ.)' start: 0.00 end: 0.00
' мешаванд.' start: 0.02 end: 0.99
' Осоишгоҳҳо' start: 0.70 end: 0.00
' барои' start: 0.00 end: 0.00
' дамгирии' start: 0.00 end: 0.00
' якрӯза,' start: 0.00 end: 0.00
' 6' start: 0.00 end: 0.00
' -рӯза,' start: 0.00 end: 0.00
' 12-рӯза' start: 0.00 end: 0.00
' ва' start: 0.00 end: 0.00
' 24-рӯза' start: 0.00 end: 0.00
' таъйин' start: 0.00 end: 0.00
' шудаанд.' start: 0.00 end: 1.00
'\nДар' start: 1.00 end: 0.00
' Тоҷикистон' start: 0.00 end: 0.00
' осоишгоҳҳои:' start: 0.00 end: 1.00
'\n«Қаротоғ»,' start: 1.00 end: 0.00
' «Явроз»' start: 0.00 end: 0.00
' дар' start: 0.00 end: 0.00
' водии' start: 0.00 end: 0.00
' Ҳисор;' start: 0.00 end: 1.00
'\nОсоишгоҳи' start: 0.99 end: 0.00
' Зумрад,' start: 0.00 end: 0.00
' «Баҳористон»,' start: 0.00 end: 0.00
' «Конибодом»,' start: 0.00 end: 0.00
' «Ҳавотоғ»,' start: 0.00 end: 0.00
' ва' start: 0.00 end: 0.00
' «Ӯротеппа»' start: 0.00 end: 0.00
' ва' start: 0.00 end: 0.00
' диг.' start: 0.00 end: 0.22
' дар' start: 0.12 end: 0.00
' вилояти' start: 0.00 end: 0.00
' Суғд;' start: 0.00 end: 1.00
'\n«Чилучорчашма»,' start: 1.00 end: 0.00
' «Сари' start: 0.00 end: 0.00
' Хосор»' start: 0.00 end: 0.00
' ва' start: 0.00 end: 0.00
' диг.' start: 0.00 end: 0.29
' дар' start: 0.17 end: 0.00
' вилояти' start: 0.00 end: 0.00
' Хатлон;' start: 0.00 end: 1.00
'\n«Гармчашма»' start: 1.00 end: 0.00
' ва' start: 0.00 end: 0.00
' диг.' start: 0.00 end: 0.31
' дар' start: 0.25 end: 0.00
' ВМКБ' start: 0.00 end: 0.00
' амал' start: 0.00 end: 0.00
' карда' start: 0.00 end: 0.00
' истодаанд.' start: 0.00 end: 1.00