Her bir satır aşağıdaki gibi noktalama işaretlerinden, özel karakterlerden temizlendi ve varsa link, mail adresi gibi bağlantılar kaldırıldı.
Java ile yazılmış türkçe nlp kütüphanesi olan Zemberek bilgisayarımızdaki JVM(java virtual machine) çalıştırarak ve gerekli dosyaları import edilerek kullanıldı. Bu doslayarı buradaki linkte bulabilirsiniz. Dosyaların görünümü şu şekilde:
Zemberek java kodu içerisindeki TurkishMorphology, TurkishSpellChecker, TurkishSentenceNormalizer classlarının methodları kullanıldı. Zemberek sonucundaki çıktı:
Pre-trained bert modeli import edildikten sonra bazı denemelerin sonuçları
Etiketsiz olan datayı etiketlemek için dataya uygun olarak hazırlanmış taglerini belirlediğimiz masaüstü ve mobil platformlarda kullanılabilir uygulamalar