Ce projet a été réalise avec l'association Article 1 par Amaury Faure dans le cadre d'un projet d'intégration à l'École Centrale de Lille. Le but du projet est de développer un algorithme permettant de repérer des contenus textuels "dangereux".
Le fichier Project_A1_Simple.ipynb
contient des implémentations d'algorithme de modération des messages utilisant la librairie Scikit-Learn. On utilise aussi la méthode de Bag Of Words ainsi que TF-IDF conjugué à une régression logisitique.
Le fichier Project_A1_CamemBERT.ipynb
contient une implémentation de CamemBERT, un réseau neuronal basé sur BERT, entrainé pour la classification de séquence.
Le fichier serving.ipynb
contient une implémentation du Serving d'un modèle CamemBERT via Ray-Serve.
Les 3 autres fichiers contiennent des textes utiles pour l'entraînement et le test des algorithmes :
AmauryModerationAllMessagesInspireFrom3Aout2020.xlsx
: Contient des échanges de la plateforme INSPIRE, indisponible sur ce répertoire.fr_dataset_test.csv
: Contient des tweets en français provenant de Multilingual and Multi-Aspect Hate Speech Analysis, où certains tweets utilisé pour l'entraînement ont été retiréselected_tweets.csv
: un fichier contenant des tweets sélectionnés pour l'entraînement. Plus d'informations sur la sélection des tweets here.
Pour réutiliser ces notebooks il faudra soit les télécharger et les utiliser en local soit les ouvrir directement dans google colab. Concernant le notebook CamemBERT, étant donné le besoin d'un GPU, je conseille de l'ouvrir avec Google Colab dans un premier temps.
Pour faire tourner les notebooks, j'importe les fichiers présent dans ce répertoire via mon Drive. Il faudra donc probalement changer le chemin des fichiers pour correspondre à votre emplacement.
Une fois cela fait chaque notebook doit pouvoir s'éxécuter.