Projet d'intégration INSPIRE Article 1

Ce projet a été réalise avec l'association Article 1 par Amaury Faure dans le cadre d'un projet d'intégration à l'École Centrale de Lille. Le but du projet est de développer un algorithme permettant de repérer des contenus textuels "dangereux".

Description du projet :

Le fichier Project_A1_Simple.ipynb contient des implémentations d'algorithme de modération des messages utilisant la librairie Scikit-Learn. On utilise aussi la méthode de Bag Of Words ainsi que TF-IDF conjugué à une régression logisitique.

Le fichier Project_A1_CamemBERT.ipynb contient une implémentation de CamemBERT, un réseau neuronal basé sur BERT, entrainé pour la classification de séquence.

Le fichier serving.ipynb contient une implémentation du Serving d'un modèle CamemBERT via Ray-Serve.

Les 3 autres fichiers contiennent des textes utiles pour l'entraînement et le test des algorithmes :

AmauryModerationAllMessagesInspireFrom3Aout2020.xlsx: Contient des échanges de la plateforme INSPIRE, indisponible sur ce répertoire.
fr_dataset_test.csv: Contient des tweets en français provenant de Multilingual and Multi-Aspect Hate Speech Analysis, où certains tweets utilisé pour l'entraînement ont été retiré
selected_tweets.csv: un fichier contenant des tweets sélectionnés pour l'entraînement. Plus d'informations sur la sélection des tweets here.

Réutilisation des notebooks :

Pour réutiliser ces notebooks il faudra soit les télécharger et les utiliser en local soit les ouvrir directement dans google colab. Concernant le notebook CamemBERT, étant donné le besoin d'un GPU, je conseille de l'ouvrir avec Google Colab dans un premier temps.

Pour faire tourner les notebooks, j'importe les fichiers présent dans ce répertoire via mon Drive. Il faudra donc probalement changer le chemin des fichiers pour correspondre à votre emplacement.

Une fois cela fait chaque notebook doit pouvoir s'éxécuter.

Name		Name	Last commit message	Last commit date
Latest commit History 25 Commits
LICENSE		LICENSE
Project_A1_CamemBERT.ipynb		Project_A1_CamemBERT.ipynb
Project_A1_simple.ipynb		Project_A1_simple.ipynb
README.md		README.md
Reusing_Camembert.md		Reusing_Camembert.md
Serving_Camembert.md		Serving_Camembert.md
fr_dataset_test.csv		fr_dataset_test.csv
selected_tweets.csv		selected_tweets.csv
serving.ipynb		serving.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Projet d'intégration INSPIRE Article 1

Description du projet :

Réutilisation des notebooks :

About

Releases

Packages

Languages

License

AmauryFaure/project_article_1

Folders and files

Latest commit

History

Repository files navigation

Projet d'intégration INSPIRE Article 1

Description du projet :

Réutilisation des notebooks :

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages