Este repositório contém o código desenvolvido para este artigo do Interruptor, em que exploramos vários modelos de processamento de linguagem natural na distinção de heterónimos de Fernando Pessoa. Está escrito em Python3. Inclui:
- Criação de conjunto de dados
- Conjunto de dados com a obra completa de Fernando Pessoa
- Exploração de dados e aplicação do modelo LDA para diferenciação de tópicos
- Jupyter Notebook
- pandas
- GNU Wget
- BeautifulSoup4
- Numpy
- Matplotlib
- scikit-learn
- Wordcloud
- NLTK
- Gensim
- PyLDAvis
O código é partilhado sob uma licença GNU GPL-3.0.