GitHub

该项目主要train一个模型（判断短文本是否为色情文本），主要有三个model:textcnn/textrnn+attention/textrcnn

最开始打算使用textcnn和textrnn进行融合，但是textcnn模型效果较差，故只使用了textrnn+attention模型

流程如下：

1、data目录下的import_porn.txt色情短文本；import_unporn.txt正常短文本。通过corpus_helper.py中的insert_data方法可以将语料导入到mysql中

2、执行python train.py可以将mysql中语料获取、训练textrnn+attention模型；最后保存模型并固化

※note:

data目录下有actress.txt（女优演员）和fh.txt(番号)；可以通过这两个字典对日影片进行过滤

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
data		data
models		models
MysqlHelper.py		MysqlHelper.py
README.md		README.md
corpus_helper.py		corpus_helper.py
freeze.py		freeze.py
import_actress.py		import_actress.py
import_fh.py		import_fh.py
preprocessing.py		preprocessing.py
stopwords.txt		stopwords.txt
train.py		train.py
train_textrnn.py		train_textrnn.py
vocab.pkl		vocab.pkl
vocab_to_int.pkl		vocab_to_int.pkl

Provide feedback