Skip to content

zgd716/porn_text_model

Repository files navigation

该项目主要train一个模型(判断短文本是否为色情文本),主要有三个model:textcnn/textrnn+attention/textrcnn

最开始打算使用textcnn和textrnn进行融合,但是textcnn模型效果较差,故只使用了textrnn+attention模型

流程如下:

1、data目录下的import_porn.txt色情短文本;import_unporn.txt正常短文本。通过corpus_helper.py中的insert_data方法可以将语料导入到mysql中

2、执行python train.py可以将mysql中语料获取、训练textrnn+attention模型;最后保存模型并固化

※note:

data目录下有actress.txt(女优演员)和fh.txt(番号);可以通过这两个字典对日影片进行过滤

Releases

No releases published

Packages

No packages published

Languages