向分词模型添加自定义词典

Jump to bottom

冬日新雨 edited this page Oct 14, 2022 · 5 revisions

分词词典结构说明

样例词典文件提供了一份自定义词典样例

csdn	2
服务器	0.2
中华人民共和国	1
新冠疫苗
面试题	2.1
博客	2

词典文件中，每一行存放一条自定义词汇
每一行词条，分别包含词条和特征强度两项，中间用\t字符进行分隔
词条是必须的，对于英文大小写敏感
特征强度非必须，若不写，其默认值为 1，其取值范围为 0~无穷大。强度数值越大，则该词越容易被分词识别出来，数值越小则越不容易被识别。

举例

例如，假设分词工具处理句子 “中华人民共和国成立于1949。”。得到了 ["中华", "人民", "共和国", "成立", "于", "1949", "。"]。
则添加上述词典后，处理结果会变为 ["中华人民共和国", "成立", "于", "1949", "。"]。
注意：之所以定义了特征强度值，是因为取值选择会影响处理结果，若将中华人民共和国的强度值改为 0.1，有可能无法将 中华人民共和国 识别为一个词。这种灵活性在处理一些具有歧义的词汇时有很大好处。

词性标注词典结构说明

样例词典文件提供了一份自定义词性标注词典样例
print(jiojio.init.__doc__) 可参考如何将词典引入模型

两面针	nz	0.3
昆士兰州	ns	0.9
美蛙鱼头	n

词典文件中，每一行存放一条自定义词汇及其词性
每一行词条，分别包含词条，词性和特征强度三项，中间用\t字符进行分隔，特征强度非必须项。
若指定了特征强度值，则模型根据强度值软性判断该词词性，并非100%完全属于对应词性，概率随强度值变化；若未指定，则以硬匹配为该词赋予相应词性，即100%属于对应词性。