-
Notifications
You must be signed in to change notification settings - Fork 7
向分词模型添加自定义词典
冬日新雨 edited this page Oct 14, 2022
·
5 revisions
- 样例词典 文件提供了一份自定义词典样例
csdn 2
服务器 0.2
中华人民共和国 1
新冠疫苗
面试题 2.1
博客 2
- 词典文件中,每一行存放一条自定义词汇
- 每一行词条,分别包含
词条
和特征强度
两项,中间用\t
字符进行分隔 -
词条
是必须的,对于英文大小写敏感 -
特征强度
非必须,若不写,其默认值为1
,其取值范围为 0~无穷大。强度数值越大,则该词越容易被分词识别出来,数值越小则越不容易被识别。
- 例如,假设分词工具处理句子
“中华人民共和国成立于1949。”
。得到了["中华", "人民", "共和国", "成立", "于", "1949", "。"]
。 - 则添加上述词典后,处理结果会变为
["中华人民共和国", "成立", "于", "1949", "。"]
。 -
注意:之所以定义了
特征强度值
,是因为取值选择会影响处理结果,若将中华人民共和国
的强度值改为0.1
,有可能无法将中华人民共和国
识别为一个词。这种灵活性在处理一些具有歧义的词汇时有很大好处。
- 样例词典 文件提供了一份自定义词性标注词典样例
-
print(jiojio.init.__doc__)
可参考如何将词典引入模型
两面针 nz 0.3
昆士兰州 ns 0.9
美蛙鱼头 n
- 词典文件中,每一行存放一条自定义词汇及其词性
- 每一行词条,分别包含
词条
,词性
和特征强度
三项,中间用\t
字符进行分隔,特征强度
非必须项。 - 若指定了
特征强度
值,则模型根据强度值软性判断该词词性,并非100%完全属于对应词性,概率随强度值变化;若未指定,则以硬匹配为该词赋予相应词性,即100%属于对应词性。