Skip to content

向分词模型添加自定义词典

冬日新雨 edited this page Oct 14, 2022 · 5 revisions

分词词典结构说明

csdn	2
服务器	0.2
中华人民共和国	1
新冠疫苗
面试题	2.1
博客	2
  • 词典文件中,每一行存放一条自定义词汇
  • 每一行词条,分别包含词条特征强度两项,中间用\t字符进行分隔
  • 词条是必须的,对于英文大小写敏感
  • 特征强度非必须,若不写,其默认值为 1,其取值范围为 0~无穷大。强度数值越大,则该词越容易被分词识别出来,数值越小则越不容易被识别。

举例

  • 例如,假设分词工具处理句子 “中华人民共和国成立于1949。”。得到了 ["中华", "人民", "共和国", "成立", "于", "1949", "。"]
  • 则添加上述词典后,处理结果会变为 ["中华人民共和国", "成立", "于", "1949", "。"]
  • 注意:之所以定义了特征强度值,是因为取值选择会影响处理结果,若将中华人民共和国的强度值改为 0.1,有可能无法将 中华人民共和国 识别为一个词。这种灵活性在处理一些具有歧义的词汇时有很大好处。

词性标注词典结构说明

  • 样例词典 文件提供了一份自定义词性标注词典样例
  • print(jiojio.init.__doc__) 可参考如何将词典引入模型
两面针	nz	0.3
昆士兰州	ns	0.9
美蛙鱼头	n
  • 词典文件中,每一行存放一条自定义词汇及其词性
  • 每一行词条,分别包含词条词性特征强度三项,中间用\t字符进行分隔,特征强度非必须项。
  • 若指定了特征强度值,则模型根据强度值软性判断该词词性,并非100%完全属于对应词性,概率随强度值变化;若未指定,则以硬匹配为该词赋予相应词性,即100%属于对应词性。