-
Notifications
You must be signed in to change notification settings - Fork 7
jiojio 分词CRF特征总结
冬日新雨 edited this page Jun 1, 2022
·
13 revisions
- CRF 以特征进行标签分类,特征的处理对于模型的效果至关重要。
- 本工具中,对于 CRF 的特征分为单字特征、双字特征、歧义词组特征几类。
- 统计词长的数量与占比
词长 | 1 | 2 | 3 | 4 | 5 | 5+ |
---|---|---|---|---|---|---|
占比 | 45.60% | 45.95% | 5.75% | 1.41% | 0.63% | 0.58% |
- 即,90%以上的词汇,长度仅为 1或2字符。
- 即前后位置的单字特征,例如:
我大学毕业已经7年了
中,业
字对应的单字特征包括“c-2学”、“c-1毕”、“c业”、“c1已”、“c2经”等。 - 默认前后包括位置偏移量为 2 的特征,当然也可以自行增加。不过,考虑分词数据统计词长,过长的单字特征过于稀疏,比如“c-3大”,已经失去统计意义。
- 即前后位置的双字特征,例如:
我大学毕业已经7年了
中,业
字对应的单字特征包括“c-2c-1学毕”、“c-1c毕业”、“cc1业已”、“c1c2已经”等。 - 同理,该特征若过长,同样会存在特征过于稀疏,失去统计意义的情况。
- 为增强分词词汇的边界,制定连续双词特征,例如:
我大学毕业已经7年了。
中,业
字对应的连续双词汇特征包括“w1毕业.已经”等,此时,可以发现,除此特征之外,还包括一个特征,“w2学毕.业已”。这两个也可以单独成词,分别造例句为,学毕,归家
,司法程序业已完成
。当然,w2 词汇特征是错误的分词方法,此时出现词汇的歧义情况。 - 另举例,
不要觊觎她的美貌。
中,觊
同样包括连续词汇特征,“w1不要.觊觎”。但不包括“w2要觊.觎她”。原因在于这两个并非词汇。 - 通过上例发现,连续双词特征分为存在歧义的双词和不存在歧义的双词。只有存在歧义的双词,才有必要使用双词特征进行区分,无歧义的双词仅使用双字特征即可完成分词任务。
- 经统计,具有歧义的双词特征,也即在连续双词中仍存其它词汇,其比例占总特征数量的不到10%。因此,仅获取具有歧义的双词特征可以大幅度减少词汇特征数量,压缩模型大小,提供计算效率。
- 即AABB叠词特征,通常倾向于同字合并在一起,例如:
漂漂亮亮的小姑凉
,兜兜转转又回到了家乡
,奇奇怪怪的画
。 - AABB叠词和分词特征一般有两种分法:“AABB” 完全合并为一个词,此种情况一般是同为形容词
和和气气
、奇奇怪怪
等,或同为动词敲敲打打
、摇摇晃晃
等;还有一些特殊的如的的确确
。另外一种分法为“AA”和“BB”,此时情况一般为同为名词、代词爸爸妈妈
、弟弟妹妹
、莺莺燕燕
、星星点点
、山山水水
等,或前为副词,后为动词好好改改
、细细查查
等,或前为动词,后为名词代词看看妈妈
等。 - 有考虑过将叠词抽象出特征来进行处理,但发现有若干异常情况,例如:
其中中国国家队的队员们表现尤其出彩
,大学学院院长张秋芳
,阿里巴巴刚刚启动裁员
等,是无法将叠字合并为一个词的。 - 因此,在语料中,利用jionlp 工具包的分词数据矫正工具对 AABB 词汇做了全面的数据校验,提示标注数据的质量。
- 即ABAB叠词特征,通常不倾向于同字合并在一起,例如:
说起话来一套一套的
,把竹子一节一节砍下来
,真的是非常非常奇怪
,尼泊尔帕尔帕地区
,想和客户进行面对面对接
,他们衣服的形式各式各样,眼花缭乱
,刑警支队支队长王松林
,会不会不利于竞争
,好啦好啦,不要生气啦
。 - 可以看出ABAB类词汇基本不具有可以合并为一的特征,因此,在语料中,无法进行专项的语料数据矫正和清晰。