reference set #10

lijiaxinxin · 2022-09-15T15:55:34Z

你好！
非常感谢你公布这项工作的代码。
目前我有一些关于reference set 的问题，希望能够得到你的解答。
1）在论文中提到使用100个字组成reference set，这100个字包含在全部的3396中，还是包含在常见的20K个字中？（正文中的表述和补充材料中的表述似乎不一致）

2) reference set 中的字是否需要包括论文中提及的374个组件（我在自定义reference set会出现达到了100个字，但是未包括所有组件的情况）

tlc121 · 2022-09-16T06:50:15Z

100个字不包括所有组件，只是这100字包括的组件可以cover 3396个常用汉字。因为很多组件出现在了生僻字内，我们没有对这些生僻字做mapping

lijiaxinxin · 2022-09-16T12:16:09Z

100个字不包括所有组件，只是这100字包括的组件可以cover 3396个常用汉字。因为很多组件出现在了生僻字内，我们没有对这些生僻字做mapping

这100个字的选择范围是什么呢？是只在训练集中的2896个汉字中挑选？还是在整个数据集的3396个汉字中挑选？

tlc121 · 2022-09-17T14:51:26Z

100个字不包括所有组件，只是这100字包括的组件可以cover 3396个常用汉字。因为很多组件出现在了生僻字内，我们没有对这些生僻字做mapping

这100个字的选择范围是什么呢？是只在训练集中的2896个汉字中挑选？还是在整个数据集的3396个汉字中挑选？

再3396的数据集外挑选100字，这100字可以cover包括训练集的2896 + 测试集的500。总汉字是3396 + 100 = 3496。100refernce不算训练集，我们不考虑reference字推理自己的情况。当然你可以自己挑选训练集和reference集

Provide feedback