Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

reference set #10

Open
lijiaxinxin opened this issue Sep 15, 2022 · 3 comments
Open

reference set #10

lijiaxinxin opened this issue Sep 15, 2022 · 3 comments

Comments

@lijiaxinxin
Copy link

lijiaxinxin commented Sep 15, 2022

你好!
非常感谢你公布这项工作的代码。
目前我有一些关于reference set 的问题,希望能够得到你的解答。
1)在论文中提到使用100个字组成reference set,这100个字包含在全部的3396中,还是包含在常见的20K个字中?(正文中的表述和补充材料中的表述似乎不一致)
d4813a4dbe4ebaf07c5fb0b1cac5558

759c276f541f230a7030d1775d1987e
2) reference set 中的字是否需要包括论文中提及的374个组件(我在自定义reference set会出现达到了100个字,但是未包括所有组件的情况)

@tlc121
Copy link
Owner

tlc121 commented Sep 16, 2022

100个字不包括所有组件,只是这100字包括的组件可以cover 3396个常用汉字。因为很多组件出现在了生僻字内,我们没有对这些生僻字做mapping

@lijiaxinxin
Copy link
Author

100个字不包括所有组件,只是这100字包括的组件可以cover 3396个常用汉字。因为很多组件出现在了生僻字内,我们没有对这些生僻字做mapping

这100个字的选择范围是什么呢?是只在训练集中的2896个汉字中挑选?还是在整个数据集的3396个汉字中挑选?

@tlc121
Copy link
Owner

tlc121 commented Sep 17, 2022

100个字不包括所有组件,只是这100字包括的组件可以cover 3396个常用汉字。因为很多组件出现在了生僻字内,我们没有对这些生僻字做mapping

这100个字的选择范围是什么呢?是只在训练集中的2896个汉字中挑选?还是在整个数据集的3396个汉字中挑选?

再3396的数据集外挑选100字,这100字可以cover包括训练集的2896 + 测试集的500。总汉字是3396 + 100 = 3496。100refernce不算训练集,我们不考虑reference字推理自己的情况。当然你可以自己挑选训练集和reference集

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants