We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
你好! 非常感谢你公布这项工作的代码。 目前我有一些关于reference set 的问题,希望能够得到你的解答。 1)在论文中提到使用100个字组成reference set,这100个字包含在全部的3396中,还是包含在常见的20K个字中?(正文中的表述和补充材料中的表述似乎不一致)
2) reference set 中的字是否需要包括论文中提及的374个组件(我在自定义reference set会出现达到了100个字,但是未包括所有组件的情况)
The text was updated successfully, but these errors were encountered:
100个字不包括所有组件,只是这100字包括的组件可以cover 3396个常用汉字。因为很多组件出现在了生僻字内,我们没有对这些生僻字做mapping
Sorry, something went wrong.
这100个字的选择范围是什么呢?是只在训练集中的2896个汉字中挑选?还是在整个数据集的3396个汉字中挑选?
100个字不包括所有组件,只是这100字包括的组件可以cover 3396个常用汉字。因为很多组件出现在了生僻字内,我们没有对这些生僻字做mapping 这100个字的选择范围是什么呢?是只在训练集中的2896个汉字中挑选?还是在整个数据集的3396个汉字中挑选?
再3396的数据集外挑选100字,这100字可以cover包括训练集的2896 + 测试集的500。总汉字是3396 + 100 = 3496。100refernce不算训练集,我们不考虑reference字推理自己的情况。当然你可以自己挑选训练集和reference集
No branches or pull requests
你好!
非常感谢你公布这项工作的代码。
目前我有一些关于reference set 的问题,希望能够得到你的解答。
1)在论文中提到使用100个字组成reference set,这100个字包含在全部的3396中,还是包含在常见的20K个字中?(正文中的表述和补充材料中的表述似乎不一致)
2) reference set 中的字是否需要包括论文中提及的374个组件(我在自定义reference set会出现达到了100个字,但是未包括所有组件的情况)
The text was updated successfully, but these errors were encountered: