-
Notifications
You must be signed in to change notification settings - Fork 88
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于 中文 中 人名分析. #29
Comments
划分 可以借鉴 英文 比如 Mr. Yaoguang , 这里Y 大写进行了一个简单的区分 . |
deta可以设计一些区分 方法 比如 张柳是人名 , "张柳树下歇息", 可以 排版 为: '张柳'树下歇息, 上标号隔开表示人名,deta为什么选择上标 ' , 作者 认为 |
DETA 只是推荐, 如果有更好的方法,德塔一直在学习和改进. |
算法日益完善和更新, 德塔思考了许久, 之前8个月编码分词论证, 只是基础, 现在真正的问题才开始, |
不仅是人名词, deta通过1个月近700万字新闻 文章分析发现 一些缩写词' 同样没有词性逻辑可寻. |
通过一段 时间对中文的 文学语法分析, 德塔统计出一个缺陷 . 人名在文章 中的划分 问题.
人的名字是由各种词性不同的单字组成, 如果 通过算法分析, 会直接导致算法臃肿. 而如果通过人名 词库,那么词库将大到数亿, 德塔推荐一种 标准将人名字 划分 是有必要的.
The text was updated successfully, but these errors were encountered: