Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于 中文 中 人名分析. #29

Open
yaoguangluo opened this issue May 8, 2019 · 5 comments
Open

关于 中文 中 人名分析. #29

yaoguangluo opened this issue May 8, 2019 · 5 comments

Comments

@yaoguangluo
Copy link
Owner

通过一段 时间对中文的 文学语法分析, 德塔统计出一个缺陷 . 人名在文章 中的划分 问题.

人的名字是由各种词性不同的单字组成, 如果 通过算法分析, 会直接导致算法臃肿. 而如果通过人名 词库,那么词库将大到数亿, 德塔推荐一种 标准将人名字 划分 是有必要的.

@yaoguangluo
Copy link
Owner Author

划分 可以借鉴 英文 比如 Mr. Yaoguang , 这里Y 大写进行了一个简单的区分 .

@yaoguangluo
Copy link
Owner Author

yaoguangluo commented May 8, 2019

deta可以设计一些区分 方法 比如 张柳是人名 , "张柳树下歇息", 可以 排版 为: '张柳'树下歇息, 上标号隔开表示人名,deta为什么选择上标 ' , 作者 认为
1上标号 宽间隔 最短.
2对比下划线等省油和 BIT 渲染 最少.
3书写时耗费时间最短.
4 .符号也短,但是.符号在中文中有句号和结尾 ,省略 的关键字意思 了.

@yaoguangluo
Copy link
Owner Author

DETA 只是推荐, 如果有更好的方法,德塔一直在学习和改进.

@yaoguangluo
Copy link
Owner Author

yaoguangluo commented May 11, 2019

算法日益完善和更新, 德塔思考了许久, 之前8个月编码分词论证, 只是基础, 现在真正的问题才开始,
1 快速混合缩写处理机.
2 繁体词汇的 <辞源> 补充. 家里2本老书2200页 5万多词汇, 怎么个录入法. 有很多字现在都删除了,只能在一些书法艺术作品中找到.
3 法语 俄语 德语 西语 和 其他 混合字符号 的 非 英语 切分 标准规范化. (先从法语 入手).
4 ...等...

@yaoguangluo
Copy link
Owner Author

不仅是人名词, deta通过1个月近700万字新闻 文章分析发现 一些缩写词' 同样没有词性逻辑可寻.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant