“中文分词与序列标注。”
前言
自然语言处理领域中的很多问题都可以转换为序列标注问题,分词问题也可以。这里列出一种基于RNN的中文分词算法,以供参考。
正文
中文分词算法
文件有好几个,这里不列出了,具体代码参考github
后记
分词算法的关键有两个,算法和词典。缺了其中一个,效果都不会太好,可惜现在互联网上公布的标注语料库太少了,希望将来能做一份贡献吧。
“中文分词与序列标注。”
自然语言处理领域中的很多问题都可以转换为序列标注问题,分词问题也可以。这里列出一种基于RNN的中文分词算法,以供参考。
文件有好几个,这里不列出了,具体代码参考github
分词算法的关键有两个,算法和词典。缺了其中一个,效果都不会太好,可惜现在互联网上公布的标注语料库太少了,希望将来能做一份贡献吧。