码迷,mamicode.com
首页 >  
搜索关键字:spark-文本分词    ( 1个结果
spark + ansj 对大数据量中文进行分词
目前的分词器大部分都是单机服务器进行分词,或者使用hadoop mapreduce对存储在hdfs中大量的数据文本进行分词。由于mapreduce的速度较慢,相对spark来说代码书写较繁琐。本文使用spark + ansj对存储在hdfs中的中文文本数据进行分词。...
分类:其他好文   时间:2015-05-14 16:43:27    阅读次数:350
1条  
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!