码迷,mamicode.com
首页 > 其他好文 > 详细

Wikipedia Extractor处理维基百科数据

时间:2021-04-02 13:18:23      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:page   org   有一个   hub   latest   rac   维基百科   解压   直接   

1. 下载维基百科数据:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

2. 去Github上下载Wikipedia Extractor,直接下载zip即可

3. 解压,进入目录可以看到有一个setup.py

 使用python setup.py install 进行安装

4. 安装后使用wikiextractor -b 3000M -o extracted\ zhwiki-latest-pages-articles.xml.bz2进行处理即可

Wikipedia Extractor处理维基百科数据

标签:page   org   有一个   hub   latest   rac   维基百科   解压   直接   

原文地址:https://www.cnblogs.com/dongshuaishuai/p/14607978.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!