偷懒若干天后回归。。在上一篇中我们得到了NLPCC2013的中文微博数据,将其按照8:1:1的比例分成了训练集,验证集和测试集。下一步就是对数据进行预处理以及embedding。这是第一次尝试一边写博客一边把自己的想法记录下来,希望有所帮助。 分析:按照体量的大小可以将文本分为字级别->词级别->实 ...
分类:
其他好文 时间:
2018-10-02 20:10:56
阅读次数:
445
https://www.jianshu.com/p/4fb27471295f 现成工具 https://blog.csdn.net/zhchs2012/article/details/79062632 用Python绘制词云图 - CSDN博客 blog.csdn.net 基于我之前爬取的微博数据, ...
分类:
其他好文 时间:
2018-09-11 11:16:06
阅读次数:
228
什么是爬虫? 百度百科:网络爬虫(又被称为网页,网络机器人,在社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取信息的程序或者脚本。 最近很多朋友问我,学习爬虫,学到什么程度可以去找工作呢? 这篇文章会说说我自己的心得体验,关于爬虫、关于工作,仅供参考 为什么那么多人选择学习爬虫? ...
分类:
其他好文 时间:
2018-08-04 15:50:30
阅读次数:
1309
由于硬件等各种原因需要把大概170多万2t左右的微博图片数据存到Mysql中.之前存微博数据一直用的非关系型数据库mongodb,由于对Mysql的各种不熟悉,踩了无数坑,来来回回改了3天才完成。挖坑填坑之旅建表存数据的时候首先需要设计数据库,我准备设计了3
分类:
数据库 时间:
2018-01-14 13:08:32
阅读次数:
193
微博数据清洗(Java版) 原创 2013年12月10日 10:58:24 2979 原创 2013年12月10日 10:58:24 2979 大数据公益大学提供的一份数据,义务处理一下,原始数据是Excel,含有html标签,如下: 要求清洗掉html标签,和微博内容中的url地址。 主要分为两部 ...
分类:
编程语言 时间:
2017-11-08 13:08:39
阅读次数:
229
很早之前写过一篇怎么利用微博数据制作词云图片出来,之前的写得不完整,而且只能使用自己的数据,现在重新整理了一下,任何的微博数据都可以制作出来,放在今天应该比较应景。 一年一度的虐汪节,是继续蹲在角落默默吃狗粮还是主动出击告别单身汪加入散狗粮的行列就看你啦,七夕送什么才有心意,程序猿可以试试用一种特别 ...
分类:
编程语言 时间:
2017-10-27 15:55:11
阅读次数:
385
一年一度的虐狗节将至,朋友圈各种晒,晒自拍,晒娃,晒美食,秀恩爱的。程序员在晒什么,程序员在加班。但是礼物还是少不了的,送什么好?作为程序员,我准备了一份特别的礼物,用以往发的微博数据打造一颗“爱心”,我想她一定会感动得哭了吧。哈哈 准备工作 有了想法之后就开始行动了,自然最先想到的就是用 Pyth ...
分类:
编程语言 时间:
2017-10-27 15:36:21
阅读次数:
224
上一节(一一五)利用NSKeyedArchiver实现随意对象转为二进制介绍了将随意对象转化为二进制数据和还原的方法。可用于实现本节介绍的微博数据离线缓存。 通过新浪官方的API能够发现,返回的微博数据例如以下样式: { "statuses": [ { "created_at": "Tue May ...
分类:
其他好文 时间:
2017-07-23 19:54:30
阅读次数:
199
数据集下载地址:下载 摘要:MicroblogPCU是从新浪微博採集到的。它能够被用于研究机器学习方法和社会关系研究。 这个数据集被原作者用于探索微博中的spammers(发送垃圾信息的人)。他们的demo在这里 数据集的属性信息: weibo_user.csv -user_id: 用户ID -us ...
分类:
其他好文 时间:
2017-05-21 22:37:23
阅读次数:
1185
开始抓取微博数据的时候,只是想获得一条热门微博下的所有评论,因为里面有不少图片广告,所以想试试能不能分析出热门微博评论里的异常用户。 使用PHP的Laravel框架后,通过队列、命令等各种功能,最后构架了一套完整的微博用户数据抓取平台,经过一段时间的运行积累了大量数据,那么使用这些数据能做什么呢? ...
分类:
Web程序 时间:
2017-04-04 23:19:31
阅读次数:
244