ps:本文参考“裸睡的猪”公众号。 本文中所用的到第三方库有: requests jieba numpy Pillow wordcloud matplotlib 前言: 基于很多人没有体验过充气娃娃是什么感觉,但是又很好奇,所以希望通过爬虫+数据分析的方式直观而真实的告诉大家(下图为成品图) 一、技 ...
分类:
其他好文 时间:
2019-09-25 00:52:22
阅读次数:
132
本菜鸟入门机器学习也有一段时间了,有那么一丢丢的感悟,在这里做一点总结。介绍一下机器学习理论和实践的学习心得。 相关教材 数学基础 高数、线性代数这就没啥好说的,就是大学工科的必修科目。 统计机器学习 李航的 蓝皮书 和周志华的 西瓜书 可以说是国内的比较经典的教材,这两位也是国内人工智能领域的领军 ...
分类:
其他好文 时间:
2019-09-22 21:52:36
阅读次数:
110
import pandas as pd import jieba from sklearn.feature_extraction.text import CountVectorizer import numpy as np from sklearn.naive_bayes import Multin... ...
分类:
其他好文 时间:
2019-09-20 21:24:15
阅读次数:
70
本文主要讨论的是通过爬取天猫的销售数据和评论数据后,对数据进行清洗,并进行分析。流程大致为:1.通过selenium爬取销售数据; 2.通过selenium和re正则表达式爬取评论数据;3.通过pandas对数据进行清洗和分析;4.运用matplotlib和wordcount来进行可视化 1、故事的 ...
分类:
编程语言 时间:
2019-09-10 23:55:18
阅读次数:
212
语言:Python3.7 包:jieba counter re 出错内容:由于没有在写入文件中规定其编码方式,导致为16进制写入,设置编码方式即可 ...
分类:
编程语言 时间:
2019-09-10 18:01:04
阅读次数:
90
from collections import Counter import jieba import jieba.posseg from jieba import analyse import sys #jieba.suggest_freq('乡村小规模学校', True) import re i ...
分类:
其他好文 时间:
2019-09-04 09:36:11
阅读次数:
80
一、说明 数据来源:猫眼; 运行环境:Win10/Python3.7 和 Win7/Python3.5; 分析工具:jieba、WorldCloud、pyecharts和matplotlib; 程序基本思路:分析接口 —> 下载数据 —> 过滤数据 —> 保存文件 —> 统计分析; 注意:本文所有图 ...
分类:
编程语言 时间:
2019-08-31 19:41:06
阅读次数:
134
import jieba fp1=r'D:/python/a.txt' outph=r'D:/python/out.txt' f=open(fp1,'r',encoding='utf-8') txt=f.read().strip() f.close() words=jieba.lcut(txt) f... ...
分类:
其他好文 时间:
2019-08-31 19:11:08
阅读次数:
340
import jieba ls="中国是一个伟大的国家,是一个好的国家" print('原始文档为:',ls) counts={} # 定义统计字典 words=jieba.lcut(ls) print('分好的词组为:',words) for word in words: counts[word]... ...
分类:
其他好文 时间:
2019-08-30 11:25:09
阅读次数:
94
本实例主要用到python的jieba库 首先当然是安装pip install jieba 这里比较关键的是如下几个步骤: 加载文本,分析文本 对数据进行筛选和处理 创建列表显示和排序 具体脚本如下,每一步都有解析,就不分步解释了 毫无疑问,张无忌妥妥的主角 参考: https://gitee.co ...
分类:
编程语言 时间:
2019-08-27 22:43:57
阅读次数:
165