from lxml import etreeimport requestsimport csvfp = open('E:/doubanbook.csv','wt',newline='',encoding='utf-8')writer = csv.writer(fp)writer.writerow(( ...
分类:
其他好文 时间:
2018-07-03 21:38:43
阅读次数:
266
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>豆瓣</title> <link rel="stylesheet" href="../css/reset.css"> <link rel="stylesheet ...
分类:
Web程序 时间:
2018-07-02 00:14:16
阅读次数:
208
#coding=utf-8from selenium import webdriverdef crawMovie(): driver=webdriver.PhantomJS() driver.get("https://movie.douban.com/") movie_list=[] more_bt ...
分类:
编程语言 时间:
2018-07-01 16:54:32
阅读次数:
161
这几天在学习selenium,顺便用selenium + python写了一个比较简陋的爬虫,现附上源码,有时间再补充补充: 控制台输出 保存到文件 ...
分类:
其他好文 时间:
2018-07-01 10:32:16
阅读次数:
531
首先回顾一下MongoDB的基本操作: stringhashlistsetzset 增加mysql:insert into 表名(列) values(值)mongo:db.集合名.insert({}) 修改:mysql:update 表名 set 列=值 where 条件mongo:db.集合名.u ...
分类:
数据库 时间:
2018-06-30 14:42:21
阅读次数:
166
前文参考: Python爬虫(一)——豆瓣下图书信息 Python爬虫(二)——豆瓣图书决策树构建 Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析 数据的构建 在这张表中我们可以发现这里有5个数据,这里有三个特征(评分是否超过8.0,评分是否超过9.5,评价数是否超过45,000) ...
分类:
编程语言 时间:
2018-06-26 12:25:03
阅读次数:
197
pip国内的一些镜像 阿里云 http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 豆瓣(douban) http://pypi.douban.com/simple/ 清华大学 h ...
分类:
编程语言 时间:
2018-06-25 17:03:28
阅读次数:
1546
文化 经管 ....略 结论: 一个模块的评分与评论数相关,评分为 [8.8——9.2] 之间的书籍评论数往往是模块中最多的 ...
分类:
编程语言 时间:
2018-06-24 00:34:55
阅读次数:
189
爬虫代码概述 一.数据存储 csv文件存储,为方便后继使用pandas进行分析,对于爬取的html文件使用BeautifulSoup进行解析 字段选择为 : 书名(titles) 作者/出版社(authors) 评分(nums) 评论数(peoples) 二.网页解析 html中书名(titles) ...
分类:
编程语言 时间:
2018-06-23 17:12:06
阅读次数:
257