1 # _*_ coding:UTF _8_ 2 from bs4 import BeautifulSoup 3 import requests,sys 4 class downloader(object): 5 def __init__(self): 6 self.server = 'http:/... ...
分类:
编程语言 时间:
2018-03-22 13:40:09
阅读次数:
173
豆瓣3.21 1 #coding:utf-8 2 #采集豆瓣书信息和图片,写进数据库 3 4 from urllib import request 5 # from bs4 import BeautifulSoup 6 from lxml import etree 7 import json,pym ...
分类:
数据库 时间:
2018-03-22 10:50:55
阅读次数:
201
可以放在服务器上当作计划任务来运行,监测用户某一个时间段内的微博动态,并使用短信平台发送友情提示信息。 python from datetime import datetime, timedelta import requests import sqlite3 from bs4 import Bea ...
分类:
其他好文 时间:
2018-03-21 11:41:28
阅读次数:
163
BeautifulSoup网页解析库 from bs4 import BeautifulSoup 0.BeautifulSoup网页解析库包含 的 几个解析器 Python标准库【主要,系统自带;】 使用方法: BeautifulSoup(markup,"html.parser")【注:markup ...
分类:
编程语言 时间:
2018-03-18 16:23:04
阅读次数:
245
from bs4 import BeautifulSoup soup=BeautifulSoup(html_doc,'lxml') #具有容错功能res=soup.prettify() #处理好缩进,结构化显示 find_all( name , attrs , recursive , text , ...
分类:
其他好文 时间:
2018-03-11 00:35:36
阅读次数:
168
**** # -*- coding:utf-8 -*-from urllib import requestfrom bs4 import BeautifulSoupimport reimport time url = "https://www.zhihu.com/question/22918070" ...
分类:
编程语言 时间:
2018-03-06 17:11:35
阅读次数:
282
环境是win10 python3.5 安装beautifulsoup后,运行测试报错 经过测试发现是lxml的问题,使用 pip install lxml时,自动安装的 4.1.1版本, 下载lxml 3.7.3 安装后,问题解决 ...
分类:
其他好文 时间:
2018-03-01 23:39:01
阅读次数:
717
使用VS Code, 在mac(linux也可以)/win10上面开发一个基于asp.net core 2.0/sql server linux版/angular 5/bootstrap 4的小项目. 这里还用到了docker. 第2篇文章主要介绍了Entity Framework core的集成,... ...
分类:
数据库 时间:
2018-03-01 23:31:07
阅读次数:
413
提示:本学习来自Ehco前辈的文章, 经过实现得出的笔记。 目标网站 网站结构 要爬的部分,在ul标签下(包括li标签), 大致来说迭代li标签的内容输出即可。 遇到的问题? 代码简单, 但遇到的问题很多。 一: 编码 这里统一使用gbk了。 二: 库 过程中缺少requests,bs4,idna, ...
分类:
编程语言 时间:
2018-02-26 16:25:42
阅读次数:
1908
第一次使用scrapy,记下爬过的坑 1,xpath语法,xpath语法用于选取需要的数据,用过bs4会比较好的理解它,类似于从一目录树查找, xpath(‘/html/body/div/div‘),这是绝对路径找数据 xpath(‘//*[@id = “niubi”]‘),这是相对路径找数据 还可 ...
分类:
其他好文 时间:
2018-02-21 22:22:13
阅读次数:
512