爬取前的准备: BeautifulSoup的导入:pip install BeautifulSoup4 requests的导入:pip install requests 下载jupyter notebook:pip install jupyter notebook 下载python,配置环境(可使用 ...
分类:
编程语言 时间:
2017-07-29 23:14:38
阅读次数:
566
import urllib2 import requests #import MySQLdb import webbrowser import string import re from BeautifulSoup import BeautifulSoup def getHtml(page):#获取 ...
分类:
其他好文 时间:
2017-06-15 22:01:25
阅读次数:
212
新浪新闻内容采用的是ajax动态显示内容,通过抓包,发现如下规律: 每次请求下一页,js那一栏都会出现新的url: ...
分类:
编程语言 时间:
2017-06-11 14:56:55
阅读次数:
1182
案例一 抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称、时间、链接。 完整代码: from bs4 import BeautifulSoup import requests url = 'http://news.sina.com.cn/c ...
分类:
编程语言 时间:
2017-06-08 01:20:35
阅读次数:
2687
发请求(url) 1.client 》服务端 发送数据(Json/xml) < 1. XML格式 常见: plist文件, 网易新闻, 新浪新闻 XML文档 标签/节点 <root></root> 最外层的root 称为根节点 标签名 root <CityName>北京</CityName> 标签值 ...
分类:
Web程序 时间:
2017-06-04 19:56:41
阅读次数:
255
上一篇文章《Python爬虫:抓取新浪新闻数据》详细解说了如何抓取新浪新闻详情页的相关数据,但代码的构建不利于后续扩展,每次抓取新的详情页时都需要重新写一遍,因此,我们需要将其整理成函数,方便直接调用。 详情页抓取的6个数据:新闻标题、评论数、时间、来源、正文、责任编辑。 首先,我们先将评论数整理成 ...
分类:
编程语言 时间:
2017-06-02 13:28:54
阅读次数:
275
我用手机打开新浪新闻,用wireshark抓包发现并没有到sina网站的流量。我们都知道,互联网访问肯定是必须有网络数据包的。那么新浪网的数据从哪里走了呢?经过仔细分析,发现了如下的数据包:访问网站时,客户机往vs15.bjct.u3.ucweb.com:8080发了一个请求,在返回的数据包中却..
分类:
其他好文 时间:
2017-05-10 22:02:35
阅读次数:
418
昨晚在网易云课堂上看到了这个爬虫教程,是个基础入门教程,看了几节课,按照示例也去爬了一下新闻标题 课程一些截图: ...
分类:
其他好文 时间:
2016-12-31 16:38:07
阅读次数:
298
import requestsfrom bs4 import BeautifulSoupres = requests.get('http://news.sina.com.cn/china/')res.encoding='utf-8'soup = BeautifulSoup(res.text,'htm ...
分类:
其他好文 时间:
2016-11-27 19:23:08
阅读次数:
206
转载请注明: 吹水小镇 | reetsee.com原文链接地址: http://blog.reetsee.com/archives/237 0 前言 先说说看这篇博客你能知道什么:1 腾讯、网易、新浪不同新闻的地址格式以及评论内容的地址格式(返回数据为json的异步接口);2 一些比较通用的设计方法 ...
分类:
Web程序 时间:
2016-10-03 07:00:00
阅读次数:
2732