1. ajax 异步的 JavaScript和 XML。 对于传统的网页,如果想更新其内容,那么必须要刷新整个页面,但有了 Ajax,便可以在页面不被全部刷新的情况下更新其内容。 在这个过程中,页面实际上是在后台与服务器进行了数据交互,获 取到数据之后,再利用 JavaScript改变网页,这样网页 ...
分类:
编程语言 时间:
2018-10-14 23:06:36
阅读次数:
224
网址:https://touch.qunar.com 1.获取出发地站点列表: url:https://touch.dujia.qunar.com/depCities.qunar ...
分类:
其他好文 时间:
2018-10-10 19:07:45
阅读次数:
640
一、requests基于cookie操作 引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,因为没有携带登录的cookie,所以爬去下来的并不是个人主页数据,而是人人网首页的数据, ...
分类:
编程语言 时间:
2018-09-26 20:45:05
阅读次数:
226
基于PHP的数据爬取 [官方网站站点][1] 简单、 灵活、强大的PHP采集工具,让采集更简单一点。 简介: QueryList使用jQuery选择器来做采集,让你告别复杂的正则表达式;QueryList具有jQuery一样的DOM操作能力、Http网络操作能力、乱码解决能力、内容过滤能力以及可扩展 ...
分类:
Web程序 时间:
2018-09-14 23:07:28
阅读次数:
237
关于链家的数据爬取和分析 已经实现 代码还有很大的优化空间,python 是艺术品,需要慢慢的精雕细刻,在努力的路上! ...
分类:
其他好文 时间:
2018-09-09 00:36:01
阅读次数:
231
工具:python3.6 pycharm 库:bs4 + urllib 第一步:读取html源码 第二步:获取内容和标题 第三步:在当前目录下新建一个lesson的文件夹,将文件存储在此文件夹下 数据爬取完毕。 注:以上完成一个页面的抓取,若想多抓取页面的话,可用以下代码: ...
分类:
编程语言 时间:
2018-08-10 01:16:43
阅读次数:
190
内容简介 · · · · · · 本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容,接着通过多个案例介绍了不同场景下如何实 ...
分类:
编程语言 时间:
2018-07-24 13:13:56
阅读次数:
803
微博评论API 想要爬取某一条微博的评论,首先会想到微博官方提供的API,但是不巧的是,官方提供的api能够获取的评论数量有限,不足以分析,那怎么办呢? 我们想到了网页端,手机端的微博,希望直接爬取上面的数据。试了下网页端,可能网页做得很完善了吧,网页端找不到突破口,于是想到手机端碰碰运气。通过使用 ...
分类:
其他好文 时间:
2018-07-13 23:19:18
阅读次数:
183
2018-7-12python爬取历史天气数据 python 爬虫 天气数据 需求 需要几个城市的历史天气数据,为了方便最后入库,需要的字段为 城市、温度、天气。最好能生成一个完整的csv导入数据。 from bs4 import BeautifulSoup as bsp import urllib ...
分类:
编程语言 时间:
2018-07-12 23:56:01
阅读次数:
279
1.取出一个新闻列表页的全部新闻 包装成函数。 2.获取总的新闻篇数,算出新闻总页数。 3.获取全部新闻列表页的全部新闻详情。 4.找一个自己感兴趣的主题,进行数据爬取,并进行分词分析。不能与其它同学雷同。 1-3: 4(爬慕课网): ...
分类:
其他好文 时间:
2018-06-06 23:58:01
阅读次数:
291