requests 模块 用法 示例 import requests from urllib.parse import urlencode # 请求方式 kwords = input("请输入关键字:>>").strip() res = urlencode({"wd":kwords}) # # 请求的 ...
分类:
其他好文 时间:
2019-02-09 10:35:59
阅读次数:
169
解决该错误的正确姿势是更新pyOpenSSL库。输入命令: 参见: https://github.com/requests/requests/issues/4246 ...
分类:
编程语言 时间:
2019-02-09 00:59:41
阅读次数:
236
容器是镜像运行的实例,而镜像保存在仓库里,测试或者发布生产环境只需要pull下来即可,相对传统的应用部署,能很好的保持环境的一致,节省运维时间。最近公司内部的java和.net服务也已经全部容器化,实现从开发环境 到 测试环境 再到 生产环境,自动化部署。本文介绍的是python应用运行docker ...
分类:
编程语言 时间:
2019-02-09 00:59:30
阅读次数:
315
今天尝试使用python,爬取网页数据。因为python是新安装好的,所以要正常运行爬取数据的代码需要提前安装插件。分别为requests Beautifulsoup4 lxml 三个插件。 因为配置了环境变量,可以cmd命令直接安装。假如电脑上有两个版本的python,建议进入到目录安装。 安装的 ...
分类:
编程语言 时间:
2019-02-09 00:59:07
阅读次数:
284
1.简介 1.实战1 """微博首页数据抓取实战,根据ajax请求抓取微博首页数据到mongodb数据库""" import time import requests from urllib.parse import urlencode from pyquery import PyQuery fro ...
分类:
Web程序 时间:
2019-02-08 23:22:51
阅读次数:
271
我们需要爬取的网站:最好大学网 我们需要爬取的内容即为该网页中的表格部分: 该部分的html关键代码为: 其中整个表的标签为<tbody>标签,每行的标签为<tr>标签,每行中的每个单元格的标签为<td>标签,而我们所需的内容即为每个单元格中的内容。 因此编写程序的大概思路就是先找到整个表格的<tb ...
分类:
编程语言 时间:
2019-02-08 20:04:04
阅读次数:
222
第一篇:爬虫基本原理 第二篇:请求库之requests,selenium 第三篇:解析库之re、beautifulsoup、pyquery 第四篇:存储库之mongodb,redis,mysql 第五篇:爬虫高性能相关 第六篇:Scrapy框架 第七篇:分布式爬虫 第八篇:爬虫实战 付费(加qq群7 ...
分类:
其他好文 时间:
2019-02-07 19:02:58
阅读次数:
166
在学爬虫之前, 最好有一些html基础, 才能更好的分析网页. 主要是五步: 1. 获取链接 2. 正则匹配 3. 获取内容 4. 处理内容 5. 写入文件 代码如下: 1 #导入相关model 2 from bs4 import BeautifulSoup 3 import requests 4 ...
分类:
编程语言 时间:
2019-02-05 18:25:09
阅读次数:
274
GitHub的官方帮助如下: Fork A Repo: https://help.github.com/articles/fork-a-repo Using Pull Requests: https://help.github.com/articles/using-pull-requests Mer ...
分类:
其他好文 时间:
2019-02-04 18:13:47
阅读次数:
168