下面是源代码,大神勿喷。。。。。。 # -*- coding: utf-8 -*- import requests,time,urllib.request,os,re,xlwt import threading,random,threadpool import pymongo,pymysql,log ...
分类:
数据库 时间:
2017-09-02 21:48:48
阅读次数:
267
Package Control 安装方法 1.通过快捷键 ctrl+` 或者 View > Show Console 打开控制台,然后粘贴相应的 Python 安装代码; 2.Sublime Text 3 安装代码并回车: import urllib.request,os; pf = 'Packag ...
分类:
编程语言 时间:
2017-09-02 18:10:23
阅读次数:
147
#################################################'''版本:python2.7编辑器:pycharm标准库:urllibheader网页头部信息:server:centos、microsoft-IIscontent-type:text/html;ch ...
分类:
Web程序 时间:
2017-09-02 15:32:50
阅读次数:
182
1 import requests,json,urllib.parse 2 import threading 3 threading_lock=threading.BoundedSemaphore(value=10)#设置最大线程 4 5 def get_page(url): 6 page=requ... ...
分类:
编程语言 时间:
2017-09-02 00:12:57
阅读次数:
194
#-*- coding: UTF-8 -*- import urllib.request import socket import re import sys import os imagGetPath = "G:\\zxh_python\\Spider\\ImagesDown" def saveF ...
分类:
编程语言 时间:
2017-09-01 21:17:11
阅读次数:
134
此时,我们已经成功实现了一个网页的爬取,如何将获得的网页以网页的形式保存到本地呢?思路如下:1 首先爬取到一个网页并将爬取到的内容读取出来赋值给一个变量2 以写的方式打开一个本地文件,命名为*.html等网页格式3 将1 中变量的值写入该文件中。4 关闭该文件所以我们刚才已经成功获取到了百度首页的内 ...
分类:
Web程序 时间:
2017-09-01 17:48:58
阅读次数:
255
一、通过requests发送请求之前一直使用urllib以及urllib2模拟http请求发送,在实际场景中,我们需要造自己定义好的header、body等等,使用urllib很麻烦,很偶然的机会,接触到了requests,可以通过发送xml、简单易用,直接上代码:requests
connected():
#通过形参传入url以..
分类:
编程语言 时间:
2017-08-31 09:37:47
阅读次数:
944
1.先bia一个国内镜像吧 用法很简单 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests 2.大二的时候受到小甲鱼的蛊惑,拿urllib爬美女写真图。。。。。。真的是超级麻烦(其实也没多麻烦) 3.前段时间听说有个很好用 ...
分类:
编程语言 时间:
2017-08-30 21:47:14
阅读次数:
234
import urllib.request from bs4 import BeautifulSoup url = "https://movie.douban.com/chart" req = urllib.request.Request(url) req.add_header("User-Agen... ...
分类:
其他好文 时间:
2017-08-30 11:00:06
阅读次数:
176
改写parse函数 实现功能: 1.获取文章列表页中的文章url并交给scrapy下载后,交给解析函数进行具体字段的解析2.获取下一页的url并交给scrapy进行下载,下载完成后交给parse 提取一页列表中的文章url 调试输出结果 如何让scrapy进行下载 引入request对象 修改提取字 ...
分类:
其他好文 时间:
2017-08-29 23:48:47
阅读次数:
285