1.分分钟扒一个网页下来 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的 ...
分类:
编程语言 时间:
2017-08-17 10:25:04
阅读次数:
129
import urllib.requestfrom bs4 import BeautifulSoupfrom urllib.parse import urljoinfrom Cat.findLinks import get_linkfrom Cat.Load import Scheduleimpor ...
分类:
编程语言 时间:
2017-08-15 21:22:25
阅读次数:
163
首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。 根据我的经验,要学习Python爬虫,我们要学习的共有以下几点: Python基础知识 Python中urllib和urllib2库的用 ...
分类:
编程语言 时间:
2017-08-15 10:17:32
阅读次数:
166
首先我们导入几个pyhton3的库: 在Python2和Python3之间一个重要区别就是,在Python2有urllib,urllib2两个库,在Python3整合到一起,里面的函数方式也有一点变,先定义一个函数,将header,url,request,都打包成一个函数方便调用,且看下面代码: 再 ...
分类:
编程语言 时间:
2017-08-15 10:03:45
阅读次数:
196
1. SMTP发送邮件 internet相关协议: http:网页访问相关,httplib,urllib,xmlrpclib ftp:文件传输相关, ftplib, urllib nntp:新闻和帖子相关, nntplib smtp:发送邮件相关, smtplib pop3:接收邮件相关, popl ...
分类:
编程语言 时间:
2017-08-15 00:31:50
阅读次数:
289
网页下载器:将互联网上URL对应的网页下载到本地的工具 通过网页下载器将互联网中的url网页,存储到本地或内存字符串 python有哪几种网页下载器? 1.urllib2 python官方基础模块 2.requests python第三方包更强大 urllib2下载网页方法1:最简洁方法 url > ...
分类:
Web程序 时间:
2017-08-14 20:02:06
阅读次数:
168
写了一个爬学校新闻网的爬虫, 主要涉及 re正则 urllib.request 文件的写入 在爬取文章时通常会返回很多影响美感的代码 如下: 优化: 两次正则 替换 over! ...
分类:
编程语言 时间:
2017-08-12 18:55:54
阅读次数:
3465
import urllib.requestfrom bs4 import BeautifulSoup def get_link(page): # 寻找链接的href linkData = [] for page in page.find_all('td'): links = page.select( ...
分类:
编程语言 时间:
2017-08-12 16:08:55
阅读次数:
774
本文主要用到python3自带的urllib模块编写轻量级的简单爬虫。至于怎么定位一个网页中具体元素的url可自行百度火狐浏览器的firebug插件或者谷歌浏览器的自带方法。 1、访问一个网址 re=urllib.request.urlopen('网址‘) 打开的也可以是个urllib.reques ...
分类:
编程语言 时间:
2017-08-11 20:29:14
阅读次数:
162