搜索关键字：python爬虫 you-get，搜索到2477个结果！码迷,mamicode.com！

python写爬虫使用urllib2方法

python写爬虫使用urllib2方法整理了一部分urllib2的使用细节。 1.Proxy 的设置 urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响，可以使用代理。新建test14来实现一个简单的代理Demo： import urllib2 e...

分类：编程语言时间：2015-08-06 09:34:51 阅读次数：271

python 爬虫部分解释

example:self.file = www.baidu.com存有baidu站的index.html1 def parseAndGetLinks(self): # parse HTML, save links2 self.parser = HTMLParser(Abst...

分类：编程语言时间：2015-08-05 00:58:41 阅读次数：156

python爬虫补充章，在总控节点那台机器上安装mongodb和redis数据库都是非apt方法

因为发现爬虫爬取出来的数据如果按照表结构划分后存储，不仅麻烦而且非常大的冗余干脆试试用这样的非关系数据库来试试存储效果如何。这里我不打算用redis 进行比较，因为他是内存数据库，他擅长的领域应该是缓存和少量数据的统计归类（做这个的还有另外一大家伙memcache），redis 以后相配合其他应用提高效率的。这里相比较的主要是mongodb和mysql 的性能差，就特定指的是这样...

分类：数据库时间：2015-08-04 22:59:07 阅读次数：224

python爬虫(五)--爬虫程序的开始

import?re import?urllib import?urllib.request from?collections?import?deque queue?=?deque()#存放待爬取的网址 visited?=?set()#存放爬取过的网址。判断是否爬取过 url?=?"http://news.dbanotes...

分类：编程语言时间：2015-08-04 17:29:13 阅读次数：128

python 爬虫2 介绍一下怎么抓取cookies，python多线程

读取cookies 可以这样： filename='FileCookieJar.txt' ckjar = cookielib.MozillaCookieJar() #这里读取cookie ckjar.load(filename, ignore_discard=True, ignore_expires=True) for it...

分类：编程语言时间：2015-08-03 22:51:10 阅读次数：277

Python爬虫入门一之综述

现在，我们已经进入到大数据时代，在对数据进行处理分析时，首要的是需要有数据，而作为数据的一个重要来源则来自于网络爬虫，鉴于Python语言的简洁高效，以及对爬虫技术的大力支持，我们选择利用Python作...

分类：编程语言时间：2015-08-03 17:05:38 阅读次数：261

Python爬虫之模拟登录豆瓣获取最近看过的电影

众所周知，很多网站都设置了登录之后才能获取查看页面的权利，因此模拟登录成了爬取信息的第一步，这一步成功了，嘿嘿，just do it! 好，废话不多说，直接说重点：首先，你应该要了解网站登录的流程以及你需要post的信息，以豆瓣为例：这就是你需要提交的信息了，包括用户名和密码，以及验证码和验证码的ID，看到这可能有人会想我怎么知道验证码的ID，各位放心，在页面加载时就已经到客户端这边来了，也就是说你可以直接从浏览器中看到，是不是很炫酷！第二步，需要了解一些requests这个库了，因为reque...

分类：编程语言时间：2015-08-03 14:42:55 阅读次数：183

python爬虫(四)--python正则表达式

在爬虫的学习过程中，又一个你必须要掌握的知识点就是正则表达式爬虫程序需要爬取你需要的东西，那么就对爬取的结果进行筛选，正则表达式就起到这样的作用如果你学过任何一门语言，相信你都会接触正则表达式。并且正则表达式大多相同。不管怎样，就像开头说的那样，因为这是爬虫基础教程。所以这篇文章要详细的说一下python的正则表达式。开始进入正题吧。正则表达式是一个特殊的字符序列，它能帮助你方...

分类：编程语言时间：2015-08-03 10:25:26 阅读次数：151

python爬虫(四)--python正则表达式

在爬虫的学习过程中，又一个你必须要掌握的知识点就是正则表达式爬虫程序需要爬取你需要的东西，那么就对爬取的结果进行筛选，正则表达式就起到这样的作用如果你学过任何一门语言，相信你都会接触正则表达式。并...

分类：编程语言时间：2015-08-03 09:02:05 阅读次数：504

批量下载百度贴吧帖子图片

总体功能：下载百度贴吧网页的图片这个例子延续了上一个抓取贴吧楼主发布内容的例子，上一个例子是把图片剔除掉了，这边重新做了一个下载图片的demo，比较简单。代码： # -*- encoding:utf-8 -*- # 下载贴吧的图片 import re import urllib import urllib2 #下载百度贴吧图片类 class DownloadIm...

分类：其他好文时间：2015-08-02 11:49:21 阅读次数：213

共2477条上一页 1 ... 224 225 226 227 228 ... 248 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)