最近想学一下Python爬虫与检索相关的知识,在网上看到这个教程,觉得挺不错的,分享给大家。来源:http://cuiqingcai.com/1052.html一、Python入门1.Python爬虫入门一之综述2.Python爬虫入门二之爬虫基础了解3.Python爬虫入门三之Urllib库的基本...
分类:
编程语言 时间:
2015-11-25 10:53:25
阅读次数:
166
转自:http://cuiqingcai.com/954.html1.设置Headers有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。首先,打开我们的浏览器,调试浏览器F12,我用的是Chro...
分类:
编程语言 时间:
2015-09-29 11:18:26
阅读次数:
271
转自:http://cuiqingcai.com/977.html在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特...
分类:
编程语言 时间:
2015-09-29 11:15:39
阅读次数:
374
一、使用正则表达式实现爬虫: Import requests,re 获取网页源码:htmlsource=requests.get(url).text 使用正则表达式匹配网页中的内容: Re模块常用的函数 Re.findall(pattern,string,flags=0) #返回内容为包含匹配结果的...
分类:
编程语言 时间:
2015-09-06 20:06:56
阅读次数:
212
现在,我们已经进入到大数据时代,在对数据进行处理分析时,首要的是需要有数据,而作为数据的一个重要来源则来自于网络爬虫,鉴于Python语言的简洁高效,以及对爬虫技术的大力支持,我们选择利用Python作...
分类:
编程语言 时间:
2015-08-03 17:05:38
阅读次数:
261
参考博客:http://www.crifan.com/python_re_search_vs_re_findall/
在这里,我想说一下我目前遇到的问题
这是一个本地的文件 text.txt
极客学院爬虫测试
欢迎参加《Python定向爬虫入门课程》
这是第一条
这是第二条
...
分类:
编程语言 时间:
2015-07-26 19:18:16
阅读次数:
147
Python爬虫入门(8):Beautiful Soup的用法上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表 达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们...
分类:
编程语言 时间:
2015-07-22 01:22:47
阅读次数:
183
2015-6-2今天把昨天Git上看的一个下载网易云音乐歌单歌曲的脚本尝试看懂并修改Git地址:https://github.com/keli/netease-music#! /usr/bin/env python# -*- coding: utf-8 -*-import urllib2import...
分类:
编程语言 时间:
2015-06-02 17:36:03
阅读次数:
382
Scrapy在window上的安装教程见下面的链接:Scrapy安装教程上述安装教程已实践,可行。本来打算在ubuntu上安装Scrapy的,但是Ubuntu 磁盘空间太少了,还没扩展磁盘空间,暂时不想再上面装太多软件。Scrapy的入门教程见下面链接:Scrapy入门教程上面的入门教程是很基础的,...
分类:
其他好文 时间:
2015-05-28 21:28:40
阅读次数:
618
转自http://cuiqingcai.com/947.html1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便...
分类:
编程语言 时间:
2015-02-25 01:51:51
阅读次数:
323