今天看了一下买来的C#项目书,感觉有点不可理喻,简直就是作者用来圈钱的,视频敷衍了事,源代码莫名其妙。。。唉。。。不过今天还是学了新东西,是一个Python爬虫脚本,虽说也是云里雾里,但是也算一个小进步,千里之行始于足下么,下面就把代码给贴出来。 import urllib.requestimpor ...
分类:
编程语言 时间:
2016-08-15 22:14:12
阅读次数:
198
使用Package Control组件安装 也可以安装package control组件,然后直接在线安装: 按Ctrl+` 调出console 粘贴以下代码到底部命令行并回车: { import urllib.request,os; pf = 'Package Control.sublime-pa ...
分类:
其他好文 时间:
2016-08-13 15:35:47
阅读次数:
228
【URL Parsing】 urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True) Parse a URL into six components, returning a 6-tuple. This corresponds ...
分类:
Web程序 时间:
2016-08-13 15:32:41
阅读次数:
742
1.一个可扩展性强的编辑工具 2.如何安装扩展 通过View->Show Console菜单打开命令行。 按图操作: 在控制台输入,然后回车: import urllib.request,os; pf = 'Package Control.sublime-package'; ipp = sublim ...
分类:
其他好文 时间:
2016-08-13 14:09:18
阅读次数:
155
前面我们简述了使用Python自带的urllib和urllib2库完成的一下爬取网页数据的操作,但其实能完成的功能都很简单,假如要进行复制的数据匹配和高效的操作,可以引入第三方的框架,例如Scrapy便是比较常用的爬虫框架。 一、Scrapy的安装: 1.最简单的安装方式: 根据官方主页的指导:ht ...
分类:
编程语言 时间:
2016-08-12 13:02:34
阅读次数:
182
之前说过,使用urllib和urllib2,只是为了获取指定URL的html内容,而对内容进行解析和筛选,则需要借助python中的正则表达式来完成。 一、预备知识: 1.正则表达式简述: 什么是正则表达式?正则表达式就是可以匹配文本片段的模式,最简单的正则表达式就是一个字符串,用于在文本中匹配到此 ...
分类:
编程语言 时间:
2016-08-12 11:43:42
阅读次数:
161
>>> from urllib.request import urlopen >>> for line in urlopen('http://tycho.usno.navy.mil/cgi-bin/timer.pl'): ... line = line.decode('utf-8') # Decod ...
分类:
编程语言 时间:
2016-08-10 22:27:34
阅读次数:
159
Python小爬虫——贴吧图片的爬取 在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写。 目标: 首先肯定要实现图片抓取这个基本功能 然后要有一定的交互,程序不能太傻吧 最后实现对用户所给的链接进行抓取 一、页面获取 要让python可以进行对网页的访问,那肯定要用到urllib之 ...
分类:
编程语言 时间:
2016-08-10 18:58:10
阅读次数:
272
1.之前在网页中URl链接采用Urllib/Urllib2,但是现在加强版requests模块进行网页URl提取,requests库模拟登录或者登录动态网页 URL理解:网页抓取过程浏览器向服务器请求的过程:1.访问资源命名机制2.存放资源主机3.资源自身的路径 对requests模块的入门:htt ...
分类:
Web程序 时间:
2016-08-09 21:54:18
阅读次数:
619
1、安装sublime text3(省略) 2、sublime安装 Package Control import urllib.request,os; pf = 'Package Control.sublime-package'; ipp = sublime.installed_packages_p ...
分类:
编程语言 时间:
2016-08-09 10:41:30
阅读次数:
129