最近迷上听小说了,但几个app上有声小说更新太慢,自己看小说的话不能同时去做其他事情,所以想了个办法从网上下载小说并将文字转换成语音。以后其他小说只需要改改下载小说地址即可。故写在博客上供以后使用。 一、main.py 二、spider.py 三、txt.py 四、mp3.py ...
分类:
其他好文 时间:
2019-06-30 14:05:43
阅读次数:
114
""" scrapy初始Url的两种写法, 一种是常量start_urls,并且需要定义一个方法parse() 另一种是直接定义一个方法:star_requests() """ import scrapy class simpleUrl(scrapy.Spider): name = "simpleU ...
分类:
编程语言 时间:
2019-06-27 21:53:37
阅读次数:
151
spider_Un.py import requestsimport timefrom lxml import etreedef get_html(url): # 请求页面 try: headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WO ...
分类:
其他好文 时间:
2019-06-27 19:27:00
阅读次数:
140
1.1 COOKIE使用和优缺点 参考博客:https://baijiahao.baidu.com/s?id=1608021814182894637&wfr=spider&for=pc 1、cookie使用原理 1.用户向服务器发送用户名和密码。 2.验证服务器后,相关数据(如用户角色,登录时间等) ...
分类:
其他好文 时间:
2019-06-27 00:32:22
阅读次数:
128
通过前面的文章已经学习了基本的爬虫知识,通过这个例子进行一下练习,毕竟前面文章的知识点只是一个 一个单独的散知识点,需要通过实际的例子进行融合 分析网站 其实爬虫最重要的是前面的分析网站,只有对要爬取的数据页面分析清楚,才能更方便后面爬取数据 目标站和目标数据目标地址:http://www.hshf ...
分类:
编程语言 时间:
2019-06-23 11:32:43
阅读次数:
121
1.spider 安装 1.1.MariaDB 安装 1.1.1 下载MariaDB wget https://mirrors.tuna.tsinghua.edu.cn/mariadb//mariadb-10.3.16/bintar-linux-x86_64/mariadb-10.3.16-linu ...
分类:
其他好文 时间:
2019-06-22 19:43:20
阅读次数:
93
$value) { echo $value."\r\n"; } function spider(){ $headers=array( 'user-agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gec... ...
分类:
Web程序 时间:
2019-06-21 14:28:29
阅读次数:
164
Spider基本上能做很多事情了,但是如果你想爬取全站的话,可能需要一个更强大的武器。CrawlSpider基于Spider,但是可以说是为全站爬取而生。CrawlSpiders是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一 ...
分类:
其他好文 时间:
2019-06-21 12:47:02
阅读次数:
81
settings.py设置 ITEM_PIPELINES = { 'tets.pipelines.TetsPipeline': 300, } spider代码 xpath后缀添加.extract() parse()返回return item import scrapy from tets.items ...
分类:
Web程序 时间:
2019-06-16 11:50:05
阅读次数:
141
概述 近年来,随着网络应用的逐渐扩展和深入,如何高效的获取网上数据成为了无数公司和个人的追求,在大数据时代,谁掌握了更多的数据,谁就可以获得更高的利益,而网络爬虫是其中最为常用的一种从网上爬取数据的手段。网络爬虫,即Web Spider,是一个很形象的名字。如果把互联网比喻成一个蜘蛛网,那么Spid ...
分类:
编程语言 时间:
2019-06-15 11:43:32
阅读次数:
294