安装第三方包 时可以指定豆瓣的源 pip install package -i --trusted-host site(http:/.pypi.douban.com/simple) ...
分类:
其他好文 时间:
2018-08-22 00:23:00
阅读次数:
314
运行以下python代码会自动建立pip.ini ...
分类:
编程语言 时间:
2018-08-21 19:01:34
阅读次数:
163
1. 最近略忙。。java在搞soap,之前是用工具自动生成代码的。最近可能会写一个soap的java调用 2. 这个豆瓣电影的爬虫。扒信息的部分暂时先做到这了。扒到的信息如下 输出如下 把这些狗东西封装成一个方法。并且随便找几个豆瓣电影的url试一下。在多尝试几个url之后,会报一些问题,主要是没 ...
分类:
编程语言 时间:
2018-08-18 15:32:03
阅读次数:
175
二、代码 代码直接参考了下文,更多解读参见原文,其中将ip提取部分修改了下,并将用来测试IP是否可用的百度url改成了CSDN博客里文章的url。 进群:548377875 即可获取数十套PDF哦! 另外也试了下豆瓣......嗯,立马就“403”,上不去了,所以看了本文想刷其他网站数据的朋友,还是 ...
分类:
编程语言 时间:
2018-08-17 14:57:38
阅读次数:
174
豆瓣就比较符合这个“明人不说暗话”的原则。所以我们扒豆瓣,不多说,直接上代码 输出: 简单粗暴 ...
分类:
编程语言 时间:
2018-08-16 10:46:22
阅读次数:
186
环境:python 3.6 pycharm 模块:requests,json 标红部分注意,user-agent对应的value,360极速浏览器的话,可以在地址栏输入about:version,回车,用户代理后面的一长串就是需要填入''里面的内容。 顺便说一下if __name__ == '__m ...
分类:
其他好文 时间:
2018-08-16 00:41:07
阅读次数:
159
pip3 install 模块名 -i http://pypi.douban.com/simple/ ...
分类:
其他好文 时间:
2018-08-14 17:12:35
阅读次数:
217
pip install jieba安装jieba模块如果网速比较慢,可以使用豆瓣的Python源:pip install -i https://pypi.douban.com/simple/ jieba一、分词:import jiebaseg_list = jieba.cut("从没见过我这么弱的垃 ...
分类:
其他好文 时间:
2018-08-14 00:22:38
阅读次数:
181
爬取豆瓣电影top250,出现以下报错: 防止反爬机制,伪装user_agent 【1】打开豆瓣top250 : https://movie.douban.com/top250 【2】F12 打开控制台->刷新页面 ->Network->请求头部找到 User-Agent 在scrapy项目中找到s ...
分类:
Web程序 时间:
2018-08-11 23:22:40
阅读次数:
897
scrapy框架 scrapy是一套基于Twisted的异步处理框架,是纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松实现一个爬虫,用来抓取网页内容或者各种图片。 scrapy Engine:scrapy引擎 负责调度器,下载器,管道和爬虫之间的通讯信号和数据的传递,相当于交通站 ...
分类:
其他好文 时间:
2018-08-11 21:53:36
阅读次数:
171