前言: 本次项目是使用scrapy框架,爬取豆瓣电影TOP250的相关信息。其中涉及到代理IP,随机UA代理,最后将得到的数据保存到mongoDB中。本次爬取的内容实则不难。主要是熟悉scrapy相关命令以及理解框架各部分的作用。 1、本次目标 爬取豆瓣电影TOP250的信息,将得到的数据保存到mo ...
分类:
其他好文 时间:
2018-12-18 23:48:18
阅读次数:
862
本篇博客主要用于介绍如何使用selenium+phantomJS模拟登陆豆瓣,没有考虑验证码的问题,更多内容,请参考:Python学习指南 期初使用driver = webdriver.PhantomJS(),返回的只是,增加了参数就可以了 ...
分类:
编程语言 时间:
2018-12-18 02:05:12
阅读次数:
235
参考 阿里云 http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 豆瓣(douban) http://pypi.douban.com/simple/ 清华大学 https://py ...
分类:
其他好文 时间:
2018-12-16 16:38:04
阅读次数:
150
基本概念 逻辑分辨率 (point),物理分辨率 (pixel) 缩放因子 scale, scale ≈ px / pt 等比例缩放 如:淘宝、京东 首页 文字流 保持相同文字大小,让大屏幕显示更多内容,如:豆瓣列表页 弹性控件 混合 图片 按照屏幕尺寸 缩放,文字按照文字流,如:网易音乐,图片缩放 ...
分类:
其他好文 时间:
2018-12-14 12:44:55
阅读次数:
164
1 package util; 2 3 import java.io.BufferedReader; 4 import java.io.File; 5 import java.io.FileNotFoundException; 6 import java.io.FileOutputStream; 7... ...
分类:
编程语言 时间:
2018-12-12 22:09:55
阅读次数:
175
常用的类库为lxml, BeautifulSoup, re(正则) 以获取豆瓣电影正在热映的电影名为例,url='https://movie.douban.com/cinema/nowplaying/beijing/' 网页分析 部分网页源码 分析可知我们要的电影名称信息在li标签的data-tit ...
分类:
编程语言 时间:
2018-12-09 14:06:05
阅读次数:
174
Requests官方文档: http://cn.python-requests.org/zh_CN/latest/ 例子:获取豆瓣短评页面源代码 Requests库的七个主要方法 ...
分类:
Web程序 时间:
2018-12-04 20:37:35
阅读次数:
251
随着互联网的发展,python语言现在变得越来越火爆,Python程序员越来越受到大家的青睐!那么想进入Python行业,面试时需要注意些什么问题呢?我们在参加Python开发岗位面试的时候都要做哪些准备?一般Python技术方面的面试会问哪些问题?今天,我们从2位面试官的角度来看看,参加Python开发岗面试需要做哪些准备。(一)我之前在豆瓣负责过一段时间我们组的技术面试。由于现在不再去面试,可
分类:
编程语言 时间:
2018-12-04 20:03:55
阅读次数:
218
这是我第一个全程自己动手做的项目,算得上是中小型的吧。网上看到好多关于python爬虫的项目,说是找工作必会,但我都感觉有些难。最后不管三七二十一,试试再说,做不出来也不会损失什么。于是选了一个豆瓣图书标签爬取的项目,github(用过好多次了,但不太了解,感觉就是一个让程序员分享成果的一个平台)上 ...
分类:
其他好文 时间:
2018-12-04 01:00:17
阅读次数:
750
1.什么是Python? Python是一种解释型,面向对象,动态数据类型的高级程序设计语言。 Python由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年。 像perl语言一样,Python源代码同样遵循GPL(GNU General License)协议。 ...
分类:
编程语言 时间:
2018-12-02 10:29:06
阅读次数:
506