上一篇文章中我们介绍了爬虫的实现,及爬虫爬取数据的功能,这里会遇到几个问题,比如网站中robots.txt文件,里面有禁止爬取的URL,还有爬虫是否支持代理功能,及有些网站对爬虫的风控措施,设计的爬虫...
分类:
编程语言 时间:
2017-03-09 12:08:46
阅读次数:
335
本人的程序是在mac上写的,windows的话可能略有不同主要是PhantomJS的路径上。首先要下载PhantomJS,然后创建一个到/usr/bin/phantomsjs的软链。为什么用selenium和PhantomJS是因为,公司是做电商的,页面很多都是ajax异步渲染出来的,使用urlli ...
分类:
编程语言 时间:
2017-03-09 11:43:47
阅读次数:
316
原文http://www.tuicool.com/articles/EnE7nm6 多版本Python共存[支持使用pip安装包] 有时特殊需要会要用到高版本的Python, 但是系统自带的版本又是很多其他工具依赖的, 不能随意更新。 所以就会考虑安装另一个版本的python环境, 然后需要用到这个 ...
分类:
编程语言 时间:
2017-03-09 11:43:12
阅读次数:
407
今天想写个程序合并文件的,以前一直觉得python的编码解码好烦,只要处理文件合并之类的都是用C# 写,但是最近用的是linux,也没有vs,就只能乖乖的用python 写了,早上看了下,也没有我想的负责,只能说以前太那啥了。。。。好了,闲话少说,下面先简单介绍下文件读取操作吧。 首先说明的是我用的 ...
分类:
编程语言 时间:
2017-03-09 11:30:08
阅读次数:
271
1. 打印Python当前模块的搜索路径 import sys print (sys.path) ['D:\\work_bonc\\Python_WorkSpace\\deep learning\\TF', 'D:\\work_bonc\\Python_WorkSpace', 'C:\\Python ...
分类:
编程语言 时间:
2017-03-09 10:46:32
阅读次数:
145
单行注释:#多行注释:"""为开始,"""结束捕获参数:importsyssys.argv表示argv功能在sys模块里边Eg:hello.py#_*_coding:utf-8_*_importsysprintsys.argvprint‘你好,世界!‘执行结果:E:\>pythonhello.pylocalhost:8001[‘hello.py‘,‘localhost:8001‘]你好,世界!
分类:
编程语言 时间:
2017-03-09 01:40:10
阅读次数:
166
字符串特性,一旦修改,重新创建(重新开辟内存空间)缓冲池>>>Id(name1),id(name2)python语句执行顺序:加载内存—>词法分析—>语法分析—>编译—>字节码—>执行—>机器语言
分类:
其他好文 时间:
2017-03-09 01:39:36
阅读次数:
134
eg:ex1.py#!/usr/bin/envpython#_*_coding=utf-8_*_importgetpassname=raw_input(‘pleaseinputyourusername:‘)pwd=getpass.getpass(‘inputyourpassword:‘)print‘thenameis:‘,nameprint‘thepasswordis:‘,pwd执行结果:[root@localhost~]#pythonex1.pypleaseinputyourusername:h..
分类:
编程语言 时间:
2017-03-09 01:39:20
阅读次数:
190
python实例学习中遇到的小问题,我对题目改动一下需要显示每一档的结果,可以用列表和if语句来完成,文章最后是原题目和答案一、if的方式A、程序#!/usr/bin/python#-*-coding:UTF-8-*-i=int(input(‘净利润:‘))arr=[1000000,600000,400000,200000,100000,0]rat=[0.01,0.015,0.03..
分类:
编程语言 时间:
2017-03-09 01:22:21
阅读次数:
286