最近领导给了一个任务,从单位的数据库里面导出所有的数据,存到本地excel表格。我就想,这不挺简单的么,给我数据库的密码账户,几条语句搞定。结果让人大失所望,单位数据库只能通过后台管理系统查看,平台压根不提供批量导出功能,至于数据库直接访问什么的,更是想都别想,大领导不给批。所以,只能采取笨办法了,...
分类:
编程语言 时间:
2015-11-03 21:09:27
阅读次数:
379
周末下雨,原本计划泡汤,只好宅在家中。翻翻网页,觉着写一个python爬虫吧。作为一个只会c的程序员,表示python的基本语法看起来还是蛮清楚的。大致差不多。然后就爬一下基金的当前价格吧,本来想着写完后让它一直运行,后来写完发现mathematica里直接有函数可以查往年基金价格的接口,那就没必要...
分类:
其他好文 时间:
2015-11-01 18:07:06
阅读次数:
260
在我们日常上网浏览网页的时候,经常会看到某个网站中一些好看的图片,它们可能存在在很多页面当中,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材。我们最常规的做法就是通过鼠标右键,选择另存为。但有些图片鼠标右键的时候并没有另存为选项,还有办法就通过就是通过截图工具截取下来,但...
分类:
编程语言 时间:
2015-11-01 15:00:42
阅读次数:
266
做了一个返利网爬虫,想和大家分享一下,在新浪博客中写了写,一不小心切换了界面,写的东西也丢了。有点小失落~ 言归正传,说说我的这次返利网的爬虫经历^\/^ 返利网的“今日值得买”版块每天都有数据更新,而且汇集了各大电商网站,包括淘宝、京东、易迅等网站的促销打折商品,所以能在这里有点数据的积累,做一....
分类:
编程语言 时间:
2015-10-25 17:49:34
阅读次数:
217
今天使用python爬虫实现了自动抓取糗事百科的段子,因为糗事百科不需要登录,抓取比较简单。程序每按一次回车输出一条段子,代码参考了http://cuiqingcai.com/990.html 但该博主的代码似乎有些问题,我自己做了修改,运行成功,下面是代码内容: 1 # -*- coding:ut...
分类:
编程语言 时间:
2015-10-19 17:11:01
阅读次数:
291
1.String s;System.out.println("s=");you will get a compile time error because s isn't actually attached to anything, A safer practice, then is always ...
分类:
编程语言 时间:
2015-10-18 11:23:29
阅读次数:
177
#爬取网站中的图片 1 import re #正则表达式库 2 import urllib #url链接库 3 4 def getHtml(url): 5 page = urllib.urlopen(url) #打开链接 6 html = page.read() ...
分类:
编程语言 时间:
2015-10-16 15:10:12
阅读次数:
278
1.urllib2简介urllib2的是爬取URL(统一资源定位器)的Python模块。它提供了一个非常简单的接口,使用urlopen函数。它能够使用多种不同的协议来爬取URL。它还提供了一个稍微复杂的接口,用于处理常见的情况 - 如基本身份验证,cookies,代理等。2.抓取URLs使用urli...
分类:
编程语言 时间:
2015-10-13 22:28:04
阅读次数:
527
Python2.7里内置了很多非常有用的库,它在我电脑上的位置在/usr/lib/python2.7中。写个基本的爬虫要用到的库有urllib、urllib2、cookielib、sgmllib和re,下面先分别简单介绍下一些文件的信息和相关函数——具体的真的是建议阅读源码,网上找的资料反而不及它直...
分类:
编程语言 时间:
2015-10-08 00:27:20
阅读次数:
306
新版python中,urllib和urllib2合并了,统一为urllib(1)简单爬取网页import urllibcontent = urllib.request.urlopen(req).read().decode("utf-8")(2)添加headerimport urllibreq = u...
分类:
编程语言 时间:
2015-10-03 14:20:07
阅读次数:
216