一年前突然有个灵感,想搞个强大的网盘搜索引擎,但由于大学本科学习软件工程偏嵌入式方向,web方面的能力有点弱,不会jsp,不懂html,好久没有玩过sql,但就是趁着年轻人的这股不妥协的劲儿,硬是把以前没有学习的全部给学了一遍,现在感觉web原来也就那么回事。好了,废话就..
分类:
编程语言 时间:
2015-12-31 21:18:26
阅读次数:
273
#-*- coding:utf-8 -*-import requestsfrom bs4 import BeautifulSoupimport html5libimport reimport urlliburl1 = 'http://accounts.douban.com/login'url2 = ...
分类:
编程语言 时间:
2015-12-29 21:07:06
阅读次数:
309
最近在使用Python爬取网页内容时,总是遇到JS临时加载、动态获取网页信息的困难。例如爬取CSDN下载资源评论、搜狐图片中的“原图”等,此时尝试学习Phantomjs和CasperJS来解决这个问题。这第一篇文章当然就是安装过程及入门介绍,主要先介绍Phantomjs安装过程及常见用法,参考官方文...
分类:
编程语言 时间:
2015-12-18 06:56:32
阅读次数:
378
我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的。首先通过这篇文章,你能学到以下几点: 1.可以了解Python简单爬取图片的一些思路和方法 2.学习Selenium自动、测试分析动态网页和正则表达式的区别和共同点 3.了解作者最近学习得比较多的搜索引擎...
分类:
编程语言 时间:
2015-12-18 06:54:39
阅读次数:
1120
该篇文章主要介绍在Windows下通过Selenium+Python实现自动访问Firefox和Chrome并实现访问百度自动搜索并截图的功能。这是一个使用Selenium的简单应用,并附有详细的注释,参考官方文档,希望对你有所帮助~
分类:
编程语言 时间:
2015-12-18 06:53:14
阅读次数:
442
作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队、CBA明星、花边新闻、球鞋美女等等,如果一张张右键另存为的话真是手都点疼了。作为程序员还是写个程序来进行吧!所以我通过Python+Selenium+正则表达式+urllib2进行海量图片爬取。...
分类:
编程语言 时间:
2015-12-18 06:53:13
阅读次数:
373
本文主要是自己的在线代码笔记,在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容。PubMed是一个免费的搜寻引擎,提供生物医学方面的论文搜寻以及摘要。它的数据库来源为MEDLINE(生物医学数据库),其核心主题为医学,但亦包括其他与医学相关的领...
分类:
编程语言 时间:
2015-12-18 06:53:06
阅读次数:
449
最近研究搜索引擎、知识图谱和Python爬虫比较多,中文乱码问题再次浮现于眼前。虽然市面上讲述中文编码问题的文章数不胜数,但是此处还是准备简单做下笔记。方便以后查阅和大家学习。主要包括raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题。 纪伯伦曾说过:“你无法同时...
分类:
编程语言 时间:
2015-12-18 06:50:55
阅读次数:
483
前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(InfoBox),这也是毕业设计实体对齐和属性的对齐的语料库前期准备工作。希望文章对你有所帮助~
分类:
编程语言 时间:
2015-12-18 06:50:03
阅读次数:
486