码迷,mamicode.com
首页 >  
搜索关键字:生日 爬虫    ( 12567个结果
查询3天内过生日的SQL语句
select * from T_Employeewhere DATEDIFF(day,GetDate(),Convert(varchar(5),DatePart(yyyy,GetDate()))+ '-'+Convert(varchar(5),DATEPART(mm,BirthDay)...
分类:数据库   时间:2014-09-06 18:36:53    阅读次数:377
正则表达式(上)
内容提纲:1.什么是正则表达式2.创建正则表达式转载请注明出处,谢谢!假设用户需要在HTML表单中填写姓名、地址、出生日期等。那么在将表单提交到服务器进一步处理前,JavaScript程序会检查表单以确认用户确实输入了信息并且这些信息是符合要求的。这时候就需要用到正则表达式。一.什么是正则表达式正则...
分类:其他好文   时间:2014-09-06 16:03:13    阅读次数:233
正则表达式和python的re模块
正则表达式和python的re模块 By 钟桓  9月 4 2014 更新日期:9月 4 2014 文章目录 1. 什么是正则表达式2. 元字符使用一览表:3. 字符转义4. 重复5. 字符类6. 分支条件7. 分组8. re模块 8.0.1. compile8.0.2. match和search8.0.3. split8.0.4. findall8.0.5. findite...
分类:编程语言   时间:2014-09-05 11:29:41    阅读次数:309
Java中正则表达式、模式匹配与信息抽取
引言记得几年前在做网页爬虫后的信息抽取时,针对网页源码中隐藏的要提取的信息,比如评论、用户信息等属性信息,直接利用HtmlParser得到。如此做倒是简单,不过利用的是网页的规范的tag标记。其实java中的正则表达式也可以用来实现这一功能。而且对于非tag的一些有规律的系列组合的字符串,正则表达式...
分类:编程语言   时间:2014-09-04 16:30:19    阅读次数:186
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓  9月 4 2014 更新日期:9月 4 2014 文章目录 1. 介绍:2. 从简单语句中开始:3. 传送数据给服务器4. HTTP头—描述数据的数据5. 异常 5.0.1. URLError5.0.2. HTTPError5.0.3. 处理异常5.0.4. info和geturl 6. Opener和Handler7. Ba...
分类:编程语言   时间:2014-09-04 15:04:19    阅读次数:357
WeChall Training: WWW-Robots
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。 找到wechall的robots.txt    ht...
分类:其他好文   时间:2014-09-04 15:03:09    阅读次数:542
python正则表达式 1
re模块提供了一个郑则表达式的引擎接口,可以让你的Restring变异成对象并用它来进行匹配,这样效率比较高。附上例子让我们一块体验一下吧。以下是我写的类似与爬虫的小脚本,供大家参考#!/usr/bin/python#coding=utf-8importurllibimportreimportosdefgetHtmlData():returnurll..
分类:编程语言   时间:2014-09-04 03:05:28    阅读次数:173
基于Berkeley DB实现的持久化队列
转自:http://guoyunsky.iteye.com/blog/1169912队列很常见,但大部分的队列是将数据放入到内存.如果数据过多,就有内存溢出危险,而且长久占据着内存,也会影响性能.比如爬虫,将要抓取的URL放到内存,而URL过多,内存肯定要爆.在读Heritrix源码中,发现Heri...
分类:数据库   时间:2014-09-03 14:45:16    阅读次数:468
python使用异步任务celery出现异常崩溃时retry重试
前言:python下的celery是啥东西大家应该有了解,是一个异步的任务框架。话说,我以前写过一个报警平台的项目,也需要任务的扩展成分布式,当时总是觉得用celery不是那么太靠谱,所以就自己写了一个分布式的任务派发的系统。今个和朋友聊起了分布式爬虫,这哥们说任务有时候经..
分类:编程语言   时间:2014-09-03 02:42:47    阅读次数:1943
我相信我会逆袭的!细数程序猿初尝创业的苦逼经历
浑浑噩噩地过完了这2个月,也是时候坐下来静静地想一想自己这一段时间的付出与收获了。从刚开始的有想法,有激情,到现在的力不从心。是我变了,还是这个世界变得太快?两个月前,我和公司的几个哥们一起聊到生日时送蛋糕的事,都说离得近还可以,离得远可就是没办法了。有的女朋友在外地,生日想玩个浪漫,可是有时又抽....
分类:其他好文   时间:2014-09-02 17:19:05    阅读次数:158
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!