搜索关键字：爬虫，搜索到10452个结果！码迷,mamicode.com！

python写的简单有效的爬虫代码...

分类：编程语言时间：2014-08-18 16:28:52 阅读次数：167

特别鸣谢阮思绮同学！虽然感觉这个冷冷的博客也没人看23333import mysql.connectorimport sys, osimport urllib.requestimport reimport itertoolsuser = 'root'pwd = ''host = '127.0.0.....

分类：数据库时间：2014-08-18 11:59:44 阅读次数：352

爬虫任务调度

背景介绍爬虫系统：一台是control server，其他的100台做crawler。server每天定时分发采集任务。问题出现：由于目标采集任务比较大，准备增加10台crawler。期望在不改变原有任务分配规则的基础上，同时优先分配任务少的机器上，而且能够对任务较少的机器进行平均分配（...

分类：其他好文时间：2014-08-17 02:18:31 阅读次数：258

反思自己一年前做数据采集的经过——网络爬虫

以前没有写过，这是第一次写，用词不当，表述不清楚的地方请见谅。希望大家多提建议，谢谢。网络爬虫常常被人所忽略，特别是和搜索引擎的光环相比，它似乎有些暗淡无光。我很少看见有详细介绍爬虫实现的文章或者文档。然而，爬虫其实是非常重要的一个系统，特别是在今天这个数据为王的时代。如果你是一个刚刚开始的公司或者...

分类：其他好文时间：2014-08-17 02:17:01 阅读次数：506

nginx 日志过滤网络爬虫访问日志

nginx里面有很多的爬虫日志，会影响到后期的数据分析，所以一般会去掉。nginx排除配置：location/{ #去掉爬虫Start if($http_user_agent~*"bot|spider"){ access_logoff; } #去掉爬虫end proxy_passhttp://cdel_jxjy; ...... }如果特别想要爬虫日志，也可以讲爬虫日志放到指定..

分类：其他好文时间：2014-08-15 10:51:29 阅读次数：299

抓取MM图片的爬虫

刚学python，试着写了个非常简单的爬虫，爬一些MM的鲍照下来。记录一下#coding=utf-8import urllib,timeimport reglobal xx=0def getHtml(url): page = urllib.urlopen(url) html = page...

分类：其他好文时间：2014-08-12 18:52:14 阅读次数：257

Python中的字符编码问题

初学Python，本身就在一些语句处有些迷惑，如 a = u'你好'，不知加上这个Unicode参数有何作用。一直到做爬虫抓取新闻时，在cmd的输出上总是出现错误。经过检索相关知识后，对一些编码问题做个小总结，其中参杂个人猜测，难免会有错误，以后再慢慢修改了。 1.一定要声明#coding=X...

分类：编程语言时间：2014-08-12 18:28:44 阅读次数：203

正则表达式中的贪婪非贪婪

近几天在做几个爬虫，分析网页url的时候，抓取总是出现问题。后来了解到是贪婪和非贪婪模式的问题。记录一下本是想在一个html中抓取大量这种模式的href连接xxxxx写的正则表达式为reg = r''经过Regulator分析后，下面语句也匹配了出来href="http://www.xxx.info...

分类：其他好文时间：2014-08-12 13:25:54 阅读次数：214

实现一个简单的邮箱地址爬虫（python)

我经常收到关于email爬虫的问题。有迹象表明那些想从网页上抓取联系方式的人对这个问题很感兴趣。在这篇文章里，我想演示一下如何使用python实现一个简单的邮箱爬虫。这个爬虫很简单，但从这个例子中你可以学到许多东西（尤其是当你想做一个新虫的时候）。我特意简化了代码，尽可能的把主要思路表达清楚...

分类：编程语言时间：2014-08-11 17:27:52 阅读次数：2023

Socket网络编程--网络爬虫(1)

我们这个系列准备讲一下--网络爬虫。网络爬虫是搜索引擎系统中十分重要的组成部分，它负责从互联网中搜集网页，采集信息，这些网页信息用于建立索引从而为搜索引擎提供支持，它决定着整个引擎系统的内容是否丰富，信息是否即时，因此其性能的优劣直接影响着搜索引擎的效果。网络爬虫的基本工作原理： (1)从一个...

分类：其他好文时间：2014-08-08 23:54:56 阅读次数：396

共10452条上一页 1 ... 1024 1025 1026 1027 1028 ... 1046 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)