搜索关键字：爬虫 pyton，搜索到10534个结果！码迷,mamicode.com！

MySQL根据正则表达式批量删除表

最近在维护一个wordpress商城项目，商城是多站的，会为独立的站创建出几张表。项目在测试服务器上，貌似是被爬虫恶意注册，产生了几千个用户，就产生了几万张表，导致数据库导入导出都像蜗牛一样，慢得要死，所以就只能上服务器执行SQL删除了，先暂时关闭了注册的功能，由于注..

分类：数据库时间：2014-10-14 05:21:18 阅读次数：434

多线程网页爬虫 python 实现

采用了多线程和锁机制，实现了广度优先算法的网页爬虫。对于一个网络爬虫，如果要按广度遍历的方式下载，它就是这样干活的： 1.从给定的入口网址把第一个网页下载下来 2.从第一个网页中提取出所有新的网页地址，放入下载列表中 3.按下载列表中的地址，下载所有新的网页 4.从所有新的网页中找出没有下载过的网页...

分类：编程语言时间：2014-10-13 22:44:27 阅读次数：248

python 批量下载美剧 from 人人影视 HR-HDTV

本人比较喜欢看美剧，尤其喜欢人人影视上HR-HDTV 的 1024 分辨率的高清双字美剧，这里写了一个脚本来批量获得指定美剧的所有 HR-HDTV 的 ed2k下载链接，并按照先后顺序写入到文本文件。这个 python 爬虫比较短，就用到了 urllib.request 和 re 这两个模块，前者负责抓取网页，后者负责解析文本。想进一步加强爬虫的功能，可以用爬虫框架 Scrapy。还有就是，网页内容多是 javascript 生成，就需要一个 js 引擎了，PyV8 可以拿来试试，再有就是基于 js 的爬虫...

分类：编程语言时间：2014-10-11 22:03:36 阅读次数：344

python实现的一个简单的网页爬虫

学习了下python，看了一个简单的网页爬虫：http://www.cnblogs.com/fnng/p/3576154.html自己实现了一个简单的网页爬虫，获取豆瓣的最新电影信息。爬虫主要是获取页面，然后对页面进行解析，解析出自己所需要的信息进行进一步分析和挖掘。首先需要学习python的正则表...

分类：编程语言时间：2014-10-11 20:13:06 阅读次数：260

设计题

1.一个有10亿条记录的文本文件，已按照关键字排好序存储，设计算法，可以快速的从文件中查找指定关键字的记录。$10亿=10^9~2^30$，每行记录如果是1kB的话，总共是1TB。将文件分割成1000份，每份1G，load进内存作二分查找即可。2. 设计一个爬虫系统。3. 设计一个长连接手机云推送服...

分类：其他好文时间：2014-10-11 17:12:05 阅读次数：160

爬虫功能

感觉写得有点烂，因为很多地方都需要做判断，而我不懂HTML语言，所以有些关键位置判断做得很潦草。什么都要学，为什么我这么菜。找个标签都要找很久。。。下一个版本马上就要出来了，修复了好多地方，好多BUG。。。

分类：其他好文时间：2014-10-11 01:55:14 阅读次数：305

总结2

当技术达到一定的地步之后，思维是关键把一些基础的技术组合起来，运用起来，而不是在去学习新的技术像我现在来讲，已经能看懂一些PHP 了， xss+csrf 或者php审计更契合当前的技术。 python +EXP 的编写和爬虫组合更棒，而不是直接去学新的技术liunx是需要掌握，LIUNX是...

分类：其他好文时间：2014-10-10 23:44:14 阅读次数：284

用python爬虫抓站的一些技巧总结

1.[代码]最基本的抓站 ?12import urllib2content = urllib2.urlopen('http://XXXX').read()2.[代码]使用代理服务器 ?12345import urllib2proxy_support = urllib2.ProxyHandler({'...

分类：编程语言时间：2014-10-10 19:32:24 阅读次数：226

半年涉及到的技术

webservice运行原理需要继续对底层机制进行研究，常见的WS调用方式、MQ通信、线程池和多线程管理机制异常处理机制数据库连接池管理 RMI远程调用 log4j日志管理 dom4j进行xml解析页面爬虫，涉及到HTTP协议开源...

分类：其他好文时间：2014-10-10 16:12:35 阅读次数：139

基于JAVA语言的网络爬虫

Introduction：这个小demo用于爬取淘宝网的相关链接。首先从“www.taobao.com"这个url开始，手机页面上的所有url，然后存入toCrawList 。当toCrawList不为空时，拿出一个url,把它存入数据集并且搜寻这个url上的所有链接充入toCrawList. 这是一个BFS过程。 Framework: Code: 就网络爬虫来讲这个de...

分类：编程语言时间：2014-10-09 18:49:37 阅读次数：345

共10534条上一页 1 ... 1020 1021 1022 1023 1024 ... 1054 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)