正则表达式使用某种预定义的模式去匹配一类具有共同特征的字符串,主要用于处理字符串,可以快速、准确地完成复杂的查找、替换等处理要求,在文本编辑与处理、网页爬虫之类的场合中有重要应用。Python中,re模块提供了正则表达式操作所需要的功能。 元字符 功能说明 . 匹配除换行符以外的任意单个字符 * 匹 ...
分类:
其他好文 时间:
2020-01-31 18:47:24
阅读次数:
134
网上的妹子图爬虫:只爬取一个人物相册 import requests from bs4 import BeautifulSoup headers = { 'User-Agent':'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)', 'Refer ...
分类:
编程语言 时间:
2020-01-18 00:45:19
阅读次数:
76
位图 问题 问题1:如何实现网页爬虫中url去重功能? 分析 传统数据结构散列表、红黑树、跳表这些动态数据结构,都能支持快速地插入、查找数据。 但通常爬虫爬取的网页数量级都比较大,假设为10亿个网页,估算一下散列表存储所需的内存: 为了判重,我们把这 10 亿网页链接存储在散列表中。 假设一个 UR ...
分类:
编程语言 时间:
2020-01-08 21:02:20
阅读次数:
121
一个简单的网页爬虫:http://www.cnblogs.com/fnng/p/3576154.html 简单的网页爬虫,获取豆瓣的最新电影信息。 爬虫主要是获取页面,然后对页面进行解析,解析出自己所需要的信息进行进一步分析和挖掘。 首先需要学习python的正则表达式:http://www.cnb ...
分类:
Web程序 时间:
2019-12-03 14:19:26
阅读次数:
111
@ "TOC" 前面,我们进行了一些简单的爬虫。包括静态页面和动态页面爬取。大家可能<(^-^)>对爬虫知识有了大概的了解了吧,这篇文章我们就系统地了解网页爬虫的基本原理以及网页开发者工具的使用方法,以及得到的数据如何放置,Cookies以及代理的知识吧。 一.HTTP基本原理 (一)URI和URL ...
分类:
编程语言 时间:
2019-11-28 13:23:02
阅读次数:
90
Python这门语言因其简单强大已经火了很久了,但我接触的比较晚,前几个月因为一篇博客开始初步了解这门语言,并且之后模仿某位北邮的前辈的微博写了一个新浪微博的爬虫 这里给出链接:python编写的新浪微博爬虫 当时为了能够顺便把从微博上抓下来的数据存储起来,顺便装了MySQL,之所以用MySQL,主 ...
分类:
Web程序 时间:
2019-11-27 23:09:47
阅读次数:
97
本题地址: "https://github.com/YvetteLau/Step By Step/issues/8" 语义化意味着顾名思义,HTML5的语义化指的是合理使用语义化的标签来创建页面结构,如header,footer,nav,从标签上即可以直观的知道这个标签的作用,而不是滥用div。 语 ...
分类:
Web程序 时间:
2019-11-26 13:33:08
阅读次数:
90
什么是爬虫? 我们可以把互联网比作一张大网,而爬虫(即网络爬虫)便是在网上爬行的蜘蛛。把网的节点比作一个个网页,爬虫爬到这就相当于访问了该页面,获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系,这样蜘蛛通过一个节点后,可以顺着节点连线继续爬行到达下一个节点,即通过一个网页继续获取后续的网 ...
分类:
编程语言 时间:
2019-10-25 09:19:13
阅读次数:
132
学习网站:https://www.cnblogs.com/Zfc-Cjk/p/9937269.html 学习的jmx文件:殆知阁优化.jmx 什么网站,都没听过 遇到问题:乱码问题,解决方法:https://www.cnblogs.com/shishibuwan/p/11307194.html 学习 ...
分类:
Web程序 时间:
2019-08-10 09:23:25
阅读次数:
124
1、将从豆瓣网页爬虫采集到的数据,连接mongo数据库,将数据导入至mongo中,代码如下: # 访问网址 # 使用requests 去访问 import pandas as pd import requests import pymongo import re u = 'https://book. ...
分类:
其他好文 时间:
2019-07-31 18:32:39
阅读次数:
502