1 #爬取lol全英雄皮肤 2 import re 3 import traceback # 异常跟踪 4 import requests 5 from bs4 import BeautifulSoup 6 #获取html 7 def get_url(url, hander): 8 try: 9 r ...
分类:
其他好文 时间:
2020-01-04 18:42:19
阅读次数:
100
```python import requests from bs4 import BeautifulSoup import re from mysql_control import MySQL # 爬虫三部曲 # 1.发送请求 def get_html(url): response = reque... ...
分类:
其他好文 时间:
2020-01-02 20:17:59
阅读次数:
85
简单抓取网页的代码 import requests#导入requests包 from bs4 import BeautifulSoup#从bs4中导入BeauifulSoup包 import re#导入正则表达式的包 r = requests.get("http://baidu.com") r.en ...
分类:
编程语言 时间:
2019-12-30 00:26:57
阅读次数:
98
from bs4 import BeautifulSoup from urllib.request import urlopen import re html = urlopen("https://morvanzhou.github.io/static/scraping/table.html").r ...
分类:
编程语言 时间:
2019-12-29 18:18:47
阅读次数:
139
#爬取电影天堂全站电影资源链接#功能:#1、获取电影天堂资源下载链接并输出#2、所有链接保存为一个csv文件import timeimport requestsfrom bs4 import BeautifulSoupimport csvdef spider(url): global page, N ...
分类:
其他好文 时间:
2019-12-29 00:53:19
阅读次数:
241
原理:我的上篇博客 import requests import time from bs4 import BeautifulSoup def get_html(url): ''' 获得 HTML ''' headers = { 'user-agent': 'Mozilla/5.0 (Windows ...
分类:
编程语言 时间:
2019-12-23 13:26:11
阅读次数:
82
网页解析库 简介 除了正则表达式外,还有其他方便快捷的页面解析工具 如:lxml (xpath语法) bs4 pyquery等 Xpath 全称XML Path Language, 即XML路径语言,是一门在XML文档中查找信息的语言,同样也适用于HTML文档的搜索。 爬虫 我们需要抓取的只是某个网 ...
分类:
Web程序 时间:
2019-12-22 18:26:38
阅读次数:
239
import requestsimport base64import timeimport rsaimport binasciiimport urllib.parseimport re,urllibfrom bs4 import BeautifulSoupclass WeiBo(): def __i ...
分类:
其他好文 时间:
2019-12-22 00:27:08
阅读次数:
95
爬取源代码如下: import requestsimport bs4from bs4 import BeautifulSoupimport reimport pandas as pdimport ioimport syssys.stdout = io.TextIOWrapper(sys.stdout ...
分类:
Web程序 时间:
2019-12-21 20:23:55
阅读次数:
100
import time import requests from bs4 import BeautifulSoup urlFormat='https://www.kugou.com/yy/rank/home/{}-8888.html' count=1 rank=1 while 1: url=urlF ...
分类:
编程语言 时间:
2019-12-19 12:46:56
阅读次数:
103