1.beautifulsoup https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ pip install beautifulsoup4 1.1 解析库 建议lxml 1.2 解析 四个对象: tag对象的:string。gettext ...
分类:
其他好文 时间:
2018-04-10 21:52:17
阅读次数:
183
学会使用正则表达式 import requests import re from bs4 import BeautifulSoup from datetime import datetime newsUrl = 'http://news.gzcc.cn/html/2017/xiaoyuanxinwe ...
分类:
其他好文 时间:
2018-04-10 21:45:41
阅读次数:
217
1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文、show-info。 2. 分析info字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。 3. 将字符串格式的发布时间转换成datetime类型 4. 使用 正则表达式取得新闻编号 5. 生成点 ...
分类:
其他好文 时间:
2018-04-09 23:09:16
阅读次数:
297
# -*- coding: utf-8 -*- import requests import re from bs4 import BeautifulSoup from datetime import datetime # 7. 将456步骤定义成一个函数 def getClickCount(new... ...
分类:
其他好文 时间:
2018-04-09 15:12:27
阅读次数:
181
import requests from bs4 import BeautifulSoup from datetime import datetime import locale import re locale.setlocale(locale.LC_CTYPE,'chinese') newsur... ...
分类:
其他好文 时间:
2018-04-09 15:01:06
阅读次数:
139
import requests import re from bs4 import BeautifulSoup url="http://news.gzcc.cn/html/xiaoyuanxinwen/" res=requests.get(url) res.encoding="utf-8" url1... ...
分类:
其他好文 时间:
2018-04-09 13:17:21
阅读次数:
155
1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文、show-info。 2. 分析info字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。 3. 将字符串格式的发布时间转换成datetime类型 4. 使用正则表达式取得新闻编号 5. 生成点击 ...
分类:
其他好文 时间:
2018-04-09 13:17:05
阅读次数:
207
1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文、show-info。 2. 分析info字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。 3. 将字符串格式的发布时间转换成datetime类型 4. 使用正则表达式取得新闻编号 5. 生成点击 ...
分类:
其他好文 时间:
2018-04-08 22:44:35
阅读次数:
319
import requests import re url = "http://news.gzcc.cn/html/xiaoyuanxinwen/" res = requests.get(url) res.encoding = 'utf-8' # 利用BeautifulSoup的HTML解析器,生成 ...
分类:
其他好文 时间:
2018-04-08 22:41:07
阅读次数:
229
1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文、show-info。 2. 分析info字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。 3. 将字符串格式的发布时间转换成datetime类型 4. 使用正则表达式取得新闻编号 5. 生成点击 ...
分类:
其他好文 时间:
2018-04-08 21:17:31
阅读次数:
152