1 # _*_ coding:utf-8 _*_ 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 user_agent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KH... ...
分类:
其他好文 时间:
2017-10-03 23:31:24
阅读次数:
274
xpath基本知识 XPath语法:使用路径表达式来选取XML或HTML文档中的节点或节点集 路径表达式 nodename:表示选取此节点的所有子节点 / : 表示从根节点选取 // :选择任意位置的某个节点。 . :选取当前节点 .. :选取当前节点的父节点 @ :选取属性 谓语实例 实现效果 路 ...
分类:
编程语言 时间:
2017-10-03 23:21:21
阅读次数:
297
Github:https://github.com/atinst/Python/tree/master/Damai 开发过程:1.根据需求分析,安装并导入BeautifulSoup和requests模块2.对大麦网html代码进行了分析3.找到标题、演出时间所在位置并编写python代码4.进行简单 ...
分类:
其他好文 时间:
2017-10-03 21:36:41
阅读次数:
215
一.解析器概述 对网页进行析取时,并未规定解析器,此时使用的是python内部默认的解析器“html.parser”。 解析器是什么呢? BeautifulSoup做的工作就是对html标签进行解释和分类,不同的解析器对相同html标签会做出不同解释。 举个官方文档上的例子: 官方文档上多次提到推荐 ...
分类:
编程语言 时间:
2017-10-02 21:33:40
阅读次数:
265
Boautiful Soup BeautifulSoup官方介绍: 官方网站:https://www.crummy.com/software/BeautifulSoup/ 1、安装 在"C:\Windows\System32"中找到"cmd.exe",使用管理员身份运行,在命令行中输入:“pip i ...
分类:
编程语言 时间:
2017-09-30 20:54:43
阅读次数:
272
无意间看到了网上python爬1024的文章,就想着晚点自己去撸一个全自动小电影下载器(就不用每次选半天了),上班挂着,下班回去就可以看了(身体已经被妹纸掏空了,还看),于是自己先试着写一个简单的爬虫,目标自然是博客园:使用简单的正则表达式匹配,当然也可以使用网上广泛使用的BeautifulSoup ...
分类:
编程语言 时间:
2017-09-30 17:41:16
阅读次数:
175
基于python3的实现,获取网页的基础技术:request、urllib、selenium;解析网页的基础技术:re正则表达式、BeautifulSoup、和lxml;储存技术:数据库或者表格。 python环境搭建: 1、pycharm; 2、anaconda,适合基础入门,自带很多包,则无需安 ...
分类:
编程语言 时间:
2017-09-29 17:52:04
阅读次数:
192
用requests库和BeautifulSoup4库,爬取校园新闻列表的时间、标题、链接、来源、详细内容。 将其中的时间str转换成datetime类型。 将取得详细内容的代码包装成函数。 import requests from bs4 import BeautifulSoup from date ...
分类:
其他好文 时间:
2017-09-28 20:02:15
阅读次数:
187
import requests from bs4 import BeautifulSoup gzccurl = 'http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get(gzccurl) res.encoding='utf-8' so... ...
分类:
其他好文 时间:
2017-09-28 16:53:43
阅读次数:
190
import requests from bs4 import BeautifulSoup url='http://news.gzcc.cn/html/xiaoyuanxinwen/' res=requests.get(url) res.encoding='utf-8' soup=Beautiful... ...
分类:
其他好文 时间:
2017-09-28 16:50:46
阅读次数:
158