码迷,mamicode.com
首页 >  
搜索关键字:beautifulsoup    ( 1186个结果
bs4取数
# -*- coding: utf-8 -*-from bs4 import BeautifulSoupdef file2soup(ffile): with open(ffile,'r+b') as f: f.encoding='utf-8' soup=BeautifulSoup(f,'lxml') ...
分类:其他好文   时间:2017-06-17 14:22:57    阅读次数:137
bs4
对象的种类 Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comment 。 Tag Tag对象与XML或者HTML原生文档中的tag相同 ...
分类:其他好文   时间:2017-06-16 10:17:34    阅读次数:228
新浪新闻按keyword抓取实例
import urllib2 import requests #import MySQLdb import webbrowser import string import re from BeautifulSoup import BeautifulSoup def getHtml(page):#获取 ...
分类:其他好文   时间:2017-06-15 22:01:25    阅读次数:212
[转]scrapy 选择器官方文档
当抓取网页时,常见的任务是从HTML源码中提取数据。现有的一些库可以达到这个目的: BeautifulSoup lxml BeautifulSoup lxml Scrapy 提取数据有自己的一套机制。它们被称作选择器(seletors),因为他们通过特定的 XPath 或者 CSS 表达式来“选择” ...
分类:其他好文   时间:2017-06-14 16:33:17    阅读次数:266
Python-爬虫-爬取知乎的标题和当页显示的文字
# coding:utf-8 import requests from bs4 import BeautifulSoup quesNumStr = str(input("请输入搜索关键字:")) url = 'https://www.zhihu.com/search?type=content&q='... ...
分类:编程语言   时间:2017-06-13 23:47:35    阅读次数:953
定向网页爬虫
1 import requests 2 from bs4 import BeautifulSoup 3 import bs4 4 5 #爬取定向网页的内容 6 def getHTMLText(url): 7 try: 8 r = requests.get(url, timeout = 30) 9 r... ...
分类:Web程序   时间:2017-06-13 12:52:31    阅读次数:177
爬虫-request和BeautifulSoup模块
requests简介 Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apache2 Licen ...
分类:其他好文   时间:2017-06-13 12:52:13    阅读次数:269
python 字符串匹配问题
想匹配html = 安装最新版python各种数据库的注释中的‘56845037’和‘59120585’,尝试用正则:pattern_l = r''''''re.findall(pattern_l,html)结果不成功。返回为空,有用: soup = BeautifulSoup(... ...
分类:编程语言   时间:2017-06-11 14:54:29    阅读次数:131
Ubuntu下安装BeautifulSoup4
先去下载beautifulsoup的安装包https://www.crummy.com/software/BeautifulSoup/bs4/download/4.0/ 下载完之后解压 然后进包里面,里面有一个setup.py文件,执行它 然后就大功告成了,安装完之后我们就可以去爬虫了 ...
分类:系统相关   时间:2017-06-11 12:06:17    阅读次数:176
python爬虫:BeautifulSoup 使用select方法详解
我们在写 CSS 时,标签名不加任何修饰,类名前加点,id名前加 #,在这里我们也可以利用类似的方法来筛选元素,用到的方法是 soup.select(),返回类型是 list(1)通过标签名查找 (2)通过类名查找 (3)通过 id 名查找 (4)组合查找 组合查找即和写 class 文件时,标签名 ...
分类:编程语言   时间:2017-06-10 18:25:29    阅读次数:213
1186条   上一页 1 ... 84 85 86 87 88 ... 119 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!