码迷,mamicode.com
首页 >  
搜索关键字:爬虫 数据处理    ( 15133个结果
一层逻辑的网页scrapy爬虫
1 import scrapy 2 import re 3 from fake_useragent import UserAgent 4 5 6 class DoubanSpider(scrapy.Spider): 7 name = "douban" 8 start_urls = ['https:/ ...
分类:Web程序   时间:2021-01-28 11:53:08    阅读次数:0
spark-------------RDD 转换算子-----value类型(一)
引言 RDD 根据数据处理方式的不同将算子整体上分为 Value 类型、双 Value 类型和 Key-Value类型,本文主要讲一些Value 类型 正文 资源路径和资源内容 map ###函数签名:def map[U: ClassTag](f: T ? U): RDD[U] ###函数说明:将处 ...
分类:其他好文   时间:2021-01-27 12:50:51    阅读次数:0
java 集合
集合: 保存多个的引用对象 Java 集合可分为 Collection 和 Map 两种体系 集合的遍历: 使用iterato()方法: iterator对象称为迭代器(设计模式的一种),主要用于遍历 Collection 集合中的元素 所有实现了Collection接口的集合类都有一个iterat ...
分类:编程语言   时间:2021-01-26 12:40:27    阅读次数:0
Node.js中的Stream
Stream主要用于序列化地数据处理(read or write input into output sequentially),比如文件读写,网络数据传输, 或任何端到端的数据交换。Stream在处理数据的时候,与传统方式有所不同,传统方式是把数据作为一个整体进行处理,而stream则是把数据分割 ...
分类:Web程序   时间:2021-01-25 11:16:01    阅读次数:0
TypeError: Object of type bytes is not JSON serializable
0.问题描述 在做一个数据处理的时候,需要将一个XMl的文件解析成一个json,关键是xml的文件格式和json不是一一对应的,需要我一点一点拼接关键信息,组成json文件,最后在写出json文件的时候,我采用了json.dump(result, json_file,indent=4),结果出现了以 ...
分类:Web程序   时间:2021-01-25 10:37:52    阅读次数:0
java之爬虫菜鸟运用
主要是一个简单的demo测试 1.首先找到一个html查看源码如图 如果是这样的一段代码,我们的目标是获取a标签中的href内容,和文本内容,以及<span></span>标签中的日期,和p标签中的数据 2.开始做准备 (1)加入相关工具包 <!-- html解析jar --> <dependenc ...
分类:编程语言   时间:2021-01-22 12:05:17    阅读次数:0
爬虫-urllib模块的使用
urllib是Python中请求url连接的官方标准库,在Python3中将Python2中的urllib和urllib2整合成了urllib。urllib中一共有四个模块,分别如下: request:主要负责构造和发起网络请求,定义了适用于在各种复杂情况下打开 URL (主要为 HTTP) 的函数 ...
分类:Web程序   时间:2021-01-15 11:56:28    阅读次数:0
python-scrapy-中间件的学习
middlewares.py class MiddlewareDownloaderMiddleware: @classmethod def from_crawler(cls, crawler): # This method is used by Scrapy to create your spide ...
分类:编程语言   时间:2021-01-14 11:23:09    阅读次数:0
Selenium
自动化测试工具,可以驱动浏览器执行特定的动作,如点击,下拉等。支持多种浏览器,爬虫中主要用来解决JavaScript渲染问题。 1.准备工作 使用之前需安装好谷歌浏览器以及ChromeDriver,以及python的第三方库Selenium 2.基本使用 broser = webdriver bro ...
分类:其他好文   时间:2021-01-14 10:44:57    阅读次数:0
selenium反爬虫设置
from selenium import webdriveroptions = webdriver.ChromeOptions()# 设置为开发者模式,防止被各大网站识别出来使用了Selenium# 屏蔽 windows.navigator.webdriveroptions.add_experime ...
分类:其他好文   时间:2021-01-13 11:25:44    阅读次数:0
15133条   上一页 1 ... 14 15 16 17 18 ... 1514 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!