标签:sql 中文 四大组件 文件 soup result 表达式 环境搭建 最新
#环境准备
##第三方工具包httpclient:抓取网页数据
*get请求
*带参数get请求
*post请求
*带参数post请求
*连接池
*请求参数:时间
#Jsoup
*对页面进行解析
*字符串处理工具
*正则表达式
*环境搭建
*导入坐标jsoup,以及其他工具
*解析url
*解析字符串
*解析文件
*获取属性值
*Selector选择器
#WebMagic
*爬虫框架:基于jsoup和httpclient开发
*核心容器spider:四大组件
*下载
*解析
*去重
*数据处理
*数据流转对象:三大
*Pages:核心
*Request:url封装
*ResultItems:Map
#爬虫的分类
*全网
*聚焦
*增量:只查最新的
*隐藏的网页
#EliasticSearch
*使用WebMagic,爬虫网络,将数据存入mysql
*用EliasticSearch将mysql数据建立索引库,Luece中文分词
*将分析处理后的数据展示到前端
标签:sql 中文 四大组件 文件 soup result 表达式 环境搭建 最新
原文地址:https://www.cnblogs.com/counter-biao/p/11656131.html