码迷,mamicode.com
首页 > 编程语言 > 详细

java网络爬虫

时间:2019-10-11 20:35:50      阅读:102      评论:0      收藏:0      [点我收藏+]

标签:sql   中文   四大组件   文件   soup   result   表达式   环境搭建   最新   

#环境准备

  ##第三方工具包httpclient:抓取网页数据  

    *get请求

    *带参数get请求

    *post请求

    *带参数post请求

    *连接池

    *请求参数:时间

#Jsoup

  *对页面进行解析

    *字符串处理工具

    *正则表达式

  *环境搭建

    *导入坐标jsoup,以及其他工具

  *解析url

  *解析字符串

  *解析文件

  *获取属性值

  *Selector选择器

#WebMagic

  *爬虫框架:基于jsoup和httpclient开发

  *核心容器spider:四大组件

    *下载

    *解析

    *去重

    *数据处理

  *数据流转对象:三大

    *Pages:核心

    *Request:url封装

    *ResultItems:Map

#爬虫的分类

  *全网

  *聚焦

  *增量:只查最新的

  *隐藏的网页

#EliasticSearch

  *使用WebMagic,爬虫网络,将数据存入mysql

  *用EliasticSearch将mysql数据建立索引库,Luece中文分词

  *将分析处理后的数据展示到前端

 

java网络爬虫

标签:sql   中文   四大组件   文件   soup   result   表达式   环境搭建   最新   

原文地址:https://www.cnblogs.com/counter-biao/p/11656131.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!