码迷,mamicode.com
首页 > 其他好文 > 详细

2月11日

时间:2020-02-12 00:54:48      阅读:81      评论:0      收藏:0      [点我收藏+]

标签:现在   abd   dom   browser   模拟浏览器   学习   size   网页   ber   

1,背诵单词:slender修长的,细长的   drift漂,漂流(物)   diameter 直径   submarine 潜水艇   cocaine可卡因   plate金属板,片;盘子  philosophy 哲学,哲理  destiny 命运   machinery(总称)机器,机械   entail 使承担;需要  twist捻;拧;扭曲   massacre残杀,集体屠杀  integrity正直,诚实   clue线索,暗示   riddle谜,谜语  hound 猎狗;卑鄙的人  trim整齐的,整洁的  guilt 罪过,内疚   abdomen 腹  allocate 分配,分派;拨给  provision供应给养   magnificent华丽的,高尚的  liable有...倾向的

2,做爬取北京信件网页内容并学习Java爬虫使用htmlunit观看视频:https://www.bilibili.com/video/av62605696

  htmlunit模拟浏览器:WebClient webClient=new WebClient(BrowserVersion.FIREFOX_52)

  获取指定元素:1,通过getElementxxx方法获取 2,使用getByXpath()方法获取

  对解析页面设置:

    webClient.getOptions().setCssEnabled(false); // 取消css支持

    webClient.getOptions().setJavaScriptEnabled(false); // 取消javascript支持

 

 

3,遇到的问题:北京信件的分页功能是用Ajax技术实现的,现在不知道通过爬取Ajax获取下一页数据,

 

4,明天计划:继续将爬取的数据进行分析并学习hive的使用

 

2月11日

标签:现在   abd   dom   browser   模拟浏览器   学习   size   网页   ber   

原文地址:https://www.cnblogs.com/lq13035130506/p/12297319.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!