今天继续学习webmagic 已经可以爬取出目录和跳转去信件的页面,不知道是一直有还是后来加的,现在好像多了哥跳转中页面,目录给的链接不是直接的信件页面,所以我还需要再加一条爬取跳转中页面的提供的url然后访问,才可以爬取信件内容,但是不知道是正则表达式的问题还是什么,总之爬取不到想要的url一直是 ...
分类:
其他好文 时间:
2020-02-13 00:17:25
阅读次数:
67
22:00 “孩子长大,倘无才能,可寻点小事情过活,万不可去做空头文学家或美术家。” ——鲁迅 在写日记之前,我打开了电脑,在桌面的便签重新把那些零散的工作计划整理归类了一番,进一步把任务归为大三类:管理、售前、研发,并且按当天任务、未排期任务、待确定任务分组,每天(即当天)要完成由任务必须要完成, ...
分类:
其他好文 时间:
2020-02-13 00:06:02
阅读次数:
62
今天继续学习webmagic爬虫 通过老师给的学习资料学习后,对webmagic爬虫基本有了了解,当时对site方法有点模糊,今天也终于搞明白了,感觉就像模拟了一个用户一样,对一个网站的框架还是不是很了解,所以还是不太理解,那些cookie,host,UserAgent,和header是什么,不过我 ...
分类:
其他好文 时间:
2020-02-12 00:42:34
阅读次数:
64
今天继续学习webmagic爬虫技术,组件包含: 1.Downloader Downloader负责从互联网上下载页面,以便后续处理。WebMagic默认使用了Apache HttpClient作为下载工具。 2.PageProcessor PageProcessor负责解析页面,抽取有用信息,以及 ...
分类:
其他好文 时间:
2020-02-11 00:30:29
阅读次数:
76
今天完成了实验五第三问,实验六也进行了一点。明天继续进行实验六。 编程实现利用 DataFrame 读写 MySQL 的数据 (1) 在 MySQL 数据库中新建数据库 sparktest,再建表 employee,包含下列两行数据; 表 1 employee 表原有数据 (2) 配置Spark通过 ...
分类:
其他好文 时间:
2020-02-09 22:07:28
阅读次数:
87
多么痛的领悟——计算机组成原理第一讲 前言 大家好,我是泰斗贤若如,我又开始更新文章了,本次更新的内容是计算机组成原理,是大学计算机相关专业必须学的,我是大三上学期学的,刚开始学的时候感觉很难,get不到重点,直到学了一遍,被期末考试逼了一遍,我才有所领悟,多么痛的领悟啊。我打算自己把整本书中的重点 ...
分类:
其他好文 时间:
2020-02-07 10:20:21
阅读次数:
68
昨天的下载完成后运行报错,应该是下载的spark版本和教程不符合,然后pom.xml文件中的spark-core内容而应该不同,但是我还是用的教程导致,现在正在尝试安装教程给的网站找的内容又下载中,不知道这次又要下载多久。(我下载的是spark 2.4.4) <?xml version="1.0" ...
分类:
其他好文 时间:
2020-02-06 01:23:10
阅读次数:
63
今天你完成实验四前两个实验。但是!!!在跟eclipse的scala插件做斗争的时候,把hadoop的插件给搞没了,按着林子雨老师的教程走了一遍还是不行,不知不觉又搞了一下午,还是没解决。明天把实验四完成,做一些实验五,希望明天可以把eclipse的问题解决。 1.spark-shell 交互式编程 ...
分类:
其他好文 时间:
2020-02-03 22:31:42
阅读次数:
159
学习于大数据原理与应用 第十六章 Spark 学习指南 三、独立应用程序编程 2.Scala应用程序代码 cd ~ # 进入用户主文件夹 mkdir ./sparkapp # 创建应用程序根目录 mkdir -p ./sparkapp/src/main/scala # 创建所需的文件夹结构 vim ...
分类:
其他好文 时间:
2020-02-03 19:26:17
阅读次数:
78
学习于林子雨《大数据技术原理与应用》教材配套大数据软件安装和编程实践指南 一. 安装spark 第一步,spark下载(http://spark.apache.org/downloads.html) 第二步,spark压缩包解压 sudo tar -zxf ~/下载/spark-1.6.2-bin- ...
分类:
其他好文 时间:
2020-02-01 23:24:39
阅读次数:
75