在慕课网学习并创建了一个简单的爬虫包,爬取百度百科相关词条信息 程序中会用到第三方解析包(BeautifulSoup4),Windows环境下安装命令:pip install BeautifulSoup4 1、新建包 2、新建相关类文件,其中包含有: index.py,包入口类文件; url_man ...
分类:
编程语言 时间:
2018-02-01 14:42:09
阅读次数:
209
第12章 Spark Streaming项目实战(python生成器的编写、python语言的基础语法) ...
分类:
其他好文 时间:
2018-02-01 00:13:55
阅读次数:
242
铭文一级: 第8章 Spark Streaming进阶与案例实战 黑名单过滤 访问日志 ==> DStream20180808,zs20180808,ls20180808,ww ==> (zs: 20180808,zs)(ls: 20180808,ls)(ww: 20180808,ww) 黑名单列表 ...
分类:
其他好文 时间:
2018-01-30 12:11:24
阅读次数:
155
铭文一级: 第八章:Spark Streaming进阶与案例实战 updateStateByKey算子需求:统计到目前为止累积出现的单词的个数(需要保持住以前的状态) java.lang.IllegalArgumentException: requirement failed: The checkp ...
分类:
其他好文 时间:
2018-01-29 19:15:15
阅读次数:
206
铭文一级: 核心概念:StreamingContext def this(sparkContext: SparkContext, batchDuration: Duration) = { this(sparkContext, null, batchDuration)} def this(conf: ...
分类:
其他好文 时间:
2018-01-28 23:16:29
阅读次数:
188
接触python不久,也在慕课网学习了一些python相关基础,对于爬虫初步认为是依靠一系列正则获取目标内容数据 于是参照着慕课网上的教学视频,完成了我的第一个python爬虫,鸡冻 >_< ...
分类:
编程语言 时间:
2018-01-28 11:24:56
阅读次数:
87
铭文一级: Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data stre ...
分类:
其他好文 时间:
2018-01-28 11:24:12
阅读次数:
210
铭文一级: 第五章:实战环境搭建 Spark源码编译命令:./dev/make-distribution.sh \--name 2.6.0-cdh5.7.0 \--tgz \-Pyarn -Phadoop-2.6 \-Phive -Phive-thriftserver \-Dhadoop.versi ...
分类:
其他好文 时间:
2018-01-27 19:14:31
阅读次数:
169
铭文一级: 整合Flume和Kafka的综合使用 avro-memory-kafka.conf avro-memory-kafka.sources = avro-sourceavro-memory-kafka.sinks = kafka-sinkavro-memory-kafka.channels ...
分类:
其他好文 时间:
2018-01-26 23:02:49
阅读次数:
206
铭文一级: 单节点单broker的部署及使用 $KAFKA_HOME/config/server.propertiesbroker.id=0listenershost.namelog.dirszookeeper.connect 启动Kafkakafka-server-start.shUSAGE: / ...
分类:
其他好文 时间:
2018-01-26 00:31:28
阅读次数:
186