1. 用Pyspark自主实现词频统计过程。 >>> s = txt.lower().split()>>> dd = {}>>> for word in s:... if word not in dd:... dd[word] = 1... else:... dd[word] = dic[word] ...
分类:
其他好文 时间:
2021-04-23 12:10:50
阅读次数:
0
一、词频统计: 读文本文件生成RDD lines 将一行一行的文本分割成单词 words flatmap() 全部转换为小写 lower() 去掉长度小于3的单词 filter() 去掉停用词 转换成键值对 map() 统计词频 reduceByKey() 按字母顺序排序 按词频排序 10、结果文件 ...
分类:
其他好文 时间:
2021-04-23 12:06:34
阅读次数:
0
回顾 CPU 使用率是单位时间内 CPU 使用情况的统计,以百分比的方式展示 案例: 最常用什么指标来描述系统的 CPU 性能? 回答 CPU 使用率,而不是平均负载,CPU 上下文切换 CPU 使用率 前言 前面说过,Linux 作为一个多任务操作系统,将每个 CPU 的时间划分为很短的时间片,在 ...
分类:
其他好文 时间:
2021-04-23 11:55:10
阅读次数:
0
引言 Hive 中的默认分隔符是 ^A (\001) ,这是一种特殊的分隔符,使用的是 ASCII 编码的值,键盘是打不出来的 查看 Hive 默认分隔符文件 Linux 上的文件 以 \001 作为分隔符时,下载后用 notePad++ 打开时看到的 SOH 以 \002 作为分隔符时,下载后用n ...
分类:
其他好文 时间:
2021-04-23 11:54:19
阅读次数:
0
#!/usr/bin/env python # -*- coding:utf-8 -*- # <editable> def execute(): # <editable> ''' 载入模块 ''' from collections import Counter import pandas as pd ...
分类:
编程语言 时间:
2021-04-23 11:49:29
阅读次数:
0
一、excel数据分析工具_EXCE弱点 EXCEL一直是非常流行的个人计算机数据处理工具,它可以处理多种多样的数据,操作非常简单,支持丰富的函数、统计图表,在工作中更是非常得力的生产力工具。然而随着时代的不断演进,现如今由于大家对于数据工具的要求越来越高,EXCEL分析能力的不足也逐渐暴露出来,包 ...
分类:
其他好文 时间:
2021-04-22 15:33:58
阅读次数:
0
目标:对学员登录数、学员注册数、课程播放数、每日课程数进行特定日期统计。画出上图。 一、数据库设计 statistics_daily CREATE TABLE `statistics_daily` ( `id` char(19) NOT NULL COMMENT '主键', `date_calcul ...
分类:
其他好文 时间:
2021-04-22 15:21:22
阅读次数:
0
统计tomcat的access日志的ip次数,并按次数排序 awk '{sum[$1]++}END{for(i in sum) print i "\t" sum[i]}' localhost_access_log.* | sort -n -k2 统计某个接口的调用时间 awk '{if($7~/.* ...
分类:
数据库 时间:
2021-04-21 12:18:10
阅读次数:
0
读文本文件生成RDD lines 将一行一行的文本分割成单词 words flatmap() 全部转换为小写 lower() 去掉长度小于3的单词 filter() 去掉停用词 转换成键值对 map() 统计词频 reduceByKey() 按字母顺序排序 sortBy(f) 按词频排序 sortB ...
分类:
其他好文 时间:
2021-04-21 12:03:05
阅读次数:
0
mysql 系统提供了很多的函数 count:统计个数,次数,null不统计 max:最大值 min:最小值 sum求和 avg平均值 round:四舍五入 ...
分类:
其他好文 时间:
2021-04-20 15:47:17
阅读次数:
0