>>> s = txt.lower().split()>>> dd = {}>>> for word in s:... if word not in dd:... dd[word] = 1... else:... dd[word] = dic[word] + 1...>>> ss = sorted( ...
分类:
其他好文 时间:
2021-04-23 12:18:32
阅读次数:
0
1. 用Pyspark自主实现词频统计过程。 >>> s = txt.lower().split()>>> dd = {}>>> for word in s:... if word not in dd:... dd[word] = 1... else:... dd[word] = dic[word] ...
分类:
其他好文 时间:
2021-04-23 12:10:50
阅读次数:
0
详细步骤:(注:pip是Python包管理工具,该工具提供了对Python包的查找、下载、安装、卸载的功能。) 第一步:使用pip安装xpinyin包,具体命令如下: 1 pip install xpinyin -i http://pypi.douban.com/simple --trusted-h ...
分类:
编程语言 时间:
2021-04-23 12:10:10
阅读次数:
0
一、词频统计: 读文本文件生成RDD lines 将一行一行的文本分割成单词 words flatmap() 全部转换为小写 lower() 去掉长度小于3的单词 filter() 去掉停用词 转换成键值对 map() 统计词频 reduceByKey() 按字母顺序排序 按词频排序 10、结果文件 ...
分类:
其他好文 时间:
2021-04-23 12:06:34
阅读次数:
0
一.简单的文本处理 2.数据流重定向 将标准错误重定向到标准输出,再将标准输出重定向到文件,注意要将重定向到文件写到前面 cat Documents/xx.txt hell.sh >somefile 2>&1 或者只用bash提供的特殊的重定向符号"&"将标准错误和标准输出同时重定向到文件 cat ...
分类:
系统相关 时间:
2021-04-23 12:02:43
阅读次数:
0
回顾 CPU 使用率是单位时间内 CPU 使用情况的统计,以百分比的方式展示 案例: 最常用什么指标来描述系统的 CPU 性能? 回答 CPU 使用率,而不是平均负载,CPU 上下文切换 CPU 使用率 前言 前面说过,Linux 作为一个多任务操作系统,将每个 CPU 的时间划分为很短的时间片,在 ...
分类:
其他好文 时间:
2021-04-23 11:55:10
阅读次数:
0
#!/usr/bin/env python # -*- coding:utf-8 -*- # <editable> def execute(): # <editable> ''' 载入模块 ''' from collections import Counter import pandas as pd ...
分类:
编程语言 时间:
2021-04-23 11:49:29
阅读次数:
0
1.什么是注解(Annotation) 从JDK5.0开始引入。 功能主要有两个: 1)对代码做出解释(和注释comment一致); 2)对代码起到检查和约束的作用,和注释不同的地方是在于注解可以被其他程序(如编译器等)读取。 格式:注解是以“@注释名”在代码中存在的,还可以添加一些参数值,比如@S ...
分类:
编程语言 时间:
2021-04-22 15:59:18
阅读次数:
0
一、excel数据分析工具_EXCE弱点 EXCEL一直是非常流行的个人计算机数据处理工具,它可以处理多种多样的数据,操作非常简单,支持丰富的函数、统计图表,在工作中更是非常得力的生产力工具。然而随着时代的不断演进,现如今由于大家对于数据工具的要求越来越高,EXCEL分析能力的不足也逐渐暴露出来,包 ...
分类:
其他好文 时间:
2021-04-22 15:33:58
阅读次数:
0
目标:对学员登录数、学员注册数、课程播放数、每日课程数进行特定日期统计。画出上图。 一、数据库设计 statistics_daily CREATE TABLE `statistics_daily` ( `id` char(19) NOT NULL COMMENT '主键', `date_calcul ...
分类:
其他好文 时间:
2021-04-22 15:21:22
阅读次数:
0