1. 用Pyspark自主实现词频统计过程。 >>> s = txt.lower().split()>>> dd = {}>>> for word in s:... if word not in dd:... dd[word] = 1... else:... dd[word] = dic[word] ...
                            
                            
                                分类:
其他好文   时间:
2021-04-23 12:10:50   
                                阅读次数:
0
                             
                    
                        
                            
                            
                                
                    一.简单的文本处理 2.数据流重定向 将标准错误重定向到标准输出,再将标准输出重定向到文件,注意要将重定向到文件写到前面 cat Documents/xx.txt hell.sh >somefile 2>&1 或者只用bash提供的特殊的重定向符号"&"将标准错误和标准输出同时重定向到文件 cat  ...
                            
                            
                                分类:
系统相关   时间:
2021-04-23 12:02:43   
                                阅读次数:
0
                             
                    
                        
                            
                            
                                
                    1、测试1 [root@centos7 test2]# ls a.txt [root@centos7 test2]# if [ -e a.txt ]; then echo "exist";else echo "no nxist"; fi exist [root@centos7 test2]# if  ...
                            
                            
                                分类:
系统相关   时间:
2021-04-23 11:53:02   
                                阅读次数:
0
                             
                    
                        
                            
                            
                                导入数据: #1、导入制表符分隔的数据 cat /data/ZDGL/stateAnalysis/dmt_term_stateAnalysisALL202010.txt | clickhouse-client -u default --password 6lYaUiFi --query="INSER ...
                            
                            
                                分类:
其他好文   时间:
2021-04-22 16:18:59   
                                阅读次数:
0
                             
                    
                        
                            
                            
                                
                    功能描述 对于百度、360等搜索引擎,后台有提交网站地图(sitemap)的需求。以百度为例,规定网站地图的格式为xml或者txt,并且有比较严格的格式要求,django自带sitemap功能,但是使用起来比较麻烦,相关教程也非常少,还不够灵活,这里自定义一个类,实例化之后以比较灵活的方式来生成网站 ...
                            
                            
                                分类:
Web程序   时间:
2021-04-22 15:44:36   
                                阅读次数:
0
                             
                    
                        
                            
                            
                                
                    在要创建文档的文件夹里新建一个文本文档。 打开该文档,把下面的命令复制粘贴进去。 命令: @echo off for /L %%x in (1,1,10) do @echo %%x>%%x.txt 按下ctrl+S键保存该内容后,关闭该文档。 选择该文档,按下f2键进行重命名。把后缀名改为bat。 ...
                            
                            
                                分类:
其他好文   时间:
2021-04-22 15:18:09   
                                阅读次数:
0
                             
                    
                        
                            
                            
                                
                    一.安装 1.下载官网:https://tomcat.apache.org/ 2.将下载后的包解压到目录中会出现以下页面 3.设置环境变量,向path中添加tomcat的bin目录地址 4.cmd进入tomcat的bin目录,输入:service.bat install 4.启动与关闭: ?	启动: ...
                            
                            
                                分类:
其他好文   时间:
2021-04-22 15:15:50   
                                阅读次数:
0
                             
                    
                        
                            
                            
                                解压得到以下压缩包 打开hint.txt、pic.jpg、music.zip发现以下内容 解压music.zip发现要输入密码 因为pic.jpg里面包含盲文,所以pic.jpg里面的盲文应该就是解压密码。根据盲文对照表解出盲文kmdonowg,输入解压成功。 因为前有盲文,所以大胆猜测后面的音频应 ...
                            
                            
                                分类:
其他好文   时间:
2021-04-21 12:12:44   
                                阅读次数:
0
                             
                    
                        
                            
                            
                                
                    #不要加空格 time1=$(date) echo $time1 > /tmp/output.txt ...
                            
                            
                                分类:
系统相关   时间:
2021-04-21 11:49:37   
                                阅读次数:
0
                             
                    
                        
                            
                            
                                
                    一、词频统计: 1.读文本文件生成RDD lines lines = sc.textFile('file:///home/hadoop/word.txt') 2.将一行一行的文本分割成单词 words flatmap() words=lines.flatMap(lambda line:line.sp ...
                            
                            
                                分类:
其他好文   时间:
2021-04-20 15:02:06   
                                阅读次数:
0