import org.apache.spark.ml.feature._ import org.apache.spark.ml.param.ParamMap import org.apache.spark.ml.classification.LogisticRegression import org ...
分类:
其他好文 时间:
2018-05-11 23:19:02
阅读次数:
216
离散特征编码分两种,特征具有大小意义,特征不具有大小意义。 1、特征不具备大小意义的直接独热编码 2、特征有大小意义的采用映射编码 [python] view plain copy import pandas as pd df = pd.DataFrame([ ['green', 'M', 10.1 ...
分类:
编程语言 时间:
2018-05-08 23:52:05
阅读次数:
308
首先,切换文件路径到所在文件夹 然后,将txt文件内容按行读取,写入到all.txt #读取为DataFrame格式 ...
分类:
编程语言 时间:
2018-05-07 22:51:54
阅读次数:
334
python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数。 1)查看DataFrame数据及属性 2)使用DataFrame选择数据: 3)使用DataFrame重置数据: 4)使用Dat ...
分类:
其他好文 时间:
2018-05-07 14:48:09
阅读次数:
170
1、hadoop分布式事物的一致性2、hdfs的特征 只能attend,不能update(为什么)3、spark和hive不同使用场景:spark是基于内存的,hive是,,,,,;rdd和sql(为什么有时候复杂的时候用sql,sql更高效,spark程序,rdd是一种数据结构,dataframe ...
分类:
其他好文 时间:
2018-05-06 18:54:38
阅读次数:
187
1)仅换掉index名称 df.index = list 2)调整index时,后面的项目也要跟着调整: df.reindex(list) 注意如果list中出现了df中没有的index,后面的项目会变成nan 举例: df=pd.DataFrame({'a':[1,2,3],'b':[4,5,6] ...
分类:
其他好文 时间:
2018-05-06 17:03:39
阅读次数:
5727
#中文myfont = FontProperties(fname=r'C:\Windows\Fonts\simhei.ttf', size=14)import seaborn as snssns.set(font=myfont.get_name())file = open(".xlsx", "rb" ...
分类:
其他好文 时间:
2018-05-03 11:38:38
阅读次数:
285
更新至2018.5.1 字典生成DataFrame 今天一个字典生成一个DataFrame,采用了以下形式,每一个value都是一个数(不是vector) 结果爆出了如下错误 原来所以,将字典生成DataFrame,您可以用 ,当然也不一定非要这样,所以三种方法是可以成功的: 引自: "统计师的Py ...
分类:
其他好文 时间:
2018-05-01 12:29:54
阅读次数:
185
导入包: 读入初始文本、停用词文件,创建保存初始分词数据的Dataframe 一些参数: 由于文件里文本内容比较多,直接读取、分词、过滤会比较慢,采用多线程按行读取并处理 单行处理函数: 使用多线程读取: 打印最初分词后的数据: 创建词汇-频数库: 创建词性-频数库: 统计几种重要词性的词汇分布: ...
分类:
其他好文 时间:
2018-04-30 15:42:14
阅读次数:
697