本文介绍文本挖掘与文本分类的一些基本概念和流程,为后续学习分类算法做好铺垫。 一. 文本挖掘的概念 文本挖掘(Text Mining)是从非结构化文本信息中获取用户感兴趣或者有用的模式 的过程。其中被普遍认可的文本挖掘定义如下:文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过 ...
分类:
其他好文 时间:
2017-04-24 10:10:06
阅读次数:
193
题目: Error Curves Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Total Submission(s): 1151 Accepted Submission(s): 440 ...
分类:
其他好文 时间:
2017-04-16 20:23:37
阅读次数:
159
基于协同过滤的推荐引擎(理论部分)时隔十日,终于决心把它写出来。大多数实验都是3.29日做的,结合3.29日写的日记完成了这篇实战。数据集准备数据集使用上篇提到的Movielens电影评分数据里的ml...
分类:
其他好文 时间:
2017-04-16 11:29:00
阅读次数:
238
一、DataFrames 类似于关系型数据库的一张表,如果没有列名就等于RDD,如果有列名,就类似DataFrames DataFrames可以从各种各样的源构建,例如:结构化数据文件(JSON文件,xml文件),Hive中的表,外部数据库或现有RDD。 2、RDD与DataFrames的对比 ...
分类:
数据库 时间:
2017-04-06 21:02:39
阅读次数:
175
收集数据数据来源:http://archive.ics.uci.edu/ml/datasets/Haberman%27s+Survival
文本数据如下图所示:31,65,4,1
33,58,10,...
分类:
编程语言 时间:
2017-04-05 11:02:08
阅读次数:
424
1.引入库 首先引入keras: 接下来根据程序需要引入datasets,models,layers等,例如keras github里的cifar-10例程中写到: 2.构造数据 第一步,我们需要根据模型训练时需要的数据格式来构造数据的shape,有三种方法: (1)载入他人提供的已经制作好的数据集 ...
分类:
其他好文 时间:
2017-04-04 22:09:46
阅读次数:
1496
官方提供了2种方法 1.利用反射来推断包含特定类型对象的RDD的schema。这种方法会简化代码并且在你已经知道schema的时候非常适用。 先创建一个bean类 case class Person(name: String, age: Int) 然后将Rdd转换成DataFrame val peo ...
分类:
其他好文 时间:
2017-03-31 10:10:53
阅读次数:
224
Spark SQL支持两种RDDs转换为DataFrames的方式 使用反射获取RDD内的Schema 当已知类的Schema的时候,使用这种基于反射的方法会让代码更加简洁而且效果也很好。 通过编程接口指定Schema 通过Spark SQL的接口创建RDD的Schema,这种方式会让代码比较冗长。 ...
分类:
数据库 时间:
2017-03-25 00:46:06
阅读次数:
341
Slim Span Time Limit: 5000MS Memory Limit: 65536K Total Submissions: 7933 Accepted: 4227 Description Given an undirected weighted graph G, you should ...
分类:
其他好文 时间:
2017-03-03 21:15:54
阅读次数:
329
笔者最近开始对机器学习非常感兴趣,作为一个有志向的软设方向的女孩纸,我开始了学习的第一步入门,下面将今天刚刚学习的kNN及其应用进行总结和回顾,希望可以得到更好的提升,当然,有志同道合者,你可以联系我给我留言,毕竟菜鸟一起飞才能飞的更高更远。😳 首先,kNN算法也叫k-近邻算法,它的工作原理是:存 ...
分类:
其他好文 时间:
2017-02-18 21:17:31
阅读次数:
231