现在自然语言处理用深度学习做的比较多,我还没试过用传统的监督学习方法做分类器,比如SVM、Xgboost、随机森林,来训练模型。因此,用Kaggle上经典的电影评论情感分析题,来学习如何用传统机器学习方法解决分类问题。 通过这个情感分析的题目,我会整理做特征工程、参数调优和模型融合的方法,这一系列会 ...
分类:
其他好文 时间:
2019-05-19 11:49:23
阅读次数:
224
运维主要工作责任是管理服务器,一般有基础运维和应用运维,应用运维面向业务线 cmdb即配置管理系统三大功能 1,代码的自动上线 2,监控系统 3,自动装机系统 agent db 数据清洗分析API 通过requests向API发送 部署在 服务器 上脚本文件 wed界面缺点:每台部署agent 使用 ...
分类:
数据库 时间:
2019-05-14 19:06:31
阅读次数:
363
2:写spark程序统计iis网站请求日志中 每天每个小时段成功访问ip的数量 更灵活的运用spark算子,意味着写更少的代码 2019-05-07 19:06:57 ...
分类:
其他好文 时间:
2019-05-07 19:42:16
阅读次数:
177
Pandas是基于 Numpy 的一个开源的Python 库,它被广泛用于快速分析数据,以及数据清洗和准备等工作。它的名字来源是“Panel data”(面板数据, 一个计量经济学的名词) 两个单词拼成的。简单的说,可以把Pandas 看做是Python 版的 Excel。 1、安装 Pandas ...
分类:
其他好文 时间:
2019-05-03 14:45:52
阅读次数:
190
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。在这里还是要推荐下我自己建的大数据学习交流群:529867072,群里都是学大数据开发的,如果你正在学习大数据,小
分类:
其他好文 时间:
2019-05-01 11:57:36
阅读次数:
141
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。 一、数据采集 ...
分类:
其他好文 时间:
2019-04-23 15:39:37
阅读次数:
163
PowerQuery实现数据清洗实战:转置表的综合应用
分类:
其他好文 时间:
2019-04-18 10:44:57
阅读次数:
311
给定一个字符串,验证它是否是回文串,只考虑字母和数字字符,可以忽略字母的大小写。 代码: 思路,这里涉及到了数据清洗,我只要字母和数字,并且字母必须是小写。使用 string,isalnum()可以滤出字母和数字,使用 string.lower()可以滤出小写字母。然后再转换成 list 反转对比即 ...
分类:
其他好文 时间:
2019-04-08 18:48:14
阅读次数:
163
茄子快传数据分析之原理分析及数据清洗 茄子快传数据分析之原理分析及数据清洗 茄子快传数据分析之原理分析及数据清洗 茄子快传数据分析之原理分析及数据清洗 版权声明:闻道有先后,术业有专攻。 https://blog.csdn.net/wlk_328909605/article/details/8222 ...
分类:
其他好文 时间:
2019-04-05 21:28:17
阅读次数:
261
BIML 101 - BIML 快速入门教程 做大数据的项目,最花时间的就是数据清洗。 没有一个相对可靠的数据,数据分析就是无木之舟,无水之源。 如果你已经进了ETL这个坑,而且预算有限,并且有大量的活要做; 时间紧,任务多,是不是有点菊花一紧的感觉。 多少次,你对着几个月前自己写的代码在挠头, 多 ...
分类:
其他好文 时间:
2019-04-04 09:38:57
阅读次数:
140