AutoML 即通过自动化的机器学习实现人工智能模型的快速构建,它可以简化机器学习流程,方便更多人利用人工智能技术。近日,软件行业巨头 Salesforce 开源了其 AutoML 库 TransmogrifAI。Salesforce Einstein 数据科学高级总监 Shubha Nabar 在 ...
分类:
其他好文 时间:
2018-10-15 12:02:46
阅读次数:
103
案例:使用正则表达式的爬虫 现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了。 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/article/list_5_1.html 打开之后,不难看到里面一个一个灰常有内涵的段子,当你进行 ...
分类:
其他好文 时间:
2018-10-13 11:40:12
阅读次数:
267
页面解析和数据提取 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化的数据 和 结构化的数据。 非结构化数据:先有数据,再有结构, 结构化数据:先有结构、再有数据 不同类型的数据,我们需要采用不同的方式来处理。 非结构化的数据处理 正则表达式 ...
分类:
其他好文 时间:
2018-10-13 11:39:51
阅读次数:
155
什么是XML XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标签需要我们自行定义。 XML 被设计为具有自我描述性。 XML 是 W3C 的推荐标准 W3School官 ...
分类:
其他好文 时间:
2018-10-13 11:35:05
阅读次数:
163
date: 2018-10-12 18:59:13 版权归属原作者,本位转自:https://www.cnblogs.com/autyinjing/p/6495103.html 1. 是什么? Google Protocol Buffer(简称 Protobuf)是一种轻便高效的结构化数据存储格式, ...
分类:
其他好文 时间:
2018-10-12 21:14:16
阅读次数:
166
tf.matmul(a,b,transpose_a=False,transpose_b=False, adjoint_a=False, adjoint_b=False, a_is_sparse=False, b_is_sparse=False, name=None) 参数: 在做结构化数据的时候,必 ...
分类:
其他好文 时间:
2018-10-06 23:42:18
阅读次数:
472
1 回顾: 2 hive 3 -------------------------------- 4 数据仓库OLAP 在线分析处理,延迟较高 5 数据库:OLTP 在线事务处理,事务支持 6 7 运行在hadoop 类sql运行,sql,hql,mr运算 8 结构化数据 9 schema(模式,元信... ...
分类:
其他好文 时间:
2018-10-04 10:15:41
阅读次数:
169
Protobuf 语言指南(proto3) Protocol Buffer是Google的语言中立的,平台中立的,可扩展机制的,用于序列化结构化数据 - 对比XML,但更小,更快,更简单。您可以定义数据的结构化,然后可以使用特殊生成的源代码轻松地在各种数据流中使用各种语言编写和读取结构化数据。 定义 ...
分类:
编程语言 时间:
2018-10-04 09:59:44
阅读次数:
1563
#MINIO SERVER Minio是在Apache License v2.0下发布的对象存储服务器。它与Amazon S3云存储服务兼容。 它最适合存储非结构化数据,如照片,视频,日志文件,备份和容器/ VM映像。对象的大小可以从几KB到最大5TB。 Minio服务器足够轻,可以与应用程序堆栈捆 ...
分类:
其他好文 时间:
2018-10-01 01:07:55
阅读次数:
1647
原文链接:https://juejin.im/post/59c3f8f75188255be81f91d9#heading-17 Apache Hive-2.3.0 快速搭建与使用 Hive 简介 Hive 是一个基于 hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据。它把海量数据存储于 ...
分类:
数据库 时间:
2018-09-30 00:23:51
阅读次数:
334