全文检索(Lucene&Solr) 1)什么是全文检索?为什么需要全文检索? 结构化数据(mysql等)方便查询,而非结构化数据(如多篇文章)是难以查询到自己需要的,所以要使用全文检索。 全文检索:将非结构化数据的内容提取一部分,然后重新组织,使其有一定结构,然后就能以此快速的查找需要的信息,提取整 ...
分类:
Web程序 时间:
2018-10-18 10:54:34
阅读次数:
200
案例:使用正则表达式的爬虫 现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了。 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/article/list_5_1.html 打开之后,不难看到里面一个一个灰常有内涵的段子,当你进行 ...
分类:
其他好文 时间:
2018-10-13 11:40:12
阅读次数:
267
页面解析和数据提取 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化的数据 和 结构化的数据。 非结构化数据:先有数据,再有结构, 结构化数据:先有结构、再有数据 不同类型的数据,我们需要采用不同的方式来处理。 非结构化的数据处理 正则表达式 ...
分类:
其他好文 时间:
2018-10-13 11:39:51
阅读次数:
155
什么是XML XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标签需要我们自行定义。 XML 被设计为具有自我描述性。 XML 是 W3C 的推荐标准 W3School官 ...
分类:
其他好文 时间:
2018-10-13 11:35:05
阅读次数:
163
#MINIO SERVER Minio是在Apache License v2.0下发布的对象存储服务器。它与Amazon S3云存储服务兼容。 它最适合存储非结构化数据,如照片,视频,日志文件,备份和容器/ VM映像。对象的大小可以从几KB到最大5TB。 Minio服务器足够轻,可以与应用程序堆栈捆 ...
分类:
其他好文 时间:
2018-10-01 01:07:55
阅读次数:
1647
概念: 数据分两种: 1、结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。 2、非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等。(半结构化数据:如XML,HTML等,当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理) 非结构化数据又一种叫法叫全文 ...
分类:
Web程序 时间:
2018-09-11 13:56:24
阅读次数:
187
如果我们回顾5年前会发现,那就是当时Hadoop不是大多数公司的选择,特别是那些要求稳定和成熟的平台的企业。 在这一刻,选择非常简单:当您的分析数据库的大小超过5 7 TB时,您只需启动MPP迁移项目,并转移到经过验证的企业MPP解决方案之一。 没有人听说过“非结构化”数据 如果你要分析日志,只需用 ...
分类:
其他好文 时间:
2018-09-07 18:02:27
阅读次数:
164
如今,随着业务“互联网化”和“智能化”的发展以及架构“微服务”和“云化”的发展,应用系统对数据的存储管理提出了新的标准和要求,数据的多样性成为了数据库平台面临的一大挑战,数据库领域也催生了一种新的主流方向。数据库多模Multi-Model是指同一个数据库支持多个存储引擎,可以同时满足应用程序对于结构化、半结构化、非结构化数据的统一管理需求。1.数据库云化需求催生Multi-Model多模企业使用云
分类:
数据库 时间:
2018-08-30 11:43:34
阅读次数:
250
结 结构化数据 结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。举一个例子: 1 2 3 4 所以,结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助。但是,显然,它的扩展性不好( ...
分类:
其他好文 时间:
2018-08-21 15:08:11
阅读次数:
124
1.简介 HBase从诞生至今将近10年,在apache基金会的孵化下,已经变成一个非常成熟的项目,也有许多不同的公司支持着许多不同的分支版本,如cloudra等等。 HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。 ha ...
分类:
数据库 时间:
2018-08-18 17:53:42
阅读次数:
173