NLPIR（北理工张华平版中文分词系统）的SDK(C++)调用方法

时间：2019-04-06 19:05:40 阅读：200 评论：0 收藏：0 [点我收藏+]

一、本文内容简介
二、具体内容
- 1. 中文分词的基本概念
- 2.关于NLPIR(北理工张华平版中文分词系统)的基本情况
- 3.具体SDK模块（C++）的组装方式
  - ①准备内容：
  - ②开始组装
三.注意事项

一、本文内容简介

关于中文分词的基本概念
关于NLPIR(北理工张华平版中文分词系统)的基本情况
具体SDK模块(C++版)的组装方法

二、具体内容

1. 中文分词的基本概念

中文分词是自然语言处理的一个分支,自然语言即人们在日常生活中使用的语言，包含书面语，口语，例如报纸上的一篇通讯，博客里面的一篇文章。之所以称其为自然语言，是因为它区别于计算机语言，计算机语言的文法与组织方式较为规范，自然语言则贴近人们生活。自然语言处理作为一项技术，在搜索引擎，机器语义理解和对话系统中有着基础和决定性的作用和价值，这方面比较知名的例如微软的cortana(微软小娜)，以及国内各个互联网公司发布的智能音箱等。

2.关于NLPIR(北理工张华平版中文分词系统)的基本情况

北理工张华平版中文分词系统（NLPIR），又名中科院分词系统，是国内高校院所中开源力度相当大的一家（下文将简称北理工分词系统），另一家是哈工大中文分词系统(LTP)。北理工分词系统功能丰富，目前已经包含了以下功能：

全文检索
新词发现
分词标注
统计分析与术语翻译大数据聚类与热点分析
大数据文本过滤
自动摘要
关键词提取
文档去重
HTML正文提取
编码自动识别与转换

NLPIR提供的组件包中含有13种SDK组件包:

Classify规则组件
Cluster聚类组件
DeepClassifier训练分类组件
DocExtractor实体抽取组件
HTMLPaser网站正文提取组件
NLPIR-ICTCLAS分词组件
JZsearch精准搜索组件
JZSearch精准搜索客户端组件
KeyExtract关键词提取组件
RedupRemover文档去重组件
Sentiment情感组件
SentimentAnalysis情感分析组件
Summary摘要组件

每个组件包内容介绍

doc:使用说明文档和API文档
include：头文件
lib：linux32,linux64,win32,win64等不同版本的库
projects：开发工程包
sample：C#,C++,java等不同语言的案例
Data：数据库

3.具体SDK模块（C++）的组装方式

注：以下组装方式以实体抽取模块（DocExtractor）为例，平台为VS2012

①准备内容：

前往Github下载源码，源码的数据量在740MB左右，因为DNS被禁的原因，一般网络的下载速度比较慢，几十kb的样子。博主的解决方法是使用国内的代码托管平台，例如博主使用的是码云( https://gitee.com）,可以与Github关联同一个账户，将Github中的项目fork到码云中再进行下载，速度可以上每秒0.5MB。解压之后，如下图所示

整个github项目解压后的内瓤

实体抽取组件的路径为：NLPIR\NLPIR SDK\DocExtractor，其中包含的文件如下图

SDK中所含内容

②开始组装

1.点击新建—>项目—>其他语言—>Visual C++ —>空项目，名称为：DocExtractorCppTest，解决方案名称为：NLPIR-DE；如下图所示

新建空项目

2.将路径(NLPIR\NLPIR SDK\DocExtractor\projects\DocExtractor_c++)中的main.cpp文件拷贝到项目目录下（我的路径为NLPIR-DE\DocExtractorCppTest\）。

3.把路径(NLPIR\NLPIR SDK\DocExtractor\lib\win32)下的DocExtractor.dll以及DocExtractor.lib两个文件拷贝到项目目录下（我的路径为NLPIR-DE\DocExtractorCppTest\）。
4.将(NLPIR\License\license for a month\DocExtractor文档提取授权)下面的DocExtractor.user拷贝到路径NLPIR\NLPIR SDK\DocExtractor\Data下
5.将DATA文件夹拷贝到新建的解决方案目录下
6.将路径NLPIR\NLPIR SDK\DocExtractor\include下的文件DocExtractor.h拷贝到项目目录下，我的路径为NLPIR-DE\DocExtractorCppTest
7.经过以上操作，新建项目文件如下图