词法分析是自然语言处理的基础与关键。张华平博士在多年研究工作积累的基础上,研制出了NLPIR 分词系统,主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。NLPIR系统支持多种编码(GBK 编码、UTF8 编码、BIG5 编码)、多种操作系统(Windows,Linux, FreeBSD 等所有主流操作系统)、多种开发语言与平台(包括:C/C++/C#,Java,Python,Hadoop 等),中科院汉语分词系统主页。
为了方便大家下载,我把NLPIR2014放在了百度云盘里,云盘链接:http://pan.baidu.com/s/1sjEaxRn 密码:cuop
下载到的文件如图所示,bin文件夹里有NLPIR演示程序,Data文件夹中,含有分词需要用到的字典;doc里面是使用帮助(介绍了基本需要使用到的函数接口);include里是要包含的头文件,lib自然是我们主要用到的;sample是示例代码;test里面有一个exe示例。
我们需要自己在VS新建解决方案----新建项目,然后将需要的文件复制到项目里,将data和include文件夹直接复制到项目里,将lib文件夹里的NLPIR.lib直接复制到项目文件里,lib文件夹中的 NLPIR.dll和exe文件在一起,放在解决方案debug文件夹里,如图:
举个简单的例子:
#include"NLPIR.h"
#include<stdio.h>
#include<string.h>
#include<stdlib.h>
//Sample1: Sentence or paragraph lexical analysis with only one result
int main()
{
char sSentence[2000];
const char*sResult;
if(!NLPIR_Init())
{
printf("fails");
return -1;
}
scanf("%s",sSentence);
while(strcmp(sSentence,"#")!=0)
{
sResult = NLPIR_ParagraphProcess(sSentence,0);
printf("%s\n",sResult);
scanf("%s",sSentence);
}
NLPIR_Exit();
system("pause");
return 0;
}
|