后端开发
网络新概念,云计算、大数据、O2O、电商。。。。
网络新概念,云计算、大数据、O2O、电商。。。。
2017-10-16 09:50:46
一、参考资料:
1、https://github.com/jonnywang/phpjieba
2、https://github.com/fxsjy/jieba
二、结巴分词特点:
1、支持三种分词模式:
a、精确模式,试图将句子最精确地切开,适合文本分析;
b、全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
c、搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
2、支持繁体分词
3、支持自定义词典
三、安装步骤:
使用centos+ngnix+mysql+php环境,使用PuTTY远程服务器,登陆后安装步骤如下(参考资料1内容):
git clone https://github.com/jonnywang/phpjieba.git cd phpjieba/cjieba make cd .. phpize ./configure --with-php-config=/www/server/php/71/bin/php-config (这里填写自己php-config路径) make make install
在对应php.ini中增加类似如下配置信息
[jieba] extension=/www/server/php/71/lib/php/extensions/no-debug-non-zts-20160303/jieba.so jieba.enable=1 jieba.dict_path=/usr/local/download/jieba71/phpjieba/cjieba/dict
其中/www/server/php/71/lib/php/extensions/no-debug-non-zts-20160303/jieba.so是编辑后产生的文件, /usr/local/download/jieba71/phpjieba/cjieba/dict是下载解压缩的文件目录文件,确保文件路径正确
最后重启一下服务器;
四、使用的php代码示例和分词api测试
中文分词api:http://api.zzv.cn/jieba.php?word=微奇奇软件分词&type=0
api服务器端处理jieba.php代码:
$word=$_REQUEST['word']; $cutType=$_REQUEST['type']; if($cutType<>'0'&&$cutType<>'1'&&$cutType<>'2') $cutType='0'; $result = jieba($word,$cutType); //var_dump($result); $code=json_encode($result); echo $code;
在线测试中文分词demo:http://api.zzv.cn/jiebademo.php
五、自定义字典:
直接编辑下载的自定义词库文件/usr/local/download/jieba71/phpjieba/cjieba/dict/user.dict.utf8即可