【笔记】Go语言实现中文分词

前言

Go语言通过gojieba实现中文分词

下载依赖

1
go get github.com/yanyiwu/gojieba

引入模块

1
import "github.com/yanyiwu/gojieba"

创建对象

1
var jieba = gojieba.NewJieba()

分词

全模式

<str>:需要被分词的字符串

1
var words []string = jieba.CutAll("<str>")
分词前:
清华大学

分词后:
清华
大学
清华大学

精确模式

1
var words []string = jieba.Cut("<str>")
分词前:
清华大学

分词后:
清华大学

分词前先添加词典

<word>:添加到词典的自定义的词

1
2
jieba.AddWord("<word>")
var words []string = jieba.Cut("<str>", true)
为添加词典的词添加权重

<num>:权重数值

1
2
jieba.AddWordEx("<word>", <num>, "")
var words []string = jieba.Cut("<str>", true)

搜索引擎模式

1
var words []string = jieba.CutForSearch("<str>")
分词前:
清华大学

分词后:
清华
大学
清华大学

分词后添加词性标注

1
var words []string = jieba.Tag("<str>")

完成

参考文献

哔哩哔哩——地鼠文档
yanyiwu/gojieba