【笔记】Jieba学习笔记
前言
Jieba是Python的第三方软件包,可以实现中文的分词
准备工作
1 | pip3 install jieba |
引包
1 | import jieba |
jieba的三种模式
- 精确模式
试图将橘子精确地分开,适合于文本分析
- 全模式
把句子中所有的可以成词的词语都扫描出来,速度快,但是不能解决歧义问题
- 搜索引擎模式
在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词
cut
精确模式
- 返回一个可迭代的数据类型
1 | jieba.cut(<str>) |
全模式
- 输出文本中所有可能的单词
1 | jieba.cut(<str>, cut_all=True) |
搜索引擎模式
- 适合搜索建立索引的分词结果
1 | jieba.cut_for_search(<str>) |
lcut
精确模式
- 返回一个列表类型
1 | jieba.lcut(<str>) |
全模式
- 返回一个列表类型
1 | jieba.lcut(<str>, cut_all=True) |
搜索引擎模式
- 返回一个列表类型
1 | jieba.lcut_for_search(<str>) |
添加自定义关键词
<s>
:关键词字符串
1 | jieba.add_word(<s>) |
删除自定义关键词
1 | jieba.del_word(<s>) |
添加自定义词典
创建一个词典
- 每行表示一个关键词
- 每行最多有三个参数,每个参数用空格隔开
参数:关键词、词频(可省略)、词性(可省略)
1 | 大数据 |
添加词典中的所有关键词
1 | jieba.load_userdict("dict.txt") |