【笔记】Jieba学习笔记

发表于 2021-12-10 更新于 2026-05-14 分类于 Python学习指北阅读次数：

前言

“结巴”中文分词：做最好的 Python 中文分词组件（Github）

准备工作

1	pip3 install jieba

引包

1	import jieba

jieba的三种模式

精确模式

试图将橘子精确地分开，适合于文本分析

全模式

把句子中所有的可以成词的词语都扫描出来，速度快，但是不能解决歧义问题

搜索引擎模式

在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词

cut

精确模式

返回一个可迭代的数据类型

1	jieba.cut(<str>)

全模式

输出文本中所有可能的单词

1	jieba.cut(<str>, cut_all=True)

搜索引擎模式

适合搜索建立索引的分词结果

1	jieba.cut_for_search(<str>)

lcut

精确模式

返回一个列表类型

1	jieba.lcut(<str>)

全模式

返回一个列表类型

1	jieba.lcut(<str>, cut_all=True)

搜索引擎模式

返回一个列表类型

1	jieba.lcut_for_search(<str>)

添加自定义关键词

<s>：关键词字符串

1	jieba.add_word(<s>)

删除自定义关键词

1	jieba.del_word(<s>)

添加自定义词典

创建一个词典

每行表示一个关键词
每行最多有三个参数，每个参数用空格隔开

参数：关键词、词频（可省略）、词性（可省略）

dict.txt

1
2
3

大数据
云计算 1
Python 2 eng

添加词典中的所有关键词

1	jieba.load_userdict("dict.txt")

前言

准备工作

引包

jieba的三种模式

cut

精确模式

全模式

搜索引擎模式

lcut

精确模式

全模式

搜索引擎模式

添加自定义关键词

删除自定义关键词

添加自定义词典

创建一个词典

添加词典中的所有关键词

完成