【笔记】Jieba学习笔记

前言

Jieba是Python的第三方软件包,可以实现中文的分词

准备工作

1
pip3 install jieba

引包

1
import jieba

jieba的三种模式

  • 精确模式

试图将橘子精确地分开,适合于文本分析

  • 全模式

把句子中所有的可以成词的词语都扫描出来,速度快,但是不能解决歧义问题

  • 搜索引擎模式

在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词

cut

精确模式

  • 返回一个可迭代的数据类型
1
jieba.cut(<str>)

全模式

  • 输出文本中所有可能的单词
1
jieba.cut(<str>, cut_all=True)

搜索引擎模式

  • 适合搜索建立索引的分词结果
1
jieba.cut_for_search(<str>)

lcut

精确模式

  • 返回一个列表类型
1
jieba.lcut(<str>)

全模式

  • 返回一个列表类型
1
jieba.lcut(<str>, cut_all=True)

搜索引擎模式

  • 返回一个列表类型
1
jieba.lcut_for_search(<str>)

添加自定义关键词

<s>:关键词字符串

1
jieba.add_word(<s>)

删除自定义关键词

1
jieba.del_word(<s>)

添加自定义词典

创建一个词典

  • 每行表示一个关键词
  • 每行最多有三个参数,每个参数用空格隔开

参数:关键词、词频(可省略)、词性(可省略)

dict.txt
1
2
3
大数据
云计算 1
Python 2 eng

添加词典中的所有关键词

1
jieba.load_userdict("dict.txt")

完成