结巴分词的Python与R语言基础用法是怎样的

61次阅读
没有评论

共计 3074 个字符,预计需要花费 8 分钟才能阅读完成。

本篇文章给大家分享的是有关结巴分词的 Python 与 R 语言基础用法是怎样的,丸趣 TV 小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着丸趣 TV 小编一起来看看吧。

人们说话不是一个词一个词崩出来的,文章也就由句子组成。要想让机器识别美文,体会中华名族汉语的博大精深,不是不可能。但是,首先需要将其转化成其可以识别的模式——词语。分词是自然语言处理 (NLP) 中最底层、最基本的模块,分词精度的好坏将直接影响文本分析的结果。

这里介绍著名的分词方法:结巴分词以及基本分词方法在 Python 和 R 语言中的用法。

Python 中的结巴分词

 Python 中文分词的三种常用模式

精确模式:

全模式

搜索引擎模式

三种模式默认都采用隐马尔科夫模型分词;同时,结巴分词支持繁体分词和自定义字典方法。

导入模块:import jieba
(1)、精确模式:
test = 十堰有道家发源地武当山
cut1 = jieba.cut(test)
type(cut1)
class generator
print(精确分词结果:, .join(cut1))

Cut1 不能直接查看,‘‘.join(cut1)函数指用空格分开 cut1 里面的元素,然后通过 print()函数才能查看。

精确分词结果:十堰 有 道家 发源地 武当山

(2)、全模式:
cut2 = jieba.cut(test,cut_all = True)
print(全模式分词结果:, .join(cut2))
全模式分词结果:十堰 有 道家 发源 发源地 源地 武当 武当山

把所有可能的词都考虑进来了。“精确模式”其实有默认参数 cut_all = False。显然,全模式不管分词后意思会不会有歧义,只管快速分出所有可能的词,不适合做文本分析。

(3)、搜索引擎模式:
cut3 = jieba.cut_for_search(test)
print(搜索引擎模式分词结果:, .join(cut3))
搜索引擎模式分词结果:十堰 有 道家 发源 源地 发源地 武当 武当山

搜索引擎模式也会给出所有可能的分词结果,但是搜索引擎模式对于词典中不存在的词,比如一些很少见、新词,却能给出正确的分词结果。

添加自定义词典
Path =‘词典路径’
jieba.load_userdict (path3)
然后分词即可。

提取关键词

对于一篇文章,提取关键词,比如指定提取 5 个关键词:

jieba.analyse.extract_tags(dat,topK = 5)

注意:亲测,词典一般是.txt,默认是 ASCII 格式,应该另存为 utf8 模式,为什么?——有中文。其实,帮助文档里面有的。

更多用法:help(jieba)获得更多详细介绍。

R 语言结巴分词

结巴 中文分词的 R 语言版本,支持最大概率法,隐式马尔科夫模型,索引模型,混合模型,共四种分词模式,同时有词性标注,关键词提取,文本 Simhash 相似度比较等功能。

包的下载与安装:
install.packages(jiebaRD)

install.packages(jiebaR)

library(jiebaRD)
library(jiebaR)

分词
test – 革命尚未成功,同志仍需努力!
首先需要建立分词引擎
seg -worker()
这里“=”表示分词运算符
seg =test
 [1] 革命 尚未 成功 同志 仍 需 努力
与下面这句效果一样
segment(test,seg)
 [1] 革命 尚未 成功 同志 仍 需 努力
也就是有两种写法:
(1)、seg =test
(2)、segment(test,seg)
后面的类似都有两种写法。

词性标注:

可以使 tag 来进行分词和词性标注, 词性标注使用混合模型分词,标注采用和 ictclas 兼容的标记法。
seg -woker(tag)
test – 革命尚未成功,同志仍需努力!

segment(test,seg)
  vn  d  a  n  zg  v  ad
革命 尚未 成功 同志   仍   需 努力
这里 seg = test 也是一样的,后面一样有这样写法,只写一种,不再强调指出。

关键词提取:

关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径, 使用方法与分词类似。topn 参数为关键词的个数,这里只提取一个关键词:
seg2 -worker(keywords ,topn = 1)
keywords(test,seg2)
6.13553
  同志

Simhash 与海明距离:

对中文文档计算出对应的 simhash 值。simhash 是谷歌用来进行文本去重的算法,现在广泛应用在文本处理中。Simhash 引擎先进行分词和关键词提取,后计算 Simhash 值和海明距离。
test – 革命尚未成功,同志仍需努力!
seg3 -worker(simhash ,topn = 2)
simhash(test,seg3)
 $simhash
 [1] 13489182016966018967
 $keyword
 6.13553 6.0229
  同志 努力

列表分词:
支持一次性对多个列表(每个元素为文本)进行分词。
test2 – 十堰有道家发源地武当山
apply_list(list(test,test2), seg)
[[1]]
  vn  d  a  n  zg  v  ad
革命 尚未 成功 同志   仍   需 努力
[[2]]
  ns  v  n  n  ns
  十堰   有   道家 发源地 武当山

去除停止词

seg – worker(stop_word = STOPPATH)

还有一些其它设置,比如:
show_dictpath():显示默认的词典路径,有 jieba.dict.utf8(最大概率法)、hmm_model.utf8(隐式马尔科夫模型),这两个都是作为分词需要用到的词典;idf.utf8(TF-IDF 算法)、stop_words.utf8(停用词词典),这两个词典是做关键词抽取之用。
edit_dict(name = user):默认编辑用户自定义词典,还有 system(可以打开编辑 jieba.dict.utf8),stop_word(停用词典)两个参数值供选择。

还有一些其它参数,具体参见 help(jiebaR),获取更多详细信息,学习利用帮助信息对于 R 语言的学习很重要。

其实,具体分词引擎 worker()怎么设置,我们可以帮助一下:help( worker)就会有:

worker(type = mix , dict = DICTPATH, hmm = HMMPATH, user = USERPATH,idf = IDFPATH, stop_word = STOPPATH, write = T, qmax = 20, topn = 5,encoding = UTF-8 , detect = T, symbol = F, lines = 1e+05,output = NULL, bylines = F, user_weight = max)

这里的一些参数:

type, 引擎类型
dict, 系统词典
hmm, HMM 模型路径
user, 用户词典
idf, IDF 词典
stop_word, 关键词用停止词库
write, 是否将文件分词结果写入文件,默认 FALSE
qmax, 最大成词的字符数,默认 20 个字符
topn, 关键词数, 默认 5 个
encoding, 输入文件的编码,默认 UTF-8
detect, 是否编码检查,默认 TRUE
symbol, 是否保留符号,默认 FALSE
lines, 每次读取文件的最大行数,用于控制读取文件的长度。大文件则会分次读取。
output, 输出路径
bylines, 按行输出
user_weight, 用户权重

以上就是结巴分词的 Python 与 R 语言基础用法是怎样的,丸趣 TV 小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注丸趣 TV 行业资讯频道。

正文完
 
丸趣
版权声明:本站原创文章,由 丸趣 2023-08-25发表,共计3074字。
转载说明:除特殊说明外本站除技术相关以外文章皆由网络搜集发布,转载请注明出处。
评论(没有评论)