NLTK/spaCy 自然语言处理NLP程序包使用总结( 二 )


NLTK/spaCy 自然语言处理NLP程序包使用总结

文章插图
以上分别计算了路径相似度、Wu-Palmer相似度和LCH相似度 。可以看出 , 两个词集所属的共同最深上位词集越深 , 它们的共同含义越具体 , Wup-Palmer相似度越大 。另外 , 经过测试 , 发现动词集与名词集分别属于不同的树 , 因此它们之间无法计算相似性 。
形容词簇对于形容词 , WordNet将它们的词义分为中心 (Head, a) 同义词集与卫星 (Satellite, s) 同义词集 。一个中心通常围绕一个或多个卫星同义词集 , 从而形成一个簇 。而中心同义词集则表示这个整个簇的基本概念 。可以通过similar_tos()获取一个中心同义词集的所有卫星 。
a = wordnet.synset("glorious.a.01")a.similar_tos()
NLTK/spaCy 自然语言处理NLP程序包使用总结

文章插图
结构图如下:
NLTK/spaCy 自然语言处理NLP程序包使用总结

文章插图
句子词性标注NLTK用了一些当前推荐的方法来对词性进行标注 , 内部应该是用了一些人为定义的规则加上神经网络 。
s = "A man struck my video camera with a hammer."text = nltk.word_tokenize(s) # 将句子划分为词列表 , 英语很简单类似于.split(' ') , 但其他语言如中文就不一定了tag1 = nltk.pos_tag(text)tag2 = nltk.pos_tag(text, tagset='universal')print("Tag1: ", tag1, end='\n\n')print("Tag2: ", tag2)
NLTK/spaCy 自然语言处理NLP程序包使用总结

文章插图
加上universal参数是直接分析单个词的基本词性 , 不加则默认进行更细粒度的Penn Treebank POS Tags划分 。
SpaCySpaCy提供了分词(Tokenization)、词性标注(Part-Of-Speech Tagging)、依赖关系分析(Dependency Parsing)、命名实体识别(Named Entity Recognization)、停用词识别(Stop Words)、名词短语提取(Noun Chunks)等方法 , 以及展示句子依赖关系的可视化工具 。
获取神经网络模型SpaCy的NLP方法主要通过神经网络实现 , 因此在使用前需要下载安装相应的神经网络模型 。SpaCy内部并没有提供模型的下载接口 , 需要我们通过python调用命令下载安装 。各类语言模型的介绍可以通过以下网址查看:
https://github.com/explosion/spacy-models/releases
在SpaCy安装好后(pip直接安装) , 通过如下命令安装所需的神经网络模型:
python -m spacy download en_core_web_lg其中en_core_web_lg为模型的名称:en表示英语 , 如zh表示中文;web表示该模型利用网页数据进行预训练 , 另外还有news等;lg表示下载大模型 , 如sm为小模型 , trf则为基于transformer的模型 。
基本功能下载好语言模型后导入 。然后将需要进行处理的文本输入模型中:
import spacymodel = spacy.load("zh_core_web_lg")text = '无法改变想法的人 , 什么事情也改变不了 。——萧伯纳'output = model(text)分词、词性标注、依赖关系分析、命名实体识别、停用词识别:
print('分词:    ', end='\t')for i in output:  print(i.text, end='\t')print('\n粗粒度词性:  ', end='\t')for i in output:  print(i.pos_, end='\t')print('\n细粒度词性:  ', end='\t')for i in output:  print(i.tag_, end='\t')print('\n依赖关系:', end='\t')for i in output:  print(i.dep_, end='\t')print('\n命名实体识别:', end='\t')for i in output:  print(i.ent_type_, end='\t')print('\n停用词识别:', end='\t')for i in output:  print(i.is_stop, end='\t')

经验总结扩展阅读