登录    |    注册

自然语言处理NLP中NLTK模块

2020-11-21 11:01:14

什么是NLTK

NLTK,全称Natural Language Toolkit,自然语言处理工具包,是NLP研究领域常用的一个Python库,由宾夕法尼亚大学的Steven Bird和Edward Loper在Python的基础上开发的一个模块,至今已有超过十万行的代码。这是一个开源项目,包含数据集、Python模块、教程等;

常见模块及用途


NLTK设计目标

  • 简易性;
  • 一致性;
  • 可扩展性;
  • 模块化;

NLTK中的语料库

  • 古腾堡语料库:gutenberg;
  • 网络聊天语料库:webtext、nps_chat;
  • 布朗语料库:brown;
  • 路透社语料库:reuters;
  • 就职演说语料库:inaugural;
  • 其他语料库;

文本语料库结构

  • isolated: 独立型;
  • categorized:分类型;
  • overlapping:重叠型;
  • temporal:暂时型;

总结

以上就是自然语言处理NLP中NLTK模块的相关知识介绍了,希望通过本文能解决你对NLTK的相关疑惑。