(NER, Named Entity Recognition),又称未登录词识别,识别实体的每一次独立出现,一个命名实体代表了一个名词的实例,比如一个地点、一个人物或一个组织机构。(ACE任务包含7个主要类型实体:设施(FAC)、地理政治实体(GPE)、地点(LOC)、组织机构(ORG)、人(PER)、交通工具(VEH)、武器(WEA))。
(semantic parsing),在句子或文本中识别出意义块(meaning chunk),确定语言所表达的真正含义或概念,并尝试将其转换为某种数据结构的过程(将自然文本映射成计算机可处理的结构化表示),包括深层语义分析(deep semantic parsing)与浅层语义分析(shallow semantic parsing),又称语义角色标注(semantic role labeling
(parsing),发现句子内部结构的方法,显式地发现句子中可能存在的各种谓词-论元的依存关系。
(lexical analysis) 是找出词汇的各个词素,从中获得语言学的信息,主要任务是词性标注和词义标注。
(speech analysis) 是要根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出音节及其对应的词素或词。
(word segmentation),指对字符序列进行分块处理的过程,其输出结果由分开的有意义的词元组成,是形态分析的基础性步骤。
(lexical(word)被定义为能够形成完整言语的最小语言单位,词的最小语义部分称为词素(morpheme),词素可用形素(grapheme,字母和字符等书写符号)拼写出或用音素(phoneme, 口语中可区分的语音单位)。
(language model) 通过对句子的上下文特征进行数学建模,来回答一个问题:出现的句子是否合理。语言模型是自然语言的基础,广泛应用于机器翻译、语音识别、拼写纠错、输入法、手写体识别等。
(Corpus,复数为Corpora或Corpuses)定义为:为语言研究和应用而收集的,在计算机中存储的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。语料库具有以下三个基本特征:样本代表性;规模有限性;机读形式化。
(NLP,Natural Language Processing)又称自然语言理解(NLU,Natural language Understanding)即使计算机理解自然语言。美国计算机科学家马纳瑞斯(Bill Manaris)给自然语言处理的定义为:“自然语言处理是研究人与人交际中以及人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competenc