将来只依赖于现在不依赖于过去的过程。时间和状态是离散的马尔可夫过程称作马尔可夫链。
(MT,Machine Translation):在保留意义的情况下,把一种语言的文字转换为另一种语言。机器翻译作为NLP的起源,是NLP一直的研究目标,没有最终解决,只有最新现状(State of art)
(QA,Question Answering System) :用自然语言方式提问,从信息库中检索,提供既准确又切合主题的答案。
(information extraction) 又称事件抽取(event extraction),指从文本中识别并抽取出特定的事件(event)或事实信息,来解决5W(WHO WHEN WHERE WHY WHAT)以及HOW的问题(谁在何时何地由于什么原因(对谁)做了什么(如何做))。例如,从时事新闻报道中抽取出某一恐怖事件的基本信息:时间、地点、事件制造者、受害人、袭击目标、伤亡人数等;从经
(automatic summarizing或automatic abstracting) 将相同主题的若干文档的主要内容和含义自动归纳、提炼出来,形成摘要或缩写。通过自动文摘不同的实现方式将自动文摘分为文档的摘录(extract)或文档的摘要(abstract)。摘录通过提取文档中最重要的部分(找到若干句子或句子片段)来表示文本的大意,可能也会包含少量次要的部分进行文摘;摘要通过理解文本,描述了
(RTE,Recognizing Textual Entailment) 对一段文本中表示的事实进行推理(Text->Hypothesis),如需要知道一个句子中提到的事实是否被文档中前面的某个句子所蕴含。
(sentiment classification) 或称文本倾向性识别(text orientation identification),以自然语言中的个人陈述,如意见(opinion)、感情(emotion)、情感(sentiment)、评价(evaluation)、信念(belief)以及推测(speculation)为主要研究目标,通过主观性(subjectivity)分析和情感(sent
(document categorization/classification),称文本分类(text categorization/classification)或信息分类(information categorization/classification),其目的就是对大量的文档按照一定的分类标准(例如,根据主题或内容划分等)实现自动归类。
(coreference resolution),也称指代消解(anaphora resolution),确定代词或名词短语指的是什么,将指代相同实体的提及归结到一个等价类中。
(mention detection),检测某种提及的边界并有选择的确定其语义类型(如人物或组织机构)及其他属性(如名称、名词或者代词)。