登录    |    注册

信息抽取

2020-09-09 14:27:53

(information extraction) 又称事件抽取(event extraction),指从文本中识别并抽取出特定的事件(event)或事实信息,来解决5W(WHO WHEN WHERE WHY WHAT)以及HOW的问题(谁在何时何地由于什么原因(对谁)做了什么(如何做))。例如,从时事新闻报道中抽取出某一恐怖事件的基本信息:时间、地点、事件制造者、受害人、袭击目标、伤亡人数等;从经济新闻中抽取出某些公司发布的产品信息:公司名称、产品名称、开发时间、某些性能指标等。(1)信息抽取与信息检索信息检索主要是从海量文档集合中找到与用户需求(一般通过关键词表达)相关的文档列表,而信息抽取则是希望直接从文本中获得用户感兴趣的事实信息。两者也有密切的关系,信息抽取系统通常以信息检索系统(如文本过滤)的输出作为输入,而信息抽取技术又可以用来提高信息检索系统的性能。(2)信息抽取与问答系统信息抽取与问答系统也有密切的联系。一般而言,信息抽取系统要抽取的信息是明定的、事先规定好的,系统只是将抽取出来的事实信息填充在给定的框架槽里,而问答系统面对的用户问题往往是随机的、不确定的,而且系统需要将问题的答案生成自然语言句子,通过自然、规范的语句准确地表达出来,使系统与用户之间形成一问一答的交互过程。