关系抽取综述

点击量:222

什么是关系抽取?

信息抽取旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息。关系抽取是其中的重要子任务之一,主要目的是从文本中识别实体并抽取实体之间的语义关系。比如:

International Business Machines Corporation (IBM or the company) was incorporated in the State of New York on June 16, 1911.

我们可以从上面这段文本中抽取出如下三元组(triples)关系:

  • Founding-year (IBM, 1911)
  • Founding-location (IBM, New York)

为什么要进行关系抽取?

  • 创建新的结构化知识库(knowledge base)并且增强现有知识库
  • 构建垂直领域知识图谱:医疗,化工,农业,教育等
  • 支持上层应用:问答,搜索,推理等。比如,对于这样一个提问:

    The granddaughter of which actor starred in the movie “E.T.”?

    可以用如下的关系推理表示:
    (acted-in ?x "E.T.") && (is-a ?y actor) && (granddaughter-of ?x ?y)

如何做关系抽取?

目前有以下几种方案:

  • 基于规则的模式匹配(Using Hand-built Patterns)

    比如,对于IS-A这样的关系,我们可以使用如下的规则进行抽取:

    “Y such as X ((, X)* (, and|or) X)”!
    “such Y as X”!
    “X or other Y”!
    “X and other Y”!
    “Y including X”!
    “Y, especially X”!

    除了这种基于简单句法结构的规则,我们还可以借助实体识别(Named Entity tags)来帮助我们进行关系抽取:

    located-­‐in (ORGANIZATION, LOCATION)
    founded (PERSON, ORGANIZATION)
    cures (DRUG, DISEASE)

    以上这种方法看上去很不错,但实则问题很多,比如在实体PERSONORGANIZATION之间可能存在这些关系:Founder-of, Investor-of, Member-of等,因此仅仅通过两个实体就去确定一个关系是不够的。我们可以再加入一些规则进行限定,比如,要表示实体PERSONORGANIZATION之间的POSITION(职务)关系,我们可以定义如下的一些规则:

    PERSON, POSITION of ORG
    • George Marshall, Secretary of State of the United States
    PERSON(named|appointed|chose|etc.) PERSON Prep? POSITION
    • Truman appointed Marshall Secretary of State
    PERSON [be]? (named|appointed|etc.)
    Prep? ORG POSITION
    • George Marshall was named US Secretary of State

  • 基于监督学习的方法(Supervised Method)

    我们可以把关系抽取当成一个多分类问题,每一种关系都是一个类别,通过对标签数据的学习训练出一个分类器(classifier)即可。主要难点有两个:

    • 特征构建
      传统的基于机器学习的方法会使用一些NLP技术构建组合特征,比如词性标注,依存分析等。

    • 标签数据的获取
      监督学习的效果直接取决于训练数据集的大小和质量,但是获得大量的标注数据的代价是非常昂贵的。那么如何解决这个问题呢?我们可以通过远程监督学习(distant supervision)的方法,从已有信息里得到大量的标签数据。

  • 半监督和无监督学习方法(Semi-supervised && unsupervised)

    基于种子的启发式算法(Seed-­based or bootstrapping approach)

    [Hearst et al. 1992] Automatic acquisition of hyponyms from large text corpora.

    这个算法还是很有趣的,基本的思路是这样的:我们先准备一些准确率很高的种子实体-关系组,比如:Jack Ma/Alibaba/Founder-of这种。然后,

    • 以这些种子实例为基础,去语料库里找出所有相关的句子
    • 对这些句子的上下文进行分析,找出一些可靠的pattern
    • 然后再通过这些pattern去发现更多的实例
    • 通过新的实例再去发掘出新的pattern,如此往复,直到收敛
      整个过程像滚雪球一样,越滚越大…
    远程监督学习(Distant Supervision)

    [Mintz et al.2009] Distant supervision for relation extraction without labeled data

    远程监督学习其实跟上面的思想很类似,它基于一个最核心的假设[1]:

    If two entities participate in a relation, all sentences that mention these two entities express that relation.

    此外,它与bootstrapping 最大的区别是:Hearst在1992年提出的方法只进行基于规则的模式匹配,而Mintz的文章,通过远程监督学习获取了大量的标签数据之后,使用传统机器学习的方法进行训练分类器。

    这个模型虽然看上去很完美,却存在以下两个显著的缺点:

  1. 在某些情况下,假设[1]有可能不成立,也因此会出现很多错误标签。这个很好理解,比如有以下两段话:

    Steve Jobs was the co-founder and CEO of Apple and formerly Pixar.
    Steve Jobs passed away the day before Apple unveiled iPhone4S in late 2011.

    我们本来打算抽取的关系是Founder-of,但是很明显,第二句表达的并不是这个意思,因此出现了标签错误。

  2. 基于手动的特征工程效率不高
    Mintz的文章,在获得标签数据后,会根据句子出现的频率构建一组特征,然后去训练一个分类器。这些特征大多是基于NLP技术的,比如词性标注,句法解析等。我们知道这些NLP技术还不是特别完美,会出现大量错误,而这些错误会在关系抽取系统累积传播,从而影响最终的分类效果。

    现在取得state-of-the-art效果的方法基本都是基于远程监督学习的,而且他们的工作都是为了解决以上两个问题,比如:

  • [Riedel et al. 2010]Modeling Relations and Their Mentions without Labeled Text,他提出了一个增强版的远程监督假设:

    If two entities participate in a relation, at least one sentence that mentions these two entities might express that relation.

    并且提出使用无向图模型去预测实体之间的关系以及哪个句子表达了这个关系,与 [Mintz et al.2009]相比错误率减少了 31%。

  • CNN [Zeng et al., 2014] Relation classification via convolutional deep neural network

    摒弃了手工特征工程,使用卷积神经网络来自动提取特征,提升了效果。

  • PCNN [Zeng et al.,2015] Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

    • 使用multi-instance learning来缓解远程监督学习标签错误的问题
    • 提出了分段CNN的概念(Piecewise Convolutional Neural Networks),进一步提升了特征提取的效果
  • [Lin et al., 2016] Neural Relation Extraction with Selective Attention over Instances
    • 引入attention机制,解决了[Riedel et al. 2010]和PCNN [Zeng et al.,2015]中信息利用不充分的问题(只用一个instance来代表一个relation)
    • 引入selective attention机制,缓解了远程监督学习中标签错误的问题
  • [Miwa et al. 2016] End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures

    提出了一种基于端到端神经网络的关系抽取模型。该模型使用双向 LSTM(Long-Short Term Memory,长短时记忆模型)和树形 LSTM 同 时对实体和句子进行建模。


以后会不定期更新…

Reference:

  • Relation Extration https://web.stanford.edu/class/cs124/lec/rel.pdf
  • [Mintz et al.2009] Distant supervision for relation extraction without labeled data
  • [Riedel et al. 2010] Modeling Relations and Their Mentions without Labeled Text
  • [Hoffmann et al., 2011] Knowledgebased weak supervision for information extraction of overlapping relations.
  • [Mihai Surdeanu et al. 2012] Multi-instance multi-label learning for relation extraction.
  • [Zeng et al., 2014] Relation classification via convolutional deep neural network
  • [Zeng et al.,2015] Distant Supervision for Relation Extraction via PiecewiseConvolutional Neural Networks
  • [Miwa et al. 2016] End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures
  • [Lin et al., 2016] Neural Relation Extraction with Selective Attention over Instances

关系抽取综述》上有1条评论

发表评论

电子邮件地址不会被公开。 必填项已用*标注