基于归纳学习的信息抽取

所属栏目:计算机信息管理论文 发布日期:2011-01-20 08:42 热度:

  摘要:本文利用了标准的HTML技术来解决信息抽取问题,提出一个Web信息抽取平台。通过归纳学习算法,寻找感兴趣的数据。抽取机制是利用归纳学习的方法,先选定样本页面和模式,生成模式信息和抽取规则,存入知识库;后利用知识库对其他同类页面自动地抽取信息,将得到的信息按对象关系模型进行重组后存放在数据库,以支持查询及各种应用。
  关键词:信息抽取;归纳学习;样本页面;模式
  
  1.背景
  Internet提供了海量数据,但不便于处理查询;关系数据库提供了非常方便的SQL语句来处理数据但对数据的结构限制过多。因此,结合两者之间的优点,利用关系数据库中的查询语句对Web上异构的、大量数据信息进行查询,就会显露出巨大优势。它能完成搜索引擎所不能完成、同时基于多个站点的查询。
  这种新的技术就是信息抽取技术。它可以把散落在Internet中的信息以某种格式提取出来,并把提取出的整齐的结果放入关系数据库中,这样获得的数据集就可以方便地使用SQL语句进行查询,弥补了搜索引擎的不足。并且,由于获得的信息格式整齐,便于计算机对其进行加工处理。
  2.基于归纳学习信息抽取模型的建立
  2.1原理概述
  同一Web站点的同类数据信息具有相似结构,尤其是对于大量的信息,通常都是采用某种模板或者基于某种动态网页技术生成的,这些同类信息通过HTML格式表现出来,就具有一定相似性。而信息抽取的特点一般是:一次数据抽取通常是针对同类信息的,我们可以利用这种相似性来完成信息抽取。
  可以将整个抽取过程分为2个阶段:学习阶段和抽取阶段。同时将抽取阶段分为2步:抽取部分和集成部分。
  学习阶段:以某一个信息块为样本,根据这个样本生成抽取规则放入知识库。知识库中存放了系统每次抽取时,对每种样本生成的模式信息和特定的抽取规则,这种存放是以数据库的形式实现的,模式信息作为表的字段名称,而规则是由各个数据段的内容即时生成的。
  抽取阶段:根据学习阶段定义的模式信息,建立数据库,同时使用知识库对所有信息块进行信息抽取,将抽取出来的信息以数据库的形式存储和管理。其中抽取部分从知识库中获得规则信息和模式信息,对所有的信息块进行抽取,获得结果信息表。而抽取阶段的集成部分将多次抽取获得的结果表进行整合,除去冗余信息,形成一个集成数据库。
  2.2确定样本
  样本就是用于在学习阶段生成抽取规则的示例信息块。进行信息抽取之前,我们先要分析样本,以生成抽取规则。
  假设某电子商务网站中介绍一款手机的页面HTML代码如下,这就是样本。
  <dt>苹果iPhone(8G)</dt>
  <dd><strong>参考价格:</strong><spanclass="red"id="ppckbj">3600</span></dd>
  <dd><strong>上市时间:</strong>2007</dd>
  <dd><strong>网络制式:</strong>GSM850/900/1800/1900,EDGE</dd>
  <dd><strong>手机外形:</strong>直板</dd>
  <dd><strong>主屏参数:</strong>彩屏,1600万色,TFT,触摸屏,320×480像素,3.5英寸</dd>
  2.3定义模式
  所谓模式,就是对页面中我们感兴趣的信息所取的名称,例如上述例子中,我们感兴趣的信息有:手机品牌:苹果iPhone(8G);参考价格:3600元;上市时间:2007等。而“品牌型号”,“参考价格”和“上市时间”就是这些信息的名称。定义了模式之后。我们只需要从页面中获得:“苹果iPhone(8G)”“3600元”和“2007”等冒号右边的信息就可以了。这些信息的意义已经由模式给出了。
  注意到该样本中,除了“手机品牌:苹果iPhone(8G)”之外,所有的信息都在冒号的左边给出了它们的名称。我们可以使用这些页面中给出的名称来作为模式信息,也可以自己定义。
  表现在数据库中,模式就是信息抽取结果表中的字段名称。上面例子中完整的模式信息如下:品牌型号,参考价格,上市时间,网络制式,手机外形,主屏参数。
  2.4生成抽取规则
  在一个信息抽取系统中,最重要的部分是抽取过程,而抽取过程要顺利完成,抽取规则的正确生成是功不可没的。
  在此我们按照信息的左右边界和文本特征来形成抽取规则。由于上文已定义了模式信息,我们可以直接从信息块中找到待抽取的属性,它们的语义已由模式信息确定。
  而知识库中就记录了这些标记信息。在数据库中表示为标记表。但是需要注意的是,上述HTML代码是我们事先从冗长的HTML代码中找到的一个信息块。也就是说,在提取标记之前,需要进行一个过滤功能,把有用的信息块找到并保留,而去掉其余的HTML代码。
  至此已可以确定待抽取信息的左右边界,这种确定左右边界的方法要求待抽取的信息块中对应位置的标记应该相同。
  2.5抽取过程
  利用抽取规则,匹配所有的信息块,获取的信息将被写入抽取信息数据库中。
  3.总结
  本文提出了一个基于归纳学习方式的信息抽取系统,这个系统在后台能够实现对于不同类型的Web页面的样本归纳学习,并由此生成抽取规则和信息模式,利用抽取规则可以对不同页面进行信息抽取,并把相关的信息集成到一个数据库中,还能够实现对知识库的添加和扩充;在前台则能够满足用户查询某一信息的要求,它与一般查询的不同之处就是,用户查询到的资料虽然存在于本地的一个集成的数据库中,但他们都是从Internet上的不同站点上抽取并汇总过来的,相当于对分布的数据库的一个虚拟的查询。
  
  参考文献
  [1]李彦刚,魏海平,侯兴华,基于HTMLParser的Web信息抽取系统的设计与实现辽宁石油化工大学学报,2006.6
  [2]梁晓涛,谢荣传,基于OWL描述本体的语义信息抽取,计算机技术与发展,2006.1

文章标题:基于归纳学习的信息抽取

转载请注明来自:http://www.sofabiao.com/fblw/dianxin/xinxiguanli/6555.html

相关问题解答

SCI服务

搜论文知识网的海量职称论文范文仅供广大读者免费阅读使用! 冀ICP备15021333号-3