一种领域知识获取与管理方法

所属栏目:高等教育论文 发布日期:2011-01-20 17:13 热度:

  摘要:随着手机的多样化发展以及在人群中迅速普及,使手机领域知识涉及到的学科知识多、知识量大,如何使这些知识共享和重用,目前仍是一个重大的挑战,通过构建手机领域本体库来解决这一问题。本文首先给出领域(移动电话)知识获取及管理的需求分析,然后分析了现有的本体构建方法体系及工具,最后通过属性获取算法得到一个上下位关系的概念体系。手机领域知识库的构建不仅提高手机领域的广大参与者对手机领域知识获取的效率和可靠性,而且也为本体知识在实践领域的应用奠定坚实的基础。
  关键词:本体,知识库,手机,检索
  
  1.引言
  
  手机作为一种科技产品它有着更新换代快的特点,导致形形色色的手机种类越来越多,也就是手机领域知识量不断扩大,这给手机设计者和维修者带来了一定困难,也给手机购买者在这样庞大的手机种类当中难以选择。同时现有网络上有很多介绍手机参数的网站,但有的只笼统的简单介绍手机的部分属性,有的对手机的功能分类十分粗糙,有的对手机同一属性却冠以不同的名称,知识的管理缺乏科学性。
  为了解决这一系列困难,我们必须构建手机领域本体库使这些知识共享和重用,给手机设计者和维修者提供工业设计的全面知识,提高他们的工作效率,也使手机购买者能够在该本体库的导购基础上仅需最短时间就可选择一款合心意的手机,同时也可作为各大手机门户网站的有力支撑。本体库的构建本身也是语义WEB的重要基础和必要组成部分,基于手机领域本体库的共享和重用的特点,其他研究者也可以使用笔者创建好的本体库进行研究。
  2.相关工作
  2.1.构建本体的方法体系
  当前典型的本体构建方法都是从具体的本体构建项目中总结经验而获得的。尽管在实际应用阶段已经利用了本体,但是本体的构建并没有固定的模式。最早出现的是1995年根据企业本体(EnterpriseOntology)和TOVE本体的开发过程获得的经验总结,此后,陆续出现了一些新的本体构建方法。下面介绍的本体构建方法已经得到大家认可的经典方法。
  骨架法[1],也称为EO工程法,是Uschold和King在1995年开发EO(EnterpriseOntology,关于企业建模过程的本体,是相关商业企业间术语和定义的集合)中的经验总结,它提出了一种本体开发的具体步骤,其基本流程如图1所示:
  1.jpg
  图1骨架法(EO工程法)的本体构建基本流程
  TOVE法[2],是Grüninger和Fox等开发TOVE工程本体的经验总结。这种方法先建立本体的非形式化描述说明,然后将这种描述形式化。Meth方法[3]由马德里技术大学(PolytechnicUniversityofMadrid,UPM)工艺分校开发人工智能图书馆使用。采用Meth方法开发的本体有(Onto)Agent[4]:基于本体的WWW代理,关于本体使用参考本体作为知识源进行一定约束条件的重新知识获取。该方法[5]是斯坦福大学医学院提出的基于Protégé本体构建工具的一种领域本体构建方法。
  其他的本体方法体系还包括KACTUS工程法[6]、IDEF5法[7]、AFM法(Activity-FirstMethod)[8]等。
  2.2.构建本体的常用开发工具
  OntoEdit[9]是基于On-To-Knowledge项目(该项目起源于KADS工程)的本体构建方法。在本体精炼阶段则需要开发者使用编辑器精炼本体结构和概念及关系的定义。OntoEdit以F-Logic作为其推理引擎,用于在本体精炼和评价阶段处理公理。
  WebODE[10]是西班牙马德里技术大学开发的一个综合性的本体建模工具,它集成了本体开发过程中的大多数行为,支持METHONTOLOGY本体构建方法论。KAON[11]是德国Karlsruhe大学编制的一套用于语义网和本体研究的工具,包含各种模块用于本体的构建、存储、检索、维护以及应用,它是当前比较好的本体构建和维护工具之一。
  Protégé[12]是斯坦福大学为知识获取而开发的一个工具,主要应用于知识的获取以及现存本体合并和排列,可以免费下载并公开源代码,再加上其支持中文,Protégé已经成为目前国内使用最为广泛的本体编辑工具和基于知识的框架。
  3面向手机网站的知识获取
  分析网站的结构,网站中需要的信息都是在一个表格中,因此在提取时,根据关键字可以提取出信息。关键字为:手机类型、操作系统、上市日期、硬件系统、基本配置、屏幕、网络频率、外观设计、产品尺寸、产品天线、视频播放、音乐播放、摄像功能描述、摄像头、蓝牙功能、数据线接口、内容容量、Wi-Fi功能、情景模式、待机图片、闹钟功能、日历功能、计算器、无线数据、日程表、其它功能。
  针对专业手机网站,网页的标题也是手机的型号,从这里可以提取到根,而下面的属性是它的孩子,属性的值又可以作为属性的孩子,因此一个页面就可以形成一棵树。每一颗树代表了一个一个手机也是一个页面。而这棵树的形式可以用这样的二元关系来表示,(手机类型、只能)(手机类型、音乐手机)(无线数据,GPRS)(无线数据,EDGE)(产品尺寸,59*108*12毫米)(外观设计,直板)。
  为了实现这个功能,只要把获得的文本信息与关键字匹配,再将紧随其后的字符作为它的值就可以实现。其流程如下:将文本中的字符串按照空格分割为多个字符串,将这些字符串与关键字匹配,如果匹配成功,则将后面紧跟随的字符串保存到achieve.txt文档中。其中关键字的选择有赖于网页文本,例如上面的例子,其中的关键字有:手机类型、操作系统、上市日期、硬件系统、基本配置、屏幕、主屏尺寸、屏幕材质、主屏参数、手机制式、支持频段、外观设计、产品尺寸、产品天线、视频播放、音乐播放、摄像头、摄像头、拍照功能描述、摄像头像素、数据功能、蓝牙功能、数据线接口、内存容量、情景模式、待机图片、闹钟功能、日历功能、计算器、无线数据等,这些关键字可由程序读入或删除并以一定的格式保存在key.txt文档中。当匹配完成时,能够实现将二元组输出。
  属性关系的表达
  针对大量的Web页面,提取所需文本信息。采用字符串处理方式提取包含“是一种”和“是一类”特征词的上下位概念。提取出的文本特定信息存储在一起,完成文本特定信息的提取过程。从提取出的特定信息中,得到用户感兴趣的特定文本,最终用于表达属性的上下位关系。
  以手机属性为例,在网络上下载大量的有关手机的Web页面,然后分析网页上文本的上下位关系,提取出“是一个”和“是一种”的特征词的句子。
  1、摩托罗拉L7是一种于2005年12月上市的手机。
  在上面的一段文本中,手机属性是上位概念,摩托罗拉、L7、2005年12月是下位概念。
  2、XX手机是一种有拍照、音乐播放、视频播放、游戏这些娱乐功能,支持蓝牙、数据接口的数据功能。
  在上面的一段文本中,手机属性是上位概念,娱乐功能、数据功能是下位概念,而拍照、音乐播放、视频播放、游戏是娱乐功能的下位概念;蓝牙、数据接口是数据功能的下位概念,如图2所示。
  2.jpg
  图2:手机属性上下位关系图
  3、作为一款全能型的商务机型,网络配置也是不可或缺的一部分,所以其在无线网络功能方面表现的也应当是非常出色的,除了可以提供高速下载速率的PHS网络之外,该机还支持WLAN(IEEE802.11b/g)无线局域网功能,并且在支持蓝牙V2.0的基础上还提供了对IrSS高速红外功能的支持。此外,该机这次还内置Gmail及Yahoo邮箱,支持Flash3.0播放,同时装载的全能浏览器可以在使用OperaMobile9.5和InternetExplorer网页时可实现上下卷动及触摸变焦功能。
  在上面一段文本中,网络配置是上位的关系,提供高速下载速率的PHS网络、WLAN(IEEE802.11b/g)无线局域网、蓝牙V2.0、IrSS高速红外功能、内置Gmail及Yahoo邮箱、装载的全能浏览器是下位的关系,如图3所示。
  3.jpg4.jpg
  图3:网络配置上下位关系图                                                                                 图4:手机属性上下位关系图
  4、这款夏普WS020SH在其它娱乐功能的配置上却变成了"非主流",尤其是在摄像头的配置上,在现在这个500万像素满天飞的时代,这款产品依然配备了一枚200万像素的摄像头,虽然支持自动对焦,但像素数决定了这款手机的成像质量。而为商务人士量身定制的功能有QC编码和名片识别功能,支持ExcelMobile、OneNoteMobile、PowerPointMobile、WordMobile、WindowsMediaPlayer10Mobile等等等等,可以说是一应俱全了。
  在上面一段文本中,娱乐功能是上位关系,200万像素的摄像头、QC编码、名片识别是下位关系。
  5、夏普WS020SH的尺寸为50×116×17.9毫米,重135克。在配备标准电池的情况下,手机可获得420小时的待机时间和6小时的连续通话时间。除此之外其为用户提供黑×金、黑×萤光绿、黑×桃红等三种机身色彩选择,并预计于6月上市,建议空机零售价格为63120日元,约合人民币4288元左右。假如夏普把WS020SH改一下网络制式,让它兼容WCDMA/GSM,并且把摄像头索性弄到500万像素再拿到全球市场上去卖,不知道索尼爱立信的X1届时会怎么样?
  手机属性是上位关系,尺寸、重量、色彩、待机时间和通话时间、售价是下位关系。等等许多的例子提取出许多的上下位关系如图4所示。
  根据算法的实验,整合提取的大量信息,合理的处理上下位关系图,得到一张手机参数的上下位关系图。
  5.jpg
  图5:手机各种属性上下位关系总结图
  从表上可以看出手机的各种上下位关系可以整合在一起。得到最终的上下位关系图:手机属性是上位,则型号、厂商、价格等等就是下位;娱乐功能是上位,则拍照、音乐、网络功能则是下位;网络功能是上位,则邮件、浏览器、WLAN功能等就是下位。
  4结束语
  本文从手机知识领域拥有涉及手机种类繁多、知识量大的特点的角度出发,探讨了手机制造者、使用者、维修者对于手机领域知识的高效可靠提取的需求,提出了需要通过本体方法论构建可重用和可共享的手机知识库来满足他们的要求。同时,给出了一种手机领域知识的上下位关系获取与表示方法。
  然而由于不同本体构建者所表示的本体知识库只是分散的或异质的,为了使不同构建者对于相同领域能够表示成正确的统一的全面的知识库,需要做本体推理和本体集成等方面的工作,本体映射作为本体集成的基础,这些都是今后的进一步研究方向。  期刊论文

文章标题:一种领域知识获取与管理方法

转载请注明来自:http://www.sofabiao.com/fblw/jiaoyu/gaodeng/6562.html

相关问题解答

SCI服务

搜论文知识网的海量职称论文范文仅供广大读者免费阅读使用! 冀ICP备15021333号-3