政府电子政务中的数据挖掘技术

所属栏目:电子技术论文 发布日期:2018-03-05 11:02 热度:

   数据挖掘是从海量数据中提取隐含在其中的有用信息和知识的过程,政法工作中的数据挖掘技术不同于其他行业,本文对政府数据挖掘技术进行分析与研究。

电子技术

  《电子技术》是由上海市科学协会主管,上海市电子学会和上海市通信学会主办的技术性月刊,1963年创刊,是中国最早的电子类期刊之一,也是目前国内最具权威性、发行量最大的电子技术月刊。

  一 数据挖掘技术

  1 定义

  简单的说, 数据挖掘就是从现有的大量数据中进行分析, 从而对未来的发展做出辅助分析。从更广义的角度来讲, 数据挖掘就是在一些事实或观察数据的集合中寻找模式的决策支持过程。 因此, 挖掘的对象不仅是数据库, 还可以是任何组织在一起的数据集合。数据挖掘最初针对的是大型数据库, 而电子政务中的数据挖掘技术是基于网络的, 即所谓的网络数据挖掘, 它除了处理传统数据库中的数值型的结构化数据外, 处理更多的是文本、 图形、 图像、 WWW 信息资源等半结构、 非结构的数据。数据挖掘在解决实际问题时, 经常要同时使用多种模式。一个数据系统或仅仅一个数据挖掘查询就可能生成成千上万的模式, 但是并非所有的模式都令人感兴趣。 因此, 兴趣度通常被用来衡量模式的总体价值, 它包括正确性、 新奇性、 可用性和简洁性。

  2 功能特性

  1) 、 自动预测趋势和行为: 由历史的和当前的数据去推测未来的数据。最典型的利用数据挖掘进行预测的例子就是目标营销。数据挖掘工具可以根据过去邮件推销中的大量数据找出其中最有可能对将来的邮件推销做出反应的客户。

  2) 、 关联分析: 它反映了一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联, 那么其中一项的属性值就可以依据其他属性值进行预测。 举个例子: 如果在购买面包和黄油的顾客中, 有很多人同时也购买了牛奶, 这样可以将面包、黄油和牛奶这些顾客经常购买的商品放在一起, 这样就提高了经济效益。

  3) 、 聚类: 如同通常所说的 “物以类聚” , 是把一组个体按照相似性归成若干类别。 通过聚类, 数据库中的记录可被划分为一系列有意义的子集。聚类技术主要包括传统的模式识别和数学分类学。

  4) 、 偏差检测: 偏差包括很多潜在的知识, 如分类中的反常实例、 不满足规则的特例、观测结果与模型预测值的偏差、 量值随时间的变化等。 偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。

  3 步骤首先, 熟悉背景知识, 弄清客户的需求。 其次, 要进行数据挖掘必须收集要挖掘的数据资源。把要挖掘的数据都收集到一个数据库中, 而不是采用原有的数据库或数据仓库。 再次, 对挖掘的数据进行分析, 进行深入调查, 从数据集中找出规律和趋势, 用聚类分析区分类别, 搞清楚多因素相互影响的、 十分复杂的关系, 发现因素之间的相关性。 在分析好数据集的基础上, 就可以建立形成知识的模型, 这是进行数据挖掘最重要的核心环节, 一般运用神经网络、 决策树、 数理统计、 时间序列分析等方法来建立模型。 最后, 我们要对得到的模型进行评价, 确定哪些是有效的、 有用的模式。 评价的方法一般有三个: 一种办法是直接使用原先建立的挖掘数据库中的数据进行检验, 另一种办法是另找一批数据并对其进行检验, 再一种办法是在实际运行的环境中取出新鲜的数据进行检测。

  4. 网络数据挖掘形式多样根据不同的网络数据挖掘对象, 人们将网络数据挖掘分为网络内容挖掘(Web content mining)、 网络结构挖掘(Web structure mining)以及网络用法挖掘(Web usage mining)。 ( 1) 网络内容挖掘 网络信息内容是由文本、 图像、 音频、 视频、 元数据等形式的数据组成的。网络内容挖掘就是一个从网络信息内容中发现有用信息的过程。由于网络信息内容有很多是多媒体数据, 因此网络内容挖掘也将是一种多媒体数据挖掘形式。 ( 2) 网络结构挖掘 网络结构挖掘就是挖掘 Web 潜在的链接结构模式。通过分析一个网页链接和被链接数量以及对象来建立 Web 自身的链接结构模式。这种模式可以用于网页归类, 并且由此可以获得有关不同网页间相似度及关联度的信息。网络结构挖掘有助于用户找到相关主题的权威站点。 ( 3) 网络用法挖掘 网络内容挖掘和网络结构挖掘的挖掘对象是网上的原始数据, 而网络用法挖掘面对的则是在用户和网络交互的过程中抽取出来的第二手数据, 包括网络服务器访问记录、 代理服务器日志记录、 浏览器日志记录、 用户简介、 注册信息、 用户对话或交易信息、 用户提问方式等。 通过网络用法挖掘, 可以了解用户的网络行为数据所具有的意义。

  二. 什么是电子政务随着网络时代的到来, 在世界各国积极倡导实施的信息高速公路建设的五大应用领域中, 电子政务被列居首位。电子政务是指国家各级政府部门综合运用现代网络通讯与数字化信息技术, 利用国际互联网及内部局域网完成日常政务工作。其中包括数据的传递、 公文的上传下达等, 从而转变传统的工作模式, 实现政府职能部门工作的办公信息化、 政务公开化、 管理一体化及决策科学化。电子政务是借助电子信息技术而进行的政务活动。由于电子政务是电子信息技术与政务活动的交集, 所以它的内涵和外延在很大程度上取决于我们对于电子信息技术和政务活动所下的定义。电子政务主要包括三个组成部分: 一是政府部门内部的电子化和网络化办公; 二是政府部门之间通过计算机网络而进行的信息共享和实时通信; 三是政府部门通过网络与民众之间进行的双向信息交流。

  三. 电子政务离不开数据挖掘由于政府的重要职能之一是对国民经济和社会发展进行宏观管与调控, 数据类信息的应用在各级政府的日常工作中占有重要地位, 这就要求各级政府应当及时准确地掌握国民经济和社会发展的各类数据。有资料表明: 在我国, 各级各类政府部门掌握着全社会的信息资源, 政府是社会信息资源的最大拥有者和应用者, 如何让这些信息资源高效服务于各级政府机构、 服务于民成为电子政务工程建设中的一项重要的内容。政府信息化是社会信息化的基础, 只有政府实现了信息化, 才能真正实现社会公共资源的共享, 提高社会资源的运作效率, 促进整个社会融入信息时代。目前, 电子政务系统的构建, 正经历着由以技术为中心向以数据为中心的方向转变, 没有数据信息, 就没有政府网站及电子政府。因而, 整合政务信息资源, 建设和改造政府系统对内及对外的电子信息资源库, 解决好各类数据的传递、 应用等问题, 势必成为今后电子政务建设的关键所在。电子政务包括政府的信息服务、电子贸易、电子化政府、政府部门重构、 群众参与政府五个方面的内容。 将网络数据挖掘技术引入电子政务中, 可以大大提高政府信息化水平, 促进整个社会的信息化。数据挖掘在电子政务中主要用来为政府重大政策出台提供决策支持。如通过对网络各种经济资源的挖掘, 确定未来经济的走势, 从而制定出相应的宏观经济调控政策。

  具体体现在以下几个方面: ( 1) 政府的电子贸易在服务器以及浏览器端日志记录的数据中隐藏着模式信息, 运用网络用法挖掘技术可以自动发现系统的访问模式和用户的行为模式, 从而进行预测分析。 例如, 通过评价用户对某一信息资源浏览所花费的时间, 可以判断出用户对何种资源感兴趣; 对日志文件所收集到的域名数据, 根据国家或类型进行分类分析; 应用聚类分析来识别用户的访问动机和访问趋势等。这项技术已经有效地运用在政府电子贸易中。 ( 2) 网站设计通过对网站内容的挖掘, 主要是对文本内容的挖掘, 可以有效地组织网站信息, 如采用自动归类技术实现网站信息的层次性组织; 同时可以结合对用户访问日志记录信息的挖掘, 把握用户的兴趣, 从而有助于开展网站信息推送服务以及个人信息的定制服务, 吸引更多的用户。( 3) 搜索引擎网络数据挖掘是目前网络信息检索发展的一个关键。如通过对网页内容挖掘, 可以实现对网页的聚类、 分类, 实现网络信息的分类浏览与检索; 同时, 通过对用户所使用的提问式的历史记录的分析, 可以有效地进行提问扩展, 提高用户的检索效果; 另外, 运用网络内容挖掘技术改进关键词加权算法, 提高网络信息的标引准确度, 从而改善检索效果。 ( 4) 决策支持为政府重大政策出台提供决策支持。 如, 通过对网络各种经济资源的挖掘, 确定未来经济的走势, 从而制定出相应的宏观经济调控政策。从世界范围来看, 电子政务并未真正得以实现。英国虽然在这一方面全球领先, 但也仅有 60%的政府机构的互连网服务网站已开通或正在建设。随着电子政务和网络用户对高品质、个性化的信息需求的不断扩大, 将对网络数据挖掘技术提出更高的要求, 推动这一技术不断地发展与完善, 更好地为电子政务服务, 从而提高全球的信息化水平。总而言之, 从整个世界范围来看, 电子政务还没有真正的实现。各国政务信息化的进度不一、 规模不同。 随着电子政务系统和民众对高品质、个性化信息需求的不断扩大, 以及网络相关技术的不断更新, 会对电子政务系统的建设提出更高更具体的要求, 这也将推动电子政务系统不断地完善, 更好地向着政务智能化的方向。

文章标题:政府电子政务中的数据挖掘技术

转载请注明来自:http://www.sofabiao.com/fblw/dianxin/dianzijishu/38016.html

相关问题解答

SCI服务

搜论文知识网的海量职称论文范文仅供广大读者免费阅读使用! 冀ICP备15021333号-3