中级工程师职称论文大数据分析与应用问题研究

所属栏目:电子技术论文 发布日期:2015-06-02 15:45 热度:

  大数据又称为巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。现如今,大数据的应用范围越来越广了,很多领域都开始使用大数据来分析情况。本文是一篇关于大数据的论文范文,属于中级工程师职称论文,文章论述了大数据分析与应用问题研究,有需要发表论文的作者可以联系网站在线编辑投稿。

   【摘 要】大数据具有规模大、种类多、生成速度快、价值巨大但密度低的特点。大数据应用就是利用数据分析的方法,从大数据中挖掘有效信息,为用户提供辅助决策,实现大数据价值的过程。主要介绍了大数据定义,分析方法、应用领域等相关问题。

  【关键词】中级工程师职称论文,大数据,数据分析,应用领域

  1.大数据的定义

  美国国家标准和技术研究院对大数据做出了定义:“大数据是指其数据量、采集速度,或数据表示限制了使用传统关系型方法进行有效分析的能力,或需要使用重要的水平缩放技术来实现高效处理的数据。”我们认为大数据价值链可分为:数据生成、数据采集、数据储存以及数据分析。数据分析是大数据价值链的最后也是最重要的阶段,是大数据价值的实现,是大数据应用的基础,其目的在于提取有用的值,提供论断建议或支持决策,通过对不同领域数据集的分析可能会产生不同级别的潜在价值。

  可用于大数据分析的传统数据分析方法:(1)聚类分析。聚类分析是划分对象的统计学方法,指把具有某种相似特征的物体或者事物归为一类。聚类分析的目的在于辨别在某些特性上相似(但是预先未知)的事物,并按这些特性将样本划分成若干类(群),使在同一类内的事物具有高度的同质性,而不同类的事物则有高度的异质性。聚类分析是一种没有使用训练数据的无监督式学习。(2)因子分析。因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相互比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原数据的大部分信息。(3)相关分析。相关分析法是测定事物之间相关关系的规律性,并据以进行预测和控制的分析方法。社会经济形象之间存在着大量的相互联系、相互依赖、相互制约的数量关系。这种关系可分为两种类型。一类是函数关系,它反映着现象之间严格的依存关系,也称确定性的依存关系。在这种关系中,对于变量的每一个数值,都有一个或几个确定的值与之对应。另一类为相关关系,在这种关系中,变量之间存在着不确定、不严格的依存关系,对于变量的某个数值,可以有另一变量的若干数值与之相对应,这若干个数值围绕着它们的平均数呈现出有规律的波动。(4)回归分析。回归分析是研究一个变量与其他若干变量之间相关关系的一种数学工具,它是在一组实验或观测数据的基础上,寻找被随机性掩盖了的变量之间的依存关系。通过回归分析,可以把变量间的复杂的、不确定的关系变得简单化、有规律化。

  虽然这些传统的分析方法已经被应用于大数据领域,但是它们在处理规模较大的数据集合时,效率无法达到用户预期,且难以处理复杂的数据,如非结构化数据。因此,出现了许多专门针对大数据的集成、管理及分析的技术和方法。

  2.大数据分析方法

  布隆过滤器:其实质是一个位数组和一系列HASH函数。布隆过滤器的原理是利用位数组存储数据的HASH值而不是数据本身,其本质是利用HASH函数对数据进行有损压缩存储的位图索引。其优点是具有较高的空间效率和查询速率,缺点是有一定的误识别率和删除困难。布隆过滤器适用于允许低误识别率的大数据场合。

  HASH法,其本质是将数据转化为长度更短的定长的数值或索引值的方法。这种方法的优点是具有快速的读写和查询速度,缺点是难以找到一个良好的HASH函数。

  索引:无论是在管理结构化数据的传统关系数据库,还是管理半结构化和非结构化数据的技术中,索引都是一个减少磁盘读写开销、提高增删改查速率的有效方法。索引的缺陷在于需要额外的开销存储索引文件,且需要根据数据的更新而动态维护。

  TRIE树:又称为字典树,是HASH树的变种形式,多被用于快速检索,和词频统计。TRIE树的思想是利用字符串的公共前缀,最大限度地减少字符串的比较,提高查询效率。

  并行计算:相对于传统的串行计算,并行计算是指同时使用多个计算资源完成运算。其基本思想是将问题进行分解,由若干个独立的处理器完成各自的任务,以达到协同处理的目的。

  传统数据分析方法,大多数都是通过对原始数据集进行抽样或者过滤,然后对数据样本进行分析,寻找特征和规律,其最大的特点是通过复杂的算法从有限的样本空间中获取尽可能多的信息。随着计算能力和存储能力的提升,大数据分析方法与传统分析方法的最大区别在于分析的对象是全体数据,而不是数据样本,其最大的特点在于不追求算法的复杂性和精确性,而追求可以高效地对整个数据集的分析。总之,传统数据方法力求通过复杂算法从有限的数据集中获取信息,其更加追求准确性;大数据分析方法则是通过高效的算法、模式,对全体数据进行分析。

  3.大数据应用领域

  目前根据数据的生成方式和结构特点不同,可以将数据分析划分为6个关键技术领域:(1)结构化数据。一直是传统数据分析的重要研究对象,目前主流的结构化数据管理工具,如关系型数据库等,都提供了数据分析功能。(2)文本。是常用的存储文字、传递信息的方式,也是最常见的非结构化数据。一直演化到21世纪初新兴的在线社交网络分析。(3)WEB数据。WEB技术的发展,极大地丰富了获取和交换数据的方式,WEB数据高速的增长,使其成为大数据的主要来源。(4)多媒体数据。随着通讯技术的发展,图片、音频、视频等体积较大的数据,也可以被快速地传播,由于缺少文字信息,其分析方法与其他数据相比,具有显著的特点。(5)社交网络数据。从一定程度上反映了人类社会活动的特征,具有重要的价值。(6)移动数据。与传统的互联网数据不同,具有明显的地理位置信息、用户个体特征等其他信息。

  大数据未来的应用领域和方向还包括以下几个方面:(1)大数据可视化。在许多人机交互场景中,都遵循所见即所得的原则,例如文本和图像编辑器等。在大数据应用中,混杂的数据本身是难以辅助决策的,只有将分析后的结果以友好的形式展现,才会被用户接受并加以利用。报表、直方图、饼状图、回归曲线等经常被用于表现数据分析的结果,以后肯定会出现更多的新颖的表现形式,例如微软的“人立方”社交搜索引擎使用关系图来表现人际关系。(2)面向数据。程序是数据结构和算法,而数据结构就是存储数据的。在程序设计的发展历程中,也可以看出数据的地位越来越重要。在逻辑比数据复杂的小规模数据时代,程序设计以面向过程为主;随着业务数据的复杂化,催生了面向对象的设计方法。如今,业务数据的复杂度已经远远超过业务逻辑,程序也逐渐从算法密集型转向数据密集型。可以预见,一定会出现面向数据的程序设计方法,如同面向对象一样,在软件工程、体系结构、模式设计等方面对IT技术的发展产生深远的影响。

  4.结束语

  大数据引发思维变革。在大数据时代,数据的收集、获取和分析都更加快捷,这些海量的数据将对我们的思考方式产生深远的影响。分析数据时要尽可能地利用所有数据,而不只是分析少量的样本数据。相比于精确的数据,我们更乐于接受纷繁复杂的数据。我们应该更为关注事物之间的相关关系,而不是探索因果关系。大数据的简单算法比小数据的复杂算法更为有效。大数据的分析结果将减少决策中的草率和主观因素,数据科学家将取代“专家”。 [科]

  【参考文献】

  [1]邬贺铨.大数据时代的机遇与挑战[J].求是,2013(04).

  [2]黄晓斌,钟辉新.基于大数据的企业竞争情报系统模型构建[J].情报杂志,2013(03)

  中级工程师职称论文发表期刊推荐《计算机研究与发展》是中国科学院计算技术研究所和中国计算机学会联合主办的学术性期刊,科学出版社出版,国内外公开发行。她诞生于我国计算机事业的初创时期(1958年),是我国第一个计算机刊物,它是随着中国计算机事业的发展而成长起来的。

文章标题:中级工程师职称论文大数据分析与应用问题研究

转载请注明来自:http://www.sofabiao.com/fblw/dianxin/dianzijishu/26971.html

相关问题解答

SCI服务

搜论文知识网的海量职称论文范文仅供广大读者免费阅读使用! 冀ICP备15021333号-3