摘要:通过围绕计算机数据信息处理的任务,借助于后台服务器、数据库、存储单元等硬件设施,以及Hadoop文件系统架构、SOA服务体系、HDFS分布式存储等大数据技术,进行计算机数据信息处理系统的建构,提供虚拟机资源调度、分布式数据计算、任务处理等服务,来完成海量化数据资源的搜集、处理与存储。
关键词:大数据;信息数据处理;网络架构
1大数据技术的主要内容概述
当前常用的大数据技术,包括Hadoop文件系统架构、SOA服务体系、HDFS分布式存储等。其中Hadoop分布式数据处理架构,属于大数据云计算系统的平台即服务层,包括Collect(汇总)、Map(映射)、Reduce(归约)等组成部分,主要秉持着先进先出的动态化任务调度理念。针对已搜集的海量化数据信息,利用Map映射函数建立两组数据的映射规则,并向多个主节点、从节点的任务处理需求,动态分配虚拟主机,实现某一数据类型的映射、归约操作。之后SOA服务体系为面向服务的组件模型,通常包含服务工作流、服务接口、服务注册、服务访问和服务查找等组件。该服务架构通过TCP/IP网络通信协议、定义的I/O接口,将某一应用程序的多个功能服务单元进行连接,并将多个分布式的服务组件进行封装,为用户提供需要的Web数据发送与接收、业务处理等的服务[1]。最后,HDFS分布式存储是以分布式形式,对互联网中海量化的数据信息作出存储,主要包括数据资源管理、存储等节点。HDFS的存储单元为每个数据块(block),而数据节点(DataNode)、元数据节点(Namenode)负责数据信息的写入和读出,其中数据块的单个最小存储单位是64Mbits。在HDFS文件系统HDFS框架的中心服务器,收到外部客户端的数据访问请求后,可以通过数据节点、元数据节点对数据访问、目录创建和数据存储等作出控制,实现对不同数据资源的处理与存储。
2大数据计算机信息处理的多层网络架构
基于大数据及云计算技术的计算机信息处理系统,通常为包含基础硬件设备、资源虚拟化硬件、用户与映像管理、SOA服务体系的多层网络架构,不同层级分别负责不同的硬件支持、任务响应、数据处理与存储工作[2]。1)硬件设施资源层。物理资源层为多层网络架构的最底层,包括计算机、后台服务器、数据库、存储器和网络交换机等硬件设备,不同设备之间经由定义的I/O接口进行连接,来为网络资源虚拟化池、虚拟化计算机的建构提供支持。2)资源虚拟化层。资源虚拟化层是依托于后台服务器,对多台计算机主机、数据信息服务硬件等进行虚拟化,该层级存在网络资源池、数据资源池、存储与计算资源池等组成部分。在任务管理中间层收到前端用户,发送的web网络访问、数据处理与存储请求后,会充分借助资源虚拟化层的分布式虚拟硬件,为不同用户任务执行匹配合适的虚拟化硬件资源。3)映像与用户管理层。映像与用户管理层是负责不同数据之间映像、映射规则建立,以及用户权限、任务请求管理的层级。其中用户管理包括用户身份、用户许可、用户请求等的管理模块;映像管理包括映像创建、映像部署、映像库管理和映像周期管理等组成模块,负责对后台服务器端搜集的数据信息,建立起两组数据的映射规则,并作出映像周期的合理控制[3]。4)SOA服务体系层。SOA体系是是一种精确定义接口、松耦合的服务架构,包含服务工作流、服务接口、服务注册、服务访问和服务查找等组件结构。多种服务组件为即插即用的排布方式,也即可以先进行用户安全检查、再作服务处理与管理,也可以按相反顺序执行服务,多种服务执行有明确的接口定义、业务代码。
3计算机数据信息处理涉及到的大数据关键技术
3.1数据挖掘技术
大数据挖掘技术是对网络海量数据资源,进行快速收集、筛选、处理与存取的技术,通常利用关联分析、聚类分析等的数据挖掘算法,对存在关联性的、有价值的数据内容作出挖掘。当前网络数据信息处理中用到的大数据挖掘技术,包含数据获取、数据预处理、数据清洗、数据变换和数据评估等内容,各功能模块分别负责多个数据挖掘步骤的执行。
3.2分布式计算技术
分布式计算为多种Agent技术、Webservice技术等融合的计算技术,其可以通过中间件为不同数据传输与处理、软件应用执行提供支持。在利用分布式计算技术对海量数据信息进行处理过程中,会将复杂的数据处理步骤,分解为若干个小的软件处理任务,再依托于虚拟化计算机硬件资源,多多种数据处理任务分配相应的元数据节点,不同节点负责特定的资源调度、分布式任务执行,因而使用虚拟机进行数据批量处理的效率更高、成本更低。
4大数据技术在计算机数据处理中的应用流程研究
4.1数据采集
大数据技术支持下的数据信息处理系统,包括数据采集、数据读取、数据预处理、虚拟化资源调动、数据分析等的执行流程,其分布式数据处理的组成架构如图1所示。当前局域网络中的计算机数据信息采集,通常涉及经营资本、财务流转、业务执行和人力资源管理等的数据,特别在大量临时文件、数字文档或日志信息采集的过程中,需要先验证信息来源的安全性准确性。基于Hadoop分布式文件系统的数据信息采集模块,主要利用Sqoop、Flume等数据采集工具,进行网络海量化数据资源的采集,再使用SQL语句将现有数据信息,传输至后台服务器、数据库的硬件端口。
4.2数据处理
数据预处理模块通常采取均值法、平滑法等处理方式,对广域网或局域网的网络空间中,存在的错误、冗余度高数据信息作出处理,主动过滤掉带有噪声的、重复性的、空值的数据,对网络数据预处理的计算公式为R=Qq+Ww+Ee。在完成企事业单位的数据信息采集后,可以依托大数据云服务平台的虚拟化资源池,设置设置时间系数Q、负荷系数W、缓存系数E,并设定时间系数Q的A1、A2和A3预设值,以及负荷系数W的B1、B2和B3预设值,缓存系数E的C1、C2和C3预设值。然后根据虚拟化资源池中不同数据处理任务的不同权重,分配预设值q、w和e(q
4.3虚拟化资源任务调度
整个大数据信息处理过程中的虚拟化资源调度,主要针对不同数据信息的业务处理需求,选择合适的分布式算法、网格算法等模型,在逻辑或物理操作层,向不同任务分配特定的虚拟化节点,进行用户访问管理、数据映射及处理的功能执行。虚拟资源管理、任务分配,主要对虚拟机负载、故障情况进行监测与统计,来保障虚拟资源运行的负载均衡与安全。该任务调度的执行流程为:将m个任务(Task),调度到n个元数据节点进行执行,假定设置单个任务执行时间为TET(TaskExecutionTime),则第i个任务在第j个资源中的执行时间为:CET(i,j)=starttime(j)+TET(i,j)在资源虚拟化硬件中,所有数据信息处理任务执行完成的总时间为:T=min{T1,T2,T3,…,Ti}4.4数据分析数据分析是对挖掘到的数据处理、任务执行结果,进行全方位的价值评估。在映像与用户管理层完成用户身份、权限与网络安全的审查后,由SOA服务体系层发送传输的数据信息处理信号,保证整个数据分析流程的安全稳定性。当后台服务器的虚拟化网络系统,接收到传送的数据信息处理信号后,从虚拟控制器模块读取、提取出某一时间段内的数据信息,存储于后台数据库、模块化存储单元等设备中,以便于不同管理主体对数据的访问、调用和共享。
5结语
大数据资源整合、云服务信息处理时代的到来,使得不同企事业单位都开始利用大数据技术、云计算服务平台,进行内部数据收集与传输、业务处理活动的开展。因此,依托后台服务器、网络云平台的分布式计算技术,大数据云服务系统可针对多种数据信息处理、虚拟计算机运行负载等的任务,进行用户身份验证、数据处理与传输审计的安全管理,以及实时任务执行监测、故障统计,完成多种分布式计算、数据分类存储与管理的工作,以保证系统运行的安全性。
参考文献
[1]罗田琪.大数据时代背景下计算机信息处理技术的分析[J].电子元器件与信息技术,2021(1):64-65.
[2]熊殿华.基于计算机数据处理接口程序的应用研究[J].西安文理学院学报(自然科学版),2016(4):31-33.
[3]邱火旺,陈文富.大数据技术的应用难点与问题分析[J].电脑编程技巧与维护,2019(5):83-84;113.
《基于大数据的计算机信息数据处理技术研究》来源:《现代工业经济和信息化》,作者:孙宇轩