大数据这个术语最早期的引用可追溯到 Apache 软件基金会的开源项目 Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集[1]。早在 2008 年 Nature 就出版了专刊“Big Data”,从网络经济学、超级计算、互联网技术、生物医药、环境科学等多个方面介绍了海量数据带来的挑战;2011 年 Science 推出数据处理的专刊“Dealing With Data”,深入讨论了数据洪流(data deluge,DD)所带来的挑战,并指出如果能够更有效地组织和利用这些海量数据,人们将得到更多的机会发挥科学技术对推动社会发展的巨大作用;2012 年奥巴马宣布美国政府投资 2 亿美元启动“大数据研究和发展计划”,将大数据比喻为“未来的新石油”,将对大数据的研究上升为国家意志,掀起了世界各国大数据的研究热潮[2-7]。
大数据的定义,业界虽然有一些共识,但是并未有统一的定义。麦肯锡认为“大数据是指其大小超出典型数据软件抓取、储存、管理和分析范围的数据集合”;Gartner 认为“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”[1]。在对大数据的定义中,比较有代表性的定义是 3V 定义,即规模性(Volume),多样性(Variety)和高速性 (Velocity),规模性是指数据量庞大,数据洪流已经从 GB、TB 级上升到 PB、EB、ZB 级;多样性是指数据类型繁多,并且包含结构化、半结构化和非结构化的数据;高速性则是指数据以数据流的形态快速、动态的产生,数据处理的速度也必须达到高速实时处理[7-12]。另外大数据第 4V 的讨论并没有取得一致的结论,国际数据公司(international data corporation,IDC)认为大数据应该具有价值性 (Value),且价值密度稀疏;IBM 则认为大数据的第 4V 特性是真实性(Veracity)[8]。大数据的这些特点决定了在大数据时代,传统的数据处理技术必需有革命性的提升。
1 智能电网、云计算和大数据的关系
1.1 智能电网与大数据的关系智能电网就是将信息技术、计算机技术、通信技术和原有输、配电基础设施高度集成而形成的新型电网,具有提高能源效率、提高供电安全性、减少环境影响、提高供电可靠性、减少输电网电能损耗等优点[11]。智能电网的理念是通过获取更多的用户如何用电、怎样用电的信息,来优化电的生产、分配及消耗,利用现代网络、通信和信息技术进行信息海量交互,来实现电网设备间信息交换,并自动完成信息采集、测量、控制、保护、计量和监测等基本功能,可根据需要支持电网实时自动化控制、智能调节、在线分析决策和协同互动等高级功能,因此相关研究者指出:可以抽象的认为,智能电网就是大数据这个概念在电力行业中的应用[12]。
1.2 大数据与云计算的关系根据美国国家标准与技术研究院的定义,云计算是一种利用互联网实现随时、随地、按需、便捷地访问共享资源池(如计算设施、应用程序、存储设备等)的计算模式[13]。从技术上看,大数据根植于云计算,云计算的数据存储、管理与分析方面的技术是大数据技术的基础。利用云计算强大的计算能力,可以更加迅速地处理大数据,并更方便地提供服务;通过大数据的业务需求,可以为云计算的发展找到更多更好的实际应用[14]。云计算使大数据应用成为可能,但是没有大数据的信息沉淀,云计算的功能将得不到完全发挥,所以从整体上看,大数据与云计算是相辅相成的[15]。
1.3 智能电网、云计算、大数据的相互关系图 1 简要描述了智能电网、云计算、大数据三者之间的相互关系。云计算能够整合智能电网系统内部计算处理和存储资源,提高电网处理和交互能力,成为电网强有力的技术组成[16];大数据技术立足于业务服务需求,根植于云计算,以云计算技术为基础;智能电网可以抽象的认为是大数据这个概念在电力中的应用[12],所以三者是彼此交互的关系。智能电网、云计算、大数据三者之间的关系,从更加深层次来讲,是电力系统发展到不同阶段的产物,具有代纪传承的特点。图 2 从代纪传承的角度描述了三者之间的相互关系。
2 电力大数据平台的总体架构
Apache 基金会开源技术通用的大数据平台整体架构如图 3 所示[17]。该架构具有较好的通用性,适用于电力企业大数据的规划,其主要思想是利用基于 Hadoop 文件系统(Hadoop distributed file system,HDFS)的分布式文件处理系统作为大数据的存储框架,利用基于 MapReduce 的分布式计算技术作为大数据的处理框架。以分布式文件处理技术为基础,使 PB、ZB 级的数据存储成为可能;以分布式计算技术为基础,使得 PB、ZB 级数据的查询分析成为可能。另外该框架中还包含商业智能应用、传统的数据仓库、大数据访问框架、大数据调度框架、网络层、操作系统、服务器、备份和恢复、数据管理等模块。
大数据存储框架和大数据处理框架通常构建在通用的服务器、操作系统或者虚拟机上,使得该架构所需的硬件具有低成本和高扩展性的特点,标准的普通服务器或者 PC 机即可成为基于该架构的终端构成单元。大数据存储框架和大数据处理框架之上是通过网络层连接的大数据访问框架,该访问框架包含并行计算机编程语言 Pig、数据仓库工具 Hive、开源数据传递工具 Sqoop 等子模块。
3 电力大数据关键技术
3.1 电力大数据的集成管理技术电力企业数据集成管理技术是合并来自 2 个或者多个应用系统的数据,创建一个具有更多功能的企业应用的过程。从集成的角度来说,就是把不同来源、格式、特点、性质的数据在逻辑上或者存储介质上有机地集中,为系统存储一系列面向主题的、集成的、相对稳定的、反映历史变化的数据集合,从而为系统提供全面的数据共享。电力企业集成管理技术就是为解决电力企业内部各系统间的数据冗余和信息孤岛而产生的[18]。
3.2 电力大数据的数据分析技术大数据技术的根本驱动力是将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动[12]。借助电力大数据的分析技术可以从电力系统的海量数据中找出潜在的模态与规律,为决策人员提供决策支持。麦肯锡认为可用于大数据分析的关键技术源于统计学和计算机科学等学科,包含关联分析、机器学习、数据挖掘、模式识别、神经网络、时间序列预测模型、遗传算法等多种不同的方法[19]。大数据研究不同于传统的逻辑推理研究,是对巨大数量的数据做统计性的搜索、分类、比较、聚类等的分析和归纳,因此继承了统计科学的一些特点,如统计学关注的数据相关性或称关联性,所谓 “相关性”是指 2 个或 2 个以上变量的取值之间存在某种规律性[7]。“相关分析”的目的是找出数据集里隐藏的关系网,一般用支持度、可信度、兴趣度等参数反映相关性[7]。
3.3 电力大数据的数据处理技术电力大数据的数据处理技术包括分布式计算技术,内存计算技术,流处理技术等,这 3 种技术适用的对象和解决的主要问题如图 5 所示。分布式计算技术是为了解决大规模数据的分布式存储与处理。内存计算技术是为了解决数据的高效读取和处理在线的实时计算。流处理技术则是为了处理实时到达的、速度和规模不受控制的数据。
4 大数据在智能电网中的应用案例
电力大数据的应用场合涵盖发、输、变、配、用、调等电力行业的各个环节,在风电场选址、降低网损、风电并网、电网安全监测、大灾难预警、电力企业精细化运营、电力设备状态监测等领域有非常强的可实现性。随着智能电网建设的进一步推进,大数据技术在智能电网中将发挥越来越大的作用。下面通过几个典型应用案例进一步阐述大数据在智能电网中的应用前景。
1)IBM 大数据技术在新能源接入中的应用。在电力生产环节,随着新能源大量接入,打破了相对静态的传统电力生产,使得电力生产的管理和计量变得日趋复杂[10]。大数据技术能为电力企业做出更好的预测。丹麦的维斯塔斯风力技术集团,通过在世界上最大的超级计算机上部署 IBM 大数据解决方案,得以通过分析包括 PB 量级气象报告、潮汐相位、地理空间、卫星图像等结构化及非结构化的海量数据,从而优化了风力涡轮机布局,提高风电发电效率。
2)大数据技术在风电机组安全状态评估中的应用。风电机组运行环境非常恶劣,受雷雨、盐雾、冰雪等因素的影响[35]。采用基于大数据挖掘技术的风电机组安全经济运行状态综合评估系统,监测零部件磨损、疲劳等原因引起的状态变化信息,并由此识别和预测风电机组设备或者零部件的故障,提高机组的运行安全性,避免早发故障导致的更为严重的故障,并降低运维费用。基于大数据分析的风电机组潜在故障早期预警流程图如图 7 所示[35]。该预测系统以设备历史数据和在线实时监测数据为基础,通过设备属性配置定义创建设备超球模型,并用该模型在在线超球模型中评估设备状况。在线评估模型的输出是相似度曲线,用于关联点排序、状态预警和测点值的预测。
3)大数据技术在电网灾难预警中的应用。随着电网日益增加的复杂性和不断变化的自然环境,电力系统中的灾难性连锁事故频繁发生,这些灾难性连锁事故大多数始于系统某个元件故障[36]。大规模停电事故初期往往是少量元件相继故障,在事故扩大阶段则与电力系统中的脆弱环节有紧密的联系,因此从整体预防的角度出发,通过大数据技术辨识电力网络中的脆弱环节对提高电力系统的可靠性,降低大规模停电事故的发生概率有重要意义[37-38]。一个典型的基于大数据的电网灾难预警系统框架如图 8 所示[38]。该框架以电网拓扑数据、地理信息数据、电网运行数据为数据基础,在算法模型层通过判据指标计算获得判据指标库,通过原因寻找引擎获得原因分析树,通过评价指标计算获得评价指标库。以此为基础,在业务层通过薄弱区域识别、薄弱区域原因分析,并联合判据层的评价指标库,给出综合预警结果[38]。
5 结论与展望
本文探讨了大数据、云计算、智能电网三者之间的相互关系,并给出电力大数据的总体可执行框架,对电力企业大数据平台的搭建具有参考价值。本文阐述了电力大数据平台中 4 个核心的关键技术,即集成管理技术、分析技术、处理技术、展现技术。大数据的集成管理技术应该考虑关系型和非关系型数据库技术的综合应用,并重点考虑 NoSQL 数据库技术;大数据的分析技术应从大数据的治理与抽样、大数据特征选择、大数据小数据化、大数据的分类算法、大数据挖掘并行化等方面开展研究;大数据的处理技术应根据具体的应用需求考虑分布式计算、内存计算、流处理等技术;电力大数据的数据展现技术可考虑可视化技术、空间信息流展示技术、历史流展示技术等。文章最后的典型应用案例,对电力企业开展相关研究具有参考价值。
大数据技术可以在 5 个方面创造价值,分别是:创建透明度,让利益相关方更加容易的获取信息;通过试验来发现需求,暴露可变因素并提高业绩;根据客户需求细分人群;通过自动化算法替换或者支持人为决策;创新商业模式、产品和服务。大数据技术在商业领域已经获得较为广泛的应用并创造出巨大的商业价值,但是在电力系统中的应用才刚刚起步,因此结合大数据的技术优势和电力系统的应用需求,发挥电力大数据的价值,将为智能电网的建设带来新的发展契机。电力企业应该牢牢抓住这个契机,从数据政策、人才培养、关键技术研发等层面,全面促成电力大数据技术的发展。
参考文献
[1] Gartner.Top ten strategic technology trend for 2012 [EB/OL].(2011-11-05)[2014-08-17].http://www.gartne r.com.
[2] Birney E.The making of ENCODE:lessons for big-data projects[J].Nature,2012(489):49-51.
[3] 张东霞,苗新,刘丽萍,等.智能电网大数据技术发展研究[J].中国电机工程学报,2015,35(1):2-12. Zhang Dongxia,Miao Xin,Liu Liping,et al. Research on development strategy for smart grid big data[J].Proceedings of the CSEE,2015,35(1):2-12(in Chinese).
《面向智能电网应用的电力大数据关键技术》来源:《中国电机工程学报》,作者:彭小圣 1 ,邓迪元 1 ,程时杰 1 ,文劲宇 1 ,李朝晖 1 ,牛林 2