大数据技术的兴起已引起电力系统各领域的高度关注,2013 年《中国电力大数据白皮书》[1]的发表,为我国电力大数据技术的发展指明了方向。以此为契机,相关技术研究和应用尝试日益活跃[2-8],统一的电力大数据平台也已在设计、开发之中。大数据具有 4V 特征,强调跨领域、多类型数据的融合与利用[9-15],其以云计算为基础,在理论研究和实际应用方面涉及一系列软硬件技术的进步[16-22]。电力大数据技术是大数据在电力行业的应用和发展,包括有分布式存储、并行计算,以及各种分析算法等组件,并充分吸收电力系统云计算的先进成果[23-28]。
最终实现大数据技术在电力系统的全面应用,从电力系统各子领域出发的研究和实践是必经之路。这些子领域中的数据通常也具有多类型、分散和未充分利用的特征,借助大数据技术既可促进子领域的技术进步,也能够在一个较小的、可控的范围内验证、发展电力大数据技术,并为最终的多领域融合作好准备。事实上,大数据的含义也在不断演变中,正是在与各类实际问题的互动过程中,才真正具有活力。
本文以电力大数据技术的基本支撑为前提,着重探讨了电网仿真数据的特征,以及大数据技术与电网仿真计算相结合时可适用的问题和研究重点。
1 数据特征
电力系统仿真计算数据属于结构化数据,主要特点有: 1)多类型异构。不同计算软件、不同类元件、同一元件的不同模型,以及不同类计算结果的数据结构差异较大; 2)在线计算数据与离线计算数据的同质性。电力系统仿真中的在线数据通常由量测信息与离线计算数据拼合而成,数据结构相似,因而数据分析的研究成果具有在 2 种数据上通用的可能; 3)存储方式多样。在线数据通常是集中存储、定期更新,而大部分离线数据则分散于工作人员的个人计算机中; 4)体量巨大。随着智能电网调度技术支持系统 (简称 D5000)的广泛使用,在线计算数据飞速积累,体量上将可达到 PB 级别。虽然离线计算原始数据的单一体量较小,但分析计算产生的结果数据体量巨大。例如,对 10000 节点电网全网母线进行短路电流扫描并计算各母线故障下的全网电压,将会产生 1×109个母线电压结果,数据文件达到 GB 级。此外,同电力系统的其他领域相比,仿真计算在大数据研究方面具有一个独有优势,即仿真计算本身就可以产生丰富的、高质量的数据,受历史积累、系统量测,以及数据源不足的限制相对较小。
2 适用问题
2.1 仿真计算数据的统一管理电力系统仿真计算数据按来源主要分为在线和离线 2 大类。目前,在线数据主要存储于能量管理系统(energy management system,EMS),离线数据主要由计算人员本地管理。为了统一电网计算数据,提高数据质量,省级以上电网公司已陆续建立了数据中心[37],但其管理范围仅限于部分电网仿真标准公用数据。电力大数据技术既适用于大规模数据的集中存储,也能将数据管理延伸到分散的计算端和存储端。同时,其还能提供数据清洗、整合等各种基本服务,并为实现仿真数据与其他领域数据的融合奠定基础。
2.2 仿真计算中间结果利用电力系统仿真计算较多地涉及非线性方程和微分方程求解,二者都涉及迭代计算。现有的各种算法在应用于实际大系统计算时,常会出现计算失败或结果异常的情况,如潮流计算不收敛[38-40],或是得到不合理解。对仿真计算中间结果进行数据分析,通过观察计算收敛的变化过程,确定关键影响因素,将有助于在计算过程中制定有效的调整方案,提高迭代计算的收敛性和鲁棒性,进而推进仿真计算技术的进步。
2.3 时域仿真结果应用在常规的电力系统时域仿真中,多关注扰动发生后系统能否保持稳定,即最终的仿真结果。但随着我国电网规模的扩大和电压等级的升高,系统中出现了一些涉及范围广、失稳时间长的问题,如低频振荡[42]。在时域仿真中,元件模型的所有变量通常都可以计算并输出。利用这些数据,能够实现对电力系统动态过程的精细观察,通过与描述系统演变的数学、物理方法相结合[43-46],从多方面掌握系统在空间和时间上的变化情况,进而提取运行规律、模式,加深运行人员对系统动态特性的理解。
3 研究重点
3.1 总体思路实现大数据技术与电力系统仿真计算结合的首要条件是建立电力大数据平台,解决单机用户在数据存储、计算能力等方面无法自行克服的问题。在此基础上,可结合系统仿真的技术背景、研究目的和数据特点,从专业角度出发采取理论研究与应用开发相结合的方式开展工作。就第 2 节中所提出的几个适用问题而言,其研究范围主要包括分析模型建模、分析方法本地化,以及实际应用等方面。
3.2 分析模型建模在分析模型建模方面的首要问题是特征量(样本属性)的选取,主要包括特征初筛和压缩。在初筛中确定与问题可能相关的特征量,而后再根据需要进行数据压缩。目前,在与系统仿真相关的领域,对该问题的研究已有较多成果[54-58],结合大系统仿真数据分析的需求,可在以下方面推进研究工作: 1)借鉴现代稳健回归[59-60]思想,采用抗扰性强、效率高的统计量表征系统状态变量的整体情况,从而提高初始特征量的质量,如用中位数代替平均值、使用 M 估计等。文献[61-63]研究了稳健回归在电力系统中的应用; 2)基于核方法,在核空间中进行数据的主成分分析,提升数据压缩和主导特征值提取的效果,文献[64-66]讨论了该方法; 3)电网仿真数据中包含有大量信息,而现有方法中的初始特征量通常由人工给出,有可能存在遗漏或干扰。基于已有知识自动生成或筛选初始特征量是解决该问题的一条可能途径。专家系统[67] 是将形式化建模的先验知识应用于实际问题的成熟方法,但如何将其或类似方法应用到初始特征量选取还需进一步研究。需要注意的是,对信息的压缩通常会导致信息的损失,因此在计算能力允许的情况下,应尽可能减小压缩量或不压缩。大数据平台的应用可以放宽对特征量筛选和压缩的要求。
3.3 分析方法本地化在分析算法方面,主要涉及机器学习、数据挖掘、人工智能等领域,这其中的大部分算法实质上是相通的。在与电网问题相结合上,相关研究主要包括结合电力系统仿真分析特点,进行算法自身改进和算法融合 2 个方面,目前已有许多成果[29-36,68-71],后续可继续关注的方面有: 1)以 Hadoop、MapReduce 等并行数据处理框架为基础,进一步实现算法运算和数据处理的并行化,文献[72-76]对大数据环境下的此类问题进行研究; 2)常见学习算法的训练通常都已较为成熟,但某些方法的参数选择却较为困难,如各种基于核函数的算法,文献[71,77-80]从不同角度对此进行了研究; 3)已有成果中,算法的评估多采用算例结果有效性评价方式,对算法性能和结果可信度的反应不够全面,应加强相关的理论分析,如计算复杂度、出错界限等[81]。
4 引入大数据技术可能带来的问题
大数据技术与电力系统仿真相结合也会带来一些问题,除了一般性的资源占用过多、重复发现已有知识等不利影响外,还包括有: 1)边际效应。大型电网分析系统一般都是分阶段建立的,在经过最初的高产出比阶段之后,各种资源的新增投入与数据分析效果提升的比值将会越来越大,直至失去技术经济意义; 2)数据共享。实际电力系统仿真数据有保密要求,一般用户很难获得。而大数据技术的引入需要有众多的参与者,在无法获得足够样本的情况下,大量研究工作难以展开; 3)“正确的”错误。在没有模型、算法错误的前提下,数据分析发现的关联也有可能只是表面现象,如关联是偶然的,或者中间存在诸多环节、不具有实际价值等。冒然使用这样的结果,可能会对电网运行安全造成不利影响; 4)决策困境。数据分析和仿真计算的结论可能会不一致,如果按“最严重”标准选取结果,可能会导致付出不必要的代价。针对上述问题,可进行的工作有: 1)开展“预言性数据分析问题”研究[9],确定解决目标问题所需的数据量,对资源投入和数据分析效果作出合理预估,从而指导系统的构建。目前尚缺乏这方面的深入探讨和实际应用。 2)将共享数据改为传递算法,即建立开放性的算法研究平台[90],研究者将其数据分析程序传递到平台上进行验证; 3)对于问题 3 和 4,最根本的解决途径是结合已知的电力系统物理特性,对数据分析结论进行合理解释,包括其背后的因果联系、适用条件、成立概率等。在此基础上可以剔除无用的分析结果并逐步建立对大数据技术的信心。
5 展望
随着技术的成熟,未来电力大数据平台将会与EMS、ERP 等系统类似,成为电力系统规划、设计、运行、管理的一个“基础设施”。电网各领域看待问题的视角将会由当前的信息和结果,逆着数据变化的趋势向问题的源头溯源移动。同时,也会依从数据变化的规律,探索其新的趋向,发现潜藏于其中的未来景象。
综上所述,大数据技术与电力系统仿真的结合将能够为系统分析提供新的手段、视角,甚至于方法。本文基于对仿真分析和电力大数据的认识,探讨了该方面研究可能的思路和要点,后续将在此基础上进一步开展具体工作。本文的研究也可为电力大数据涉及的其他相关领域提供积极的参考。
参考文献
[1] 中国电机工程学会信息化专委会.中国电力大数据发展白皮书(2013)[R].北京:中国电机工程学会,2013. Chinese society for electrical engineering informatization committee.Chinese electric power big data development white paper(2013)[R] . Beijing : Chinese society for electrical engineering,2013(in Chinese).
[2] 宋亚奇,周国亮,朱永利.智能电网大数据处理技术现状与挑战[J].电网技术,2013,37(4):927-935. Song Yaqi,Zhou Guoliang,Zhu Yongli.Present status and challenges of big data processing in smart grid[J].Power System Technology,2013,37(4):927-935(in Chinese).
《电力大数据技术与电力系统仿真计算结合问题研究》来源:《中国电机工程学报》,作者:黄彦浩,于之虹,谢昶,史东宇,周孝信