液位控制是工业领域最常见的过程控制问题,例如在饮料食品、化工生产、核电站等各种行业的生产加工过程中都需要对反应容器液位进行适当控制,而工业生产过程往往是繁杂的,控制变量具有多阶性、非线性、强耦合等特点[1-3].因此,为了贴近生产实践,本科及研究生控制类课程往往将液位控制问题作为典型案例引入课堂.本文在调研了饮料、食品加工、化工生产等多种行业生产过程中液位控制的基础上,进行合理简化,设计了一套适用于本科、研究生控制类课程教学的液位控制实训装置.该装置采用模块化设计,具有配置灵活、操作方便等优点,可为《自动控制原理》《过程控制》《PLC控制》《线性控制理论》和《智能控制》等本科及研究生课程的教学及实训服务.同时针对提出的装置,采用机理分析法得出装置数学模型.
1双容水箱液位控制实训装置及实验项目设计
1.1双容水箱液位控制实训装置
双容水箱液位控制实训装置硬件结构如图1所示,主要由2个柱形水箱,1个蓄水箱,2个进水控制阀,1个连通阀和2个储水调节阀组成.控制系统通过液位传感图1双容水箱液位控制实训装置结构示意图器采集水箱液位信息,经过一定控制算法,向电磁阀发出一定电压信号,调节阀门开度,从而调节管道流量.控制系统可以用单片机、PLC和上位机等方式实现,以满足多课程实训的需要.
1.2实验项目设计举例
该实训装置具有很强的灵活性,可以调整各阀门的通断与否、控制与否等配置出多种实验项目,以模拟出各种实际生产过程中场景.本文略举几个例子如下.例1出水随机的单容水箱灌装系统对某些特殊液体的灌装,要求贮液缸内存在等压的气相区和液相区,贮液缸内液位的变化会直接影响到机器的正常运转和机器的生产能力,以至影响产品的质量和产量,譬如啤酒灌装机.这些场景的实际问题都可看作是出水随机的单容水箱灌装系统液位控制问题.该系统可由双容水箱实训装置的1个水箱,1个液位传感器,1个出水阀门,1个入水阀门以及控制系统组成.被控量是液位,控制量是进水阀门的开度.控制器根据液位传感器检测的液位信号与设定值之间的偏差发出电压信号,调节进水阀门的开度,从而调整水箱入水量,使得液位保持在设定值,同时控制器可以向出水阀门发出一定的电压信号,模拟随机出水干扰.实验内容是设计合适的控制器,在出水存在干扰的情况下,调节入水流量,使得液位维持在1个设定值.同理,我们调换上述系统出水阀和进水阀的角色,很容易改造成随机进水的单容液位控制装置.例2单一进水的双容水箱排液系统在实际排液系统中,当在用水流量比较大的情况下,为了平抑液位的过快变化,系统往往需要再添加1个储水箱,这些场景的实际问题都可看作是单一进水的双容水箱排液系统液位控制问题.该系统可由双容水箱实训装置的2个水箱,2个液位传感器,1个出水阀门,1个入水阀门,1个连通阀门以及控制系统组成.被控量是2个液位,控制量是进水阀门S1的开度和连通阀门S3的开度.控制器根据液位传感器检测的液位信号与2个液位设定值之间的偏差发出电压信号,调节进水阀门S1的开度和连通阀门S3的开度,从而调整水箱入水量和2个水箱之间的流通量,使得液位保持在设定值,同时控制器可以向出水阀门发出一定的电压信号,模拟随机出水干扰.
2水箱液位控制实训装置数学模型
2.1单容水箱控制实训装置数学模型
为了更好理解双容水箱液位控制装置模型,先讨论单容水箱液位控制装置的物理机理,其结构如图2所示.Qi是进水流量,Qo是出水流量,h是液位高度,为被控变量,其变化与Qi和Qo有关.根据流量平衡原理可得:Adhdt=Qi-Qo(1)式中A是水箱截面积.ΔQi是进水阀门S1的开度u引起的,当阀门前后无压力差时,可得:ΔQi=KuΔu(2)其中Ku是阀门的流量系数.ΔQo是出水阀门S2的开度引起的,但当阀门前后存在压力差时,根据流体力学中的伯努利方程,可得:Δν22+gΔz+Δpρ+hf=0(3)式中△ν2是入水截面1水流速度νin的平方与出水截面2水流速度νout的平方之差,△z是入水截面1与出水截面2之间的高度差,△p是入水截面1与出水截面2之间的压力差,hf=ξν2out2f表示水头的损失.在这里由于入水截面面积远远大于出水截面面积,νin可被忽略.则整理可得:νout=kh.因此出水流量可表示为:QO=αUh(4)其中U表示施加在出水阀门上的电压,α是阀门节流系数,在阀门的线性区域,是一个常系数.将(4)代入(1)可得单容水箱液位控制装置的数学模型为:Adhdt=Qi-αUh(5)
2.2双容水箱控制实训装置数学模型
以图1为例,讨论双容水箱控制实训装置实训模型.参照上述单容水箱的分析,应用伯努利方程和动量守恒定理,可推导出连通阀门的流量与两侧水箱间的高度差的平方根成正比,即:Q12=α3U3h1-h2(若选取2个水箱的液位高度h1和h2为状态变量,2个水箱的进水流量Qi1和Qi2为输入量,其受施加在进水阀门上电压的线性控制,因此实际的控制量是电压.假设阀门S3,S4和S5开度固定,因此可推导出双容水箱控制实训装置数学模型为[4]:
3基于强化学习的智能控制算法研究
强化学习是在与环境的互动中为了达成一个目标而进行的学习过程,包括智能体(Agent)、环境(Envi-ronment)和目标(Goal)3个基本元素.强化学习的学习过程是处在某一初始状态S0的智能体为了达到目标,采取一序列行动(Action),与环境互动后可获得与当前状态和所采取的行动有关的奖励(Reward)并折现累加,同时智能体转移到新的状态S1,如此进行下去,直至达到目标状态.从同一初始状态出发,可能有若干条行动系列路径可达到目标状态,强化学习的目的是通过不断“试错”,找到累加奖励最大的行动序列,称之为最优策略[5].因此,强化学习算法主要是解决序列决策过程中的最优策略选择问题.寻找最优策略的过程就是一个马尔可夫决策过程(MarkovDecisionProcesses,MDPs),其可表示为:M=,其中S表示有限状态集合,A代表可执行行动集合,Ps's,a表示从s采取行动a转移到s'的概率,R表示采取某个动作后的即时奖励,γ表示折现系数.为了实现基于强化学习的智能控制算法,首先采用离散化方法,定义了一个双容水箱液位系统的马尔可夫决策过程M=,H=h1(m)h2(n)[]T:1⩽m⩽N1,1⩽n⩽N{2}表示以2水箱液位高度h1,h2为状态变量构成的状态空间,连续的高度变量h1,h2分别被离散成N1和N2个等级,因此状态空间的状态个数为N1×N2;Q=q1(m)q2(n)[]T:1⩽m⩽M1,1⩽n⩽M{2}表示以2水箱的进水流速离散化后构成的可执行行动空间,可执行行动个数为M1×M2;Php表示状态转移方程,可由式(7)离散化得到,其作用是根据当前状态Hi和当前所采取的行动a确定下一个状态Hi+1;γ表示折现系数,取0~1之间的某一常数;R(H)表示当前状态反馈的奖励,本文奖励函数选择为:R(H)=-CHd-H(8)其中:Hd表示期望的目标状态;H表示当前状态;C为一个大于0的实数.定义了MDPs后,假设系统从某一初始状态H(0)=h1(0)h2[(0)]T开始,控制执行了一行动序列Qi(0),Qi(1),Qi(2)……,即所谓的策略π,使系统经过一序列状态转移H(0),H(1),H(2)……,直至达到期望目标状态Hd,在此过程中,我们定义获得总回报的期望为价值函数:Vπ(H)=E[R(H(0))+γR(H(1))+γ2R(H(2))+…H(0)=H,π](9)强化学习的目的是利用Bellman方程找到状态空间中每个状态对应的最优价值函数:V*(H)=maxπVπ(H)=R(H)+maxγπV*(H')(10)然后,根据最优价值函数确定最优策略,即使价值最大化所采取的策略,定义为:π*(H)=argmaxq∈QV*(H')(11)在强化学习中,为了找到最优价值函数和最优策略,有值迭代(Valueiteration)和策略迭代(Policyiteration)2种方法.在随后的控制过程中,控制器根据当前状态及最优策略决定发出的控制指令,从而实现最优控制[6].
4仿真分析
为了验证本文提出的基于强化学习智能控制算法的可行性和优越性,搭建了一个式(7)表示的双容水箱液位系统.假设水箱的最高液位为10m,水箱1的进水最大流速为20m3/s,水箱2的进水阀门关闭,不参与液位调节.选取式(8)为奖励函数,其中C取100.将高度变量和流速变量离散化(N1=20,N2=20,M1=30),因此对马尔可夫决策过程来说,有400个状态和30个可执行行动.最后在matlab平台上编写M文件24赣南师范大学学报2022年最优价值函数和最优策略的搜寻,并利用最优策略调节液位高度.图3强化图3所示为以Hd=[73]T为期望目标状态的强化学习结果,图3(a)表示各个状态对应的最优价值函数,图3(b)表示各个状态对应的最优策略.图4所示为基于强化学习智能算法控制器作用下的状态响应过程.由图可知:系统状态(液位高度)能快速到达期望值,且过冲很小,无明显振荡过程.但存在一定静差,这是离散化固有的量化误差造成的,可以通过采用更精细的量化来降低,但会大大增加强化学习过程的运算量,有文献提出对强化结果进一步使用神经网络训练来降低量化误差.
5结语
大多数工业过程都具有固有的非线性,经典控制策略使用线性化模型进行控制器设计,所以其在最优控制方面并不有效.本文提出一种基于强化学习的控制策略,用于控制非线性相互作用的液位系统.该策略充分考虑系统的非线性特性,利用强化学习方法的最优决策能力,可以通过设定不同的控制目标,实现不同方面的最优控制.仿真表明:该策略可以获得较好的控制效果,其振荡和超调都很小.
《双容水箱液位智能控制实训装置研究》来源:《赣南师范大学学报》,作者:赖小华