基于在线附加Q学习的伺服电机速度最优跟踪控制方法
阅读会议通知,请戳上面标题 ▲
分析智能配电系统发展趋势
研讨配电物联网对装备制造业的挑战和机遇
参会注册,请识别下方二维码 ▼
清华大学电机工程与应用电子技术系、陕西航空电气有限责任公司、圣彼得堡彼得大帝理工大学圣彼得堡的研究人员邹晓敏、肖曦、何琪、Shkodyrev Vyacheslav,在2019年第5期《电工技术学报》上撰文,该文将在线Q学习方法与附加控制思想相结合,讨论了其在伺服系统中电机速度最优跟踪控制问题上的应用。
首先在线性二次型跟踪器问题的框架下对待求解问题进行了定义;然后给出了在线附加Q学习迭代式地进行策略评价、策略改善的具体算法。仿真测试中,首先为电机速度跟踪问题设计了传统的PI控制器,然后将基于该文思路所设计的附加控制器与其并联,组成新的速度控制器。
仿真结果表明,附加控制器显著改善了电机速度跟踪的动态响应特性,并且具备在被控系统参数发生改变时自动调优的自适应能力。非线性系统在特定条件下可进行局部线性化时,也可用该方法来得到更优的控制性能。
在工业应用场景中,跟踪控制问题无处不在,如化工生产中的温度控制、浓度控制,伺服系统中的速度控制、位置控制等。提高跟踪控制器的控制性能有利于工业系统朝着精密化、节能化的方向发展。为研究如何实现最优跟踪控制,学界提出了线性二次型跟踪器(Linear Quadratic Tracker, LQT)问题。
该问题的目标是设计一个控制器,使得在该控制器作用下系统输出在某个线性二次型指标下性能最优。传统的LQT解法包含两个步骤:首先求解代数黎卡提方程(Algebraic Riccati Equation, ARE)得到一个反馈项,然后求解一个非因果的微分方程得到一个前馈项[1]。该解法一般需要离线进行,且需要知道被控系统的动态模型。
为了扩大LQT的应用范围,使其在系统动态模型未知的情况下也能得到最优控制输出,人们尝试将自适应动态规划(Adaptive Dynamic Programming,ADP)的思想(文献[2]中也称其为强化学习(Reinforcement Learning, RL))应用到LQT问题中。
Q学习算法是ADP方法中较为流行的一种,已有大量研究将其用在了线性二次型调节器(Linear Quadratic Regulator, LQR)问题的求解上。该算法属于一种策略迭代(Policy Iteration)式的算法,它的应用不需要知道被控系统的动态模型。
然而,相比于LQR问题,LQT问题中前馈项的计算带来了额外的复杂度,因此Q学习在LQT问题中还未能得到大量的应用。文献中已有的应用案例也往往附带了某些前提条件,如要求系统动态模型已知等[5]。文献[4]提出了一种将Q学习应用于离散线性系统最优跟踪控制的方法,并给出了理论上的收敛性证明。该算法可在线运行,并且将系统模型的辨识包含在了策略迭代的过程中,因此不需要知道系统的动态模型即可达到线性二次型指标下的最优控制。
值得指出的是,目前基于ADP思想的控制方法具有对噪声干扰敏感、收敛性差、运行工况受限、运算量大的缺点,这些都限制了它们在实际控制器中的应用。在实际应用中,一般被控系统都已经预先拥有可用的控制器,只是该控制器的控制性能需要得到改善。
为充分发挥ADP控制方法的自适应性与原控制器的稳定性,赋予原控制器在线学习的能力,近年来有学者提出将基于ADP思想的控制器作为附加控制器与原控制器并联使用,取得了一定的效果。
在电力系统控制领域,文献[6]将附加学习控制用于含大规模风电的电力系统中传统火电机组的附加频率控制,文献[7]将附加学习控制用于双馈风电场的暂态无功控制。在电力电子领域,文献[8]将附加学习控制用于并联型有源电力滤波器的控制,文献[9,10]将附加学习控制用于虚拟同步机的控制。在以上文献的仿真验证中,附加学习控制均带来了一定的控制性能提升。
速度控制是交流电机伺服系统中的一个重要问题,传统上多采用PID控制。在电机运行过程中,转动惯量、转矩环时间常数等参数均容易发生一定的变化,影响速度环的控制性能。因此在要求高精度的场合中,传统的PID控制无法满足需要,往往需要对速度控制器做自适应设计。
常见的自适应设计方法有非线性PI控制、自适应控制、自抗扰控制、模糊系统、滑模控制等。其中非线性PI控制包括PI参数自整定、变结构PI控制等。部分PI参数自整定的研究用到了ADP思想,即通过某种逼近结构(如神经网络)对系统进行建模,再根据某种代价函数动态地调整Kp、Ki,一般用于控制难以建模的电机(如开关磁阻电机)。虽然对于速度环的改进方向已经很丰富,然而目前将Q学习与附加学习相结合用于电机速度控制的研究还非常之少。
本文在文献[4]所提的用于跟踪控制的Q学习方法的基础上,结合附加控制的思想,提出了用于跟踪控制的在线附加Q学习方法。首先在LQT问题的框架下对待求解问题进行了定义;然后针对性地给出了在线附加Q学习迭代式地进行策略评价、策略改善的具体算法。
为验证所提算法的有效性,选取伺服系统中电机速度跟踪这一实际问题进行仿真。首先为被控系统设计了传统的PI控制器,然后将本文所提出的附加控制器与其并联组成新的控制器,最后通过仿真对不同参数设置下的控制效果进行了分析。
图1 附加Q学习最优跟踪控制器结构示意图
图2 附加控制下电机速度环结构框图
本文将在线Q学习最优跟踪控制方法与附加控制思想相结合,讨论了其在线性离散系统无模型化跟踪控制问题上的应用。对于电机速度跟踪这一实际问题,首先为其设计了传统的PI控制器,然后设计了基于在线Q学习的附加控制器与原控制器并联。仿真结果表明,这一做法显著改善了电机速度跟踪的动态响应特性,并且具备在被控系统参数发生改变时自动调优的自适应能力。
虽然本文的研究基于线性系统,但实际生产中有大量的非线性系统在特定条件下可以进行局部线性化,此时即可用本文方法来处理。当检测到系统进入不可线性化的区域时(如PI发生饱和时),可停止附加控制的输入,此时可通过原控制器继续维持系统在不可线性化区域的稳定运行。