基于在线附加Q学习的伺服电机速度最优跟踪控制方法

会议通知︱2019智能配电技术研讨会

阅读会议通知,请戳上面标题  ▲

分析智能配电系统发展趋势

研讨配电物联网对装备制造业的挑战和机遇

参会注册,请识别下方二维码  ▼

摘要

清华大学电机工程与应用电子技术系、陕西航空电气有限责任公司、圣彼得堡彼得大帝理工大学圣彼得堡的研究人员邹晓敏、肖曦、何琪、Shkodyrev Vyacheslav,在2019年第5期《电工技术学报》上撰文,该文将在线Q学习方法与附加控制思想相结合,讨论了其在伺服系统中电机速度最优跟踪控制问题上的应用。

首先在线性二次型跟踪器问题的框架下对待求解问题进行了定义;然后给出了在线附加Q学习迭代式地进行策略评价、策略改善的具体算法。仿真测试中,首先为电机速度跟踪问题设计了传统的PI控制器,然后将基于该文思路所设计的附加控制器与其并联,组成新的速度控制器。

仿真结果表明,附加控制器显著改善了电机速度跟踪的动态响应特性,并且具备在被控系统参数发生改变时自动调优的自适应能力。非线性系统在特定条件下可进行局部线性化时,也可用该方法来得到更优的控制性能。

在工业应用场景中,跟踪控制问题无处不在,如化工生产中的温度控制、浓度控制,伺服系统中的速度控制、位置控制等。提高跟踪控制器的控制性能有利于工业系统朝着精密化、节能化的方向发展。为研究如何实现最优跟踪控制,学界提出了线性二次型跟踪器(Linear Quadratic Tracker, LQT)问题。

该问题的目标是设计一个控制器,使得在该控制器作用下系统输出在某个线性二次型指标下性能最优。传统的LQT解法包含两个步骤:首先求解代数黎卡提方程(Algebraic Riccati Equation, ARE)得到一个反馈项,然后求解一个非因果的微分方程得到一个前馈项[1]。该解法一般需要离线进行,且需要知道被控系统的动态模型。

为了扩大LQT的应用范围,使其在系统动态模型未知的情况下也能得到最优控制输出,人们尝试将自适应动态规划(Adaptive Dynamic Programming,ADP)的思想(文献[2]中也称其为强化学习(Reinforcement Learning, RL))应用到LQT问题中。

Q学习算法是ADP方法中较为流行的一种,已有大量研究将其用在了线性二次型调节器(Linear Quadratic Regulator, LQR)问题的求解上。该算法属于一种策略迭代(Policy Iteration)式的算法,它的应用不需要知道被控系统的动态模型。

然而,相比于LQR问题,LQT问题中前馈项的计算带来了额外的复杂度,因此Q学习在LQT问题中还未能得到大量的应用。文献中已有的应用案例也往往附带了某些前提条件,如要求系统动态模型已知等[5]。文献[4]提出了一种将Q学习应用于离散线性系统最优跟踪控制的方法,并给出了理论上的收敛性证明。该算法可在线运行,并且将系统模型的辨识包含在了策略迭代的过程中,因此不需要知道系统的动态模型即可达到线性二次型指标下的最优控制。

值得指出的是,目前基于ADP思想的控制方法具有对噪声干扰敏感、收敛性差、运行工况受限、运算量大的缺点,这些都限制了它们在实际控制器中的应用。在实际应用中,一般被控系统都已经预先拥有可用的控制器,只是该控制器的控制性能需要得到改善。

为充分发挥ADP控制方法的自适应性与原控制器的稳定性,赋予原控制器在线学习的能力,近年来有学者提出将基于ADP思想的控制器作为附加控制器与原控制器并联使用,取得了一定的效果。

在电力系统控制领域,文献[6]将附加学习控制用于含大规模风电的电力系统中传统火电机组的附加频率控制,文献[7]将附加学习控制用于双馈风电场的暂态无功控制。在电力电子领域,文献[8]将附加学习控制用于并联型有源电力滤波器的控制,文献[9,10]将附加学习控制用于虚拟同步机的控制。在以上文献的仿真验证中,附加学习控制均带来了一定的控制性能提升。

速度控制是交流电机伺服系统中的一个重要问题,传统上多采用PID控制。在电机运行过程中,转动惯量、转矩环时间常数等参数均容易发生一定的变化,影响速度环的控制性能。因此在要求高精度的场合中,传统的PID控制无法满足需要,往往需要对速度控制器做自适应设计。

常见的自适应设计方法有非线性PI控制、自适应控制、自抗扰控制、模糊系统、滑模控制等。其中非线性PI控制包括PI参数自整定、变结构PI控制等。部分PI参数自整定的研究用到了ADP思想,即通过某种逼近结构(如神经网络)对系统进行建模,再根据某种代价函数动态地调整Kp、Ki,一般用于控制难以建模的电机(如开关磁阻电机)。虽然对于速度环的改进方向已经很丰富,然而目前将Q学习与附加学习相结合用于电机速度控制的研究还非常之少。

本文在文献[4]所提的用于跟踪控制的Q学习方法的基础上,结合附加控制的思想,提出了用于跟踪控制的在线附加Q学习方法。首先在LQT问题的框架下对待求解问题进行了定义;然后针对性地给出了在线附加Q学习迭代式地进行策略评价、策略改善的具体算法。

为验证所提算法的有效性,选取伺服系统中电机速度跟踪这一实际问题进行仿真。首先为被控系统设计了传统的PI控制器,然后将本文所提出的附加控制器与其并联组成新的控制器,最后通过仿真对不同参数设置下的控制效果进行了分析。

图1 附加Q学习最优跟踪控制器结构示意图

图2 附加控制下电机速度环结构框图

结论

本文将在线Q学习最优跟踪控制方法与附加控制思想相结合,讨论了其在线性离散系统无模型化跟踪控制问题上的应用。对于电机速度跟踪这一实际问题,首先为其设计了传统的PI控制器,然后设计了基于在线Q学习的附加控制器与原控制器并联。仿真结果表明,这一做法显著改善了电机速度跟踪的动态响应特性,并且具备在被控系统参数发生改变时自动调优的自适应能力。

虽然本文的研究基于线性系统,但实际生产中有大量的非线性系统在特定条件下可以进行局部线性化,此时即可用本文方法来处理。当检测到系统进入不可线性化的区域时(如PI发生饱和时),可停止附加控制的输入,此时可通过原控制器继续维持系统在不可线性化区域的稳定运行。

(0)

相关推荐

  • 基于控制图下谐振点随机扰动的伺服系统谐振抑制

    伺服系统作为工业领域生产加工方面的核心部件目前被广泛应用.伺服系统主要由速度环.电流环以及二质量系统构成,二质量系统又由电机.负载以及他们之间的传动装置连接而成.然而,由于这些传动装置并不都是理想刚性 ...

  • 西门子许斌 | 谈运动控制&PROFINE

    12月17日,"2021年中国运动控制/直驱产业高峰论坛"在深圳隆重举行,五百多名业内人士汇聚一堂,共谋行业发展大计.在分论坛运动控制技术应用篇上,西门子(中国)有限公司数字化工厂 ...

  • 基于改进Q学习算法的储能系统实时优化决策研究

    福州大学电气工程与自动化学院的研究人员汪波.郑文迪,在2018年第2期<电气技术>杂志上撰文指出,随着分布式清洁能源在电网所占比重逐年增加,其功率预测误差给电网的稳定运行带来巨大挑战,如何 ...

  • 基于理解的数学学习!!!

    <基于理解的小学数学学习> 孔企平教授 研讨小学数学教学改革的实践问题,主要四个方面 一.首先要学习和理解数学课程标准 二.关于数学理解和数学理解的水平层 三.如何促进儿童数学理解的发展 ...

  • 多主体教育环境中基于游戏的自适应学习

    Adaptive game-based learning in multi-agent educational settings Abstract The traditional educationa ...

  • NLP实操手册: 基于Transformer的深度学习架构的应用指南(综述)

    人工智能算法与Python大数据 致力于提供深度学习.机器学习.人工智能干货文章,为AI人员提供学习路线以及前沿资讯 23篇原创内容 公众号 点上方人工智能算法与Python大数据获取更多干货 在右上 ...

  • go-admin在线开发平台学习-2[程序结构分析]

    紧接着上一篇,本文我们对go-admin下载后的源码进行分析. 首先对项目所使用的第三方库进行分析,了解作者使用的库是否是通用的官方库可以有助于我们更快地阅读程序.接着对项目的main()方法进行分析 ...

  • 教育部 “基于在线课程平台的横向跨学科纵向分层次的中小学人工智能课程建设与实践共同体”项目验收会顺利...

    2021年5月14日上午,中国人民大学附属中学牵头的2019年度教育部教育信息化教学应用实践共同体项目 "基于在线课程平台的横向跨学科纵向分层次的中小学人工智能课程建设与实践共同体" ...

  • 基于网络的研究性学习的探索

    王佳莹 一.基于网络的研究性学习的含义 基于网络的研究性学习是计算机网络与研究性学习的整合,是网络支持下的研究性学习,是发展计算机网络的开放性.异步性.交互性.信息量大等优势推进研究性学习的实施,真正 ...

  • DeepfakeUCL:基于无监督对比学习的深度假检测

    重磅干货,第一时间送达 小黑导读 论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...

  • Keras: 基于Python的深度学习库

    Keras 是一个用 Python 编写的高级神经网络 API,它能够以TensorFlow, CNTK或者 Theano作为后端运行.Keras 的开发重点是支持快速的实验.能够以最小的时延把你的想 ...