基于Bandit反馈的在线分布式镜面下降算法 |
| |
引用本文: | 朱小梅,李觉友.基于Bandit反馈的在线分布式镜面下降算法[J].西南大学学报,2022(1):99-107. |
| |
作者姓名: | 朱小梅 李觉友 |
| |
摘 要: | 针对在线分布式优化中一类损失函数梯度信息获取困难的问题,提出一种基于Bandit反馈的在线分布式镜面下降(ODMD-B)算法.首先,推广在线分布式镜面梯度下降(ODMD)算法到免梯度的情形,提出了一种新的仅利用函数值信息来对梯度进行估计的方法即Bandit反馈,其关键在于利用损失函数值信息逼近梯度信息,能有效克服梯度信...
|
关 键 词: | 在线学习 分布式优化 镜面下降算法 Bandit反馈 Regret界 |
|
|