基于Bandit反馈的在线分布式镜面下降算法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于Bandit反馈的在线分布式镜面下降算法

引用本文：	朱小梅,李觉友.基于Bandit反馈的在线分布式镜面下降算法[J].西南大学学报,2022(1):99-107.

作者姓名：	朱小梅李觉友

摘要：	针对在线分布式优化中一类损失函数梯度信息获取困难的问题,提出一种基于Bandit反馈的在线分布式镜面下降(ODMD-B)算法.首先,推广在线分布式镜面梯度下降(ODMD)算法到免梯度的情形,提出了一种新的仅利用函数值信息来对梯度进行估计的方法即Bandit反馈,其关键在于利用损失函数值信息逼近梯度信息,能有效克服梯度信...
关键词：	在线学习分布式优化镜面下降算法 Bandit反馈 Regret界