Add study notes for 2025-08-19

AutoBot42 · AutoBot42 · commit f1567cb29c1b · 2025-08-20T03:58:35.000+12:00
diff --git a/IsabellaTeo.md b/IsabellaTeo.md
@@ -15,6 +15,100 @@ timezone: UTC+8
 ## Notes
 
 <!-- Content_START -->
+# 2025-08-19
+
+一、风险敏感强化学习与鲁棒MDP的融合：带模型不确定性的动态决策
+
+核心背景
+
+强化学习（RL）通过与环境交互优化策略（如机器人控制、智能决策），但实际中环境模型（如状态转移概率）常存在不确定性（模型误配），传统RL可能因“过度拟合”真实环境的噪声而失效。需融合“风险敏感控制”（对不确定性的厌恶）与“鲁棒MDP”（假设转移概率在某个可信集内），设计对模型误差稳健的策略，同时保留RL的端到端学习能力。
+
+数学例子：鲁棒Q-learning与风险敏感价值函数
+
+以离散时间马尔可夫决策过程（MDP）为例，考虑机器人在动态环境中的路径规划：需在存在观测噪声（如传感器误差）时，最小化“风险调整后的累积成本”（既考虑期望成本，也 penalize 极端损失）。
+
+	1.	问题建模
+
+	◦	状态空间 S ，动作空间 A ，转移概率 P(s'|s,a) （真实转移，未知）；
+
+	◦	模型不确定性：假设已知转移概率的可信集 \mathcal{P}(s,a) = \{ \hat{P}(\cdot|s,a) \mid \|\hat{P} - P\|_{\text{TV}} \leq \epsilon \} （ \epsilon 为不确定性半径， \|\cdot\|_{\text{TV}} 是总变差距离）；
+
+	◦	即时成本 c(s,a) \geq 0 （如移动能耗），风险敏感因子 \lambda > 0 （越大越厌恶风险）；
+
+	◦	目标：找到策略 \pi(a|s) ，最小化“风险调整后的总期望成本”：
+
+V^\pi(s) = \lim_{T \to \infty} \frac{1}{\lambda} \log \mathbb{E}^\pi \left[ \exp\left( \lambda \sum_{t=0}^{T-1} c(s_t,a_t) \right) \mid s_0 = s \right]
+
+（当 \lambda \to 0 时退化为传统期望成本， \lambda > 0 时更关注极端高成本路径）。
+
+	2.	传统RL的局限
+标准Q-learning的价值函数 Q(s,a) = c(s,a) + \gamma \mathbb{E}[Q(s',a')] 未考虑模型不确定性，若用估计的转移概率 \hat{P} 替代真实 P ，可能因 \hat{P} \notin \mathcal{P}(s,a) 导致策略风险失控（如机器人误入高成本区域）。
+
+	3.	融合思路：鲁棒风险敏感Q-learning
+
+	◦	定义鲁棒风险敏感Q函数：对每个 (s,a) ，考虑最坏情况的转移概率（在可信集内最大化成本）：
+
+Q^\lambda(s,a) = c(s,a) + \gamma \cdot \sup_{\hat{P} \in \mathcal{P}(s,a)} \left( \frac{1}{\lambda} \log \int_{s'} \exp(\lambda Q^\lambda(s',a^*)) \hat{P}(ds'|s,a) \right)
+
+其中 a^* = \arg\min_{a'} Q^\lambda(s',a') 是最优动作。
+
+	◦	策略更新：用样本估计 Q^\lambda ，结合梯度下降最小化“鲁棒残差”：
+
+\mathcal{L}(\theta) = \mathbb{E} \left[ \left( Q_\theta(s,a) - \left( c(s,a) + \gamma \cdot \sup_{\hat{P}} \left( \frac{1}{\lambda} \log \int \exp(\lambda Q_\theta(s',a^*)) \hat{P}(ds'|s,a) \right) \right) \right)^2 \right]
+
+（ Q_\theta 是神经网络参数化的Q函数）。
+
+	◦	核心：通过“最坏情况转移概率”的sup操作嵌入模型不确定性，通过指数效用体现风险敏感，使策略对观测误差更稳健。
+
+二、分布式在线学习的约束一致性与联邦风险控制
+
+核心背景
+
+在线学习扩展到分布式场景（如多节点协作的金融风控、联邦学习）时，需解决两个问题：1）各节点本地更新需满足全局风险约束（如整体投资组合的CVaR不超过阈值）；2）节点间参数聚合需保持约束一致性（避免局部最优破坏全局约束）。这比单节点在线学习更复杂，需融合分布式优化与风险度量的聚合规则。
+
+数学例子：带全局CVaR约束的联邦在线优化
+
+假设某银行有3个区域分行（节点），各自用本地客户数据在线更新信贷风控模型，需满足“全行整体信贷损失的CVaR（条件风险价值）不超过 \beta ”，同时保护本地数据隐私（不共享原始数据）。
+
+	1.	风险度量与约束建模
+
+	◦	全局损失：设节点 i 的损失函数为 L_i(\theta_i) （依赖本地参数 \theta_i ），全局损失 L_{\text{global}}(\theta) = \sum_{i=1}^3 w_i L_i(\theta_i) （ w_i 为权重， \sum w_i=1 ， \theta = (\theta_1,\theta_2,\theta_3) ）；
+
+	◦	CVaR定义：全局损失的CVaR在置信水平 1-\alpha （如95%）下为：
+
+\text{CVaR}_\alpha(L_{\text{global}}) = \inf_{\nu \in \mathbb{R}} \left( \nu + \frac{1}{\alpha} \mathbb{E} \left[ (L_{\text{global}} - \nu)_+ \right] \right)
+
+（表示“最坏 \alpha 比例损失”的平均值，比VaR更具次可加性）；
+
+	◦	全局约束： \text{CVaR}_\alpha(L_{\text{global}}) \leq \beta 。
+
+	2.	传统分布式在线学习的问题
+若各节点独立更新 \theta_i^{(t+1)} = \theta_i^{(t)} - \eta_t \nabla L_i(\theta_i^{(t)}) ，再简单平均聚合，可能因局部过度优化（如为降低本地损失放松风控）导致全局CVaR突破 \beta 。
+
+	3.	融合思路：带约束的联邦平均（FedAvg）更新
+
+	◦	本地更新：每个节点 i 在第 t 步的更新需满足“局部对全局CVaR的贡献约束”，通过对偶方法将全局约束分解为局部子约束：
+
+\theta_i^{(t+1)} = \arg\min_{\theta_i} \left( L_i(\theta_i) + \lambda_t \cdot \text{CVaR}_\alpha^{(i)}(\theta_i) \right)
+
+其中 \text{CVaR}_\alpha^{(i)} 是节点 i 对全局CVaR的局部贡献（通过联邦参数服务器传递的对偶变量 \lambda_t 协调）；
+
+	◦	全局聚合：参数服务器收集各节点 \theta_i^{(t+1)} ，通过投影确保聚合后 \theta^{(t+1)} = \sum w_i \theta_i^{(t+1)} 满足全局约束：
+
+\theta^{(t+1)} = \text{proj}_{\Theta} \left( \sum w_i \theta_i^{(t+1)} \right)
+
+其中 \Theta = \{ \theta \mid \text{CVaR}_\alpha(L_{\text{global}}(\theta)) \leq \beta \} ，投影操作保证全局风险不超标；
+
+	◦	核心：通过对偶分解将全局风险约束分配到本地，结合联邦学习的隐私保护特性，实现“局部高效更新+全局约束满足”。
+
+学习这些的意义
+
+	1.	理论衔接：从单智能体/单节点扩展到多智能体/分布式场景，从“已知模型”到“模型不确定性”，深化对“风险-效率”权衡的理解；
+
+	2.	实践价值：覆盖机器人控制（鲁棒RL）、金融风控（联邦约束）等复杂场景，提供可落地的数学工具（如鲁棒价值函数、CVaR分解）；
+
+	3.	方法进阶：融合强化学习、分布式优化、风险度量理论，形成“问题建模-约束设计-算法实现”的完整闭环。
+
 # 2025-08-18
 
 一、随机控制与机器学习的融合：用深度神经网络求解高维HJB方程