6

在有限 computational budget 下,借助 low-fidelity 模型提高精度 - MoonOut

 1 year ago
source link: https://www.cnblogs.com/moonout/p/17321665.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
  • 论文名称:context-aware learning of hierarchies of low-fidelity models for multi-fidelity uncertainty quantification
  • 链接:https://www.sciencedirect.com/science/article/pii/S0045782523000312
  • 国际计算力学领域的顶级期刊《Computer Methods in Applied Mechanics and Engineering》(中科院一区 TOP,IF:6.756)

0 abstract

    • multi-fidelity Monte Carlo 方法利用 low-fidelity and surrogate models 来减少方差(variance),使不确定性量化变得可行,尽管物理系统的 high-fidelity 数值模拟计算成本很高。
  • 工作简述:

    • 我们提出了一种 context-aware 的 multi-fidelity Monte Carlo 方法,实现了训练 low-fidelity 模型的成本和 Monte Carlo 采样的成本之间的最佳平衡。

    • 当训练 low-fidelity 模型时,我们考虑到了所学的 low-fidelity 模型将被使用的背景,即在 Monte Carlo 估计中减少方差,这使得它能够在训练和抽样之间找到最佳的权衡,以最小化给定计算预算(computational budget)下估计器的均方误差(mean-squared error)上限。

  • 继承了之前的工作:

    • 它将以前开发的 context-aware bi-fidelity Monte Carlo 方法,推广到多个模型的层次结构 和 更普遍的 low-fidelity 模型类型,如 sparse-grid(比如说 PDE 仿真的网格粒度粗一点)和 deep-network。
  • 文献树上的位置:

    • 我们与传统的 surrogate modeling 和 model reduction 技术不一样,后者构建 low-fidelity 模型的主要目的是为了很好地接近 high-fidelity 模型的输出,通常忽略了所学模型在 upstream tasks 中的 context。
  • 实验结果:

    • 用陀螺动力学模拟代码 Gene 进行的数值实验表明,在做一个不确定性量化时,与 single-fidelity Monte Carlo 和 standard multi-fidelity estimators 相比,速度提高了两个数量级:相当于在德州高级计算中心 Lonestar6 超级计算机的一个节点上,运行时间从 72 天减少到 4 小时。

1 intro & related method

  • literature:[1] 是一个 Multi-Fidelity 的 survey。其他 literature 懒得整理了。
  • motivation:如果没有现成的 low-fidelity model,那么就需要首先训练得到它们,这可能会产生额外的计算成本,并且需要对 high-fidelity model 进行额外的评估,以产生训练数据。
  • main idea:该方法将 ① 训练多个 low-fidelity 模型的层次的成本 ② 蒙特卡洛采样以获得多保真估计器的成本进行 trade-off,在给定的 computational budget 下,使均方误差(mean-squared error)的上限最小(context-aware:最大限度地减少蒙特卡罗估计的方差),而不是尽可能接近 high-fidelity model。
  • structure:
    • 2:preliminaries,介绍符号定义,传统的 multi-fidelity Monte Carlo 算法,他们之前做的一个 bi-fidelity context-aware 算法。
    • 3:method。
    • 4:两个 experiment,1 具有九个不确定参数的二维空间域上的热传导问题,2 具有不确定输入的现实等离子体微扰动情况。数值结果的代码:https://github.com/ionutfarcas/context-aware-mfmc

2 背景 & 前情提要

2.1 背景:static multi-fidelity Monte Carlo estimation

  • f(0):X→Y 是一个输入-输出响应(input-output response),expensive to evaluate。输入为 d 维,输出为 1 维。
    • 对一个随机变量 Θ=[Θ1,Θ2,...,Θd]^T,我们想估计 f^(0)(Θ) 的期望值 μ0。
  • MFMC(multi-fidelity Monte Carlo)estimator 包含 k+1 个模型,f^(0) high-fidelity,f^(1) ... f^(k) low-fidelity。
    • low-fidelity model 的精度 ρ:用 f^(j) 对 f^(0) 的 Pearson correlation coefficient 来定义:ρj=Cov[f(0),f(j)]/σ0σj,其中 σ 是方差(variance)。设定 ρ_k+1 = 0。
    • models 的评估成本:w1, w2, ..., wk>0。归一化 high-fidelity f^(0) 的评估成本 w0 = 1。
    • 假设模型们满足排序:精度:1 = |ρ0|>|ρ1|>…>|ρk|;评估成本:wj−1/wj>[ρj−12−ρj2]/[ρj2−ρj+12]。
  • 设 m_j 为 model f^(j) 的评估次数,0 ≤ m0 ≤ m1 ≤ … ≤ m_k。每一次评估都从独立同分布(iid)的分布 π 里抽样。
  • 于是 MFMC estimator 形式:E^MFMC=E^m0(0)+∑j=1kαj(E^mj(j)−E^mj−1(j)),其中 E^mj(j)=1m0f(0)(θi) 即 f(θ) 的均值。
  • 总 computational cost: p=∑j=0kmjwj。
  • 我们把 p 固定(budget),去找最优的 m0∗,⋯,mk∗ 以及 α0∗,⋯,αk∗,来让 E^MFMC 的方差最小。
    • E^MFMC 的 MSE = σ02p(∑j=0kwj(ρj2−ρj+12))2。
    • 其实是有闭式解的,见 [14]。

2.2 前情提要:context-aware bi-fidelity Monte Carlo estimator

  • 他们之前做的 context-aware bi-fidelity MC estimator 的工作是 [2]。

    • 改了一下 notation: low-fidelity model fn(1) 表示训 f^(1) 需要用 high-fidelity f^(0) 的 n 个样本。
    • 假设所有 low-fidelity model 都是用相同的 NN 来训,唯一不同的是训练样本数量,那么 Pearson 系数 ρ1 和评估成本 w1 都取决于 n。
    • 【这是假设 assumption】Pearson 系数的 bound:1−ρ12(n)≤c1n−α;评估成本的 bound:w1(n)≤c2nβ;其中 c1 c2 α>0 β>0 都是常数。
  • 我们的 budget 是 p。如果用 n 个样本训练 f^(1),那么还有 p-n 的预算用于 f^(1) 的评估。

  • context-aware bi-fidelity MC estimator: E^nCA−MFMC=E^m0∗(0)+α1∗(Em1∗(1)−Em0∗(1)) ,决策变量为 m0∗,m1∗,α1∗ ,目标函数为最小化 E^nCA−MFMC 的 MSE。

    • E^nCA−MFMC 的 MSE = σ02p−n(1−ρ12(n)+w1(n)ρ12(n))2 (公式 2.6)。
  • 如果预算 p 是固定的,n 可以通过最小化 MSE 的上界来选择。

    • 上界: MSE(E^nCA−MFMC)≤2σ02p−n(c1n−α+c2nβ) 。
    • 工作 [2] 表明,在某些假设下,给定一个 p,存在一个唯一的 n∗,最小化(2.6);然而,n∗ 没有闭式解,只能数值寻找。
    • 最佳的 n∗ 是独立于预算 p 的。

3 method

3.1 一些关于 multi-fidelity models 的假设

  • 假设 1:存在 ca,j≥0,函数 ra,j(nj) 值为正数、对 n_j 单调递减、二次可微。限制精度(Pearson 系数): 1−ρj2(nj)≤ca,jra,j(nj)。
  • 假设 2:存在 cc,j≥0,函数 rc,j(nj) 值为正数、对 n_j 单调递增、二次可微。限制评估成本: wj(nj)≤cc,jrc,j(nj)。
  • 貌似,假设两个 r 函数为: ra,j=n−α,rc,j=nα,α>0 。
  • 一个备注:事实上,如果一组数据拿去训 f^(i),那么也有可能可以拿去训 f^(j);不过,更有可能的一种情况是,两个模型结构不一样,需要的训练数据结构也不一样,所以不能重用,所以,下文都不考虑样本的重用。

3.2 只用一个 low-fidelity 模型:[2] 基础上的改进

  • 首先,放缩 MSE(E^nCA−MFMC)≤2σ02p−n(ca,1ra,1(n1)+cc,1rc,1(n1)),将它记为 u1。接下来,我们关心这个 upper bound 何时存在唯一的全局最小值。
    • PS:证明直接看原文吧,本科高数难度。
  • 命题 1 :u1 何时存在唯一的全局最小值:
    • 假设满足 ca,1ra,1″(n1)+cc,1rc,1″(n1)>0【公式 (3.6)】。那么,u1 具有唯一的全局最小值 n1∗∈[1,p−1]。
  • 命题 2 :假设对于所有 n1∈(0,∞) 满足 公式 (3.6),
    • 并且存在一个 n¯1∈(0,∞) 使得 ca,1ra,1(n¯1)+cc,1rc,1′(n¯1)=0。那么 n¯1 是唯一的,并且 n1∗≤max{1,n¯1}。

3.3 context-aware multi-fidelity MC sampling

一种 sequential 训练方法,来为 CA-MFMC estimator 拟合 hierarchies of low-fidelity models,其中每一步都实现了 training 和 sampling 之间的 optimal trade-off。

我主要关心 context-aware 是什么东西。

  • 引理 1:在假设 1 假设 2 下,CA-MFMC estimator 的 MSE 的 upper bound:
    • MSE(E^n1,⋯,nkCA−MFMC)≤(k+1)σ02pk−1−nk(κk−1+c^a,kra,k(nk)+cc,krc,k(nk)) 。
    • 其中 pk−1=p−∑j=1k−1nj,p0=p ,
    • κk−1=ca,1ra,1(n1)+∑j=1k−2cc,jrc,j(nj)ca,j+1ra,j+1(nj+1),κ0=0 ,
    • c^a,k=cc,k−1rc,k−1(nk−1)ca,k,c^a,1=ca,1 。
    • (重申:n 是训 low-fidelity model 的样本数量)
    • 证明:直接用一个 平方和不等式 展开。
  • 看这个 upper bound 括号内加和的部分,c^a,k 和 κk−1 都仅依赖于 n1,⋯,nk−1,而 ra,k(nk),rck(nk) 仅依赖于 n_k。这启发了一种 sequentially 向 CA-MFMC estimator 添加 low-fidelity model 的做法。
    • 给定 n1,⋯,nk−1,寻找 nk,使得 uj(nj;n1,⋯,nk−1):[1,pj−1−1]→(0,∞),uj(nj;n1,⋯,nk−1)=1pj−1−nj(κj−1+c^a,jra,j(nj)+cc,krc,k(nj))。
  • 命题 3:使用命题 1,即 n1∗ 是 u1 的全局最小值。现在去考虑 j = 2,3,...,k。
    • 若 c^a,jra,j′′(nj)+cc,jrc,j′′(nj)>0,则存在 u_j 的全局最小值 nj∗∈[1,pj−1−1]。
    • 证明好像跟命题 1 同理。
  • 命题 4:使用命题 1,即 nj∗ 是 u_j 的全局最小值。
    • 若存在 n¯j∈(0,∞) 使得 c^a,jra,j′(n¯j)+cc,jrc,j′(n¯j)=0,则有 nj∗≤n¯j,即 nj∗ 的一个 upper bound。
    • 继续跟命题 2 同理,归纳法。
  • 一个备注:models 的 hierarchy 必须满足评估次数 m 递减(2.1)。

啊…… 这就结束了?感觉看了一肚子数学…

4 experiment

图挺好看的。

要赶着看 MFRL 了,不细看了。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK