玩命加载中 . . .

组合优化与凸优化


基础知识:向量求导

在优化方法、机器学习领域,向量求导非常常见。作为凸优化的前导知识,我们在这一节重点记录一些常用的向量求导公式。注意,这里仅记录标量函数$f:\mathbb{R}^n\to\mathbb{R}$对向量的导数(梯度)。在下面的公式中,$\boldsymbol{x}, \boldsymbol{b}, \boldsymbol{c}\in\mathbb{R}^n, A\in\mathbb{R}^{n\times n}$.

  1. 多元线性函数求导。

  2. 仿射函数求导。

  3. 二次型求导。

  4. 特别地,上式中,如果$A$为对称矩阵,则有

    用标准二次型写法,等价地有

  5. 向量二范数求导。

基本概念

仿射组合与仿射集

  • 定义一

    对于集合$\mathcal{C}$,若$\forall \boldsymbol{x}_1,\boldsymbol{x}_2 \in \mathcal{C}$,$\theta \in \mathbb{R}$,$s.t. \theta \boldsymbol{x}_1+(1-\theta)\boldsymbol{x}_2\in \mathcal{C}$,则称$\mathcal{C}$为仿射集。

  • 定义二

    对于集合$\mathcal{C}$,若$\forall \boldsymbol{x}_1,\boldsymbol{x}_2,\dots,\boldsymbol{x}_k \in \mathcal{C}$,$\theta_1,\theta_2,\dots,\theta_k \in \mathbb{R}$且$\displaystyle \sum_{i=1}^k\theta_i=1$,若仿射组合$\displaystyle\boldsymbol{x}=\sum_{i=1}^k\theta_i\boldsymbol{x}_i\in \mathbb{R}$,则称$\mathcal{C}$为仿射集。

上面均为仿射集的定义。我们接下来尝试证明两个定义的等价性。

一方面,由定义二推导定义一非常容易,因为定义二本身就比定义一更强。

另一方面,由定义一推导定义二,我们这里仅给出推导三个元素的情况。即证明:

根据定义一,有$\alpha \boldsymbol{x}_1+(1-\alpha)\boldsymbol{x}_2 \in \mathcal{C}$,进而有

我们对上式进行整理,得

故我们最终构造的证明过程如下:

又$\theta_1+\theta_2+\theta_3=1$,故有

相关子空间

对于仿射集$\mathcal{C}$,定义与$\mathcal{C}$相关的子空间$\mathcal{V}$

性质

$\forall \boldsymbol{x}_1,\boldsymbol{x}_2\in\mathcal{V},\alpha,\beta\in\mathbb{R},\alpha\boldsymbol{x}_1+\beta\boldsymbol{x}_2\in \mathcal{V}.$

与之前的仿射组合中参数之和为1的限制不同,此处的参数取值无限制。下面给出证明。

因此得到

证毕。

例 线性方程组的解集$\mathcal{C} = \{ \boldsymbol{x}\in\mathbb{R}^n|A\boldsymbol{x}=\boldsymbol{b} \}$是仿射集,其中$A\in\mathbb{R}^{m\times n},\boldsymbol{b}\in\mathbb{R}^m$。

证明:

故有

因此得到$\theta\boldsymbol{x}_1+(1-\theta)\boldsymbol{x}_2 \in \mathcal{C}$,证毕。

如果一个集合并不是仿射集,那么如何将其中添加元素,得到一个仿射集呢?于是我们引入如下概念:

仿射包 对于集合$\mathcal{C}$,其仿射包为$\displaystyle aff(\mathcal{C})=\left\{ \sum_{i=1}^k\theta_i\boldsymbol{x}_i | \forall \boldsymbol{x}_1,\boldsymbol{x}_2,\dots,\boldsymbol{x}_k\in \mathcal{C},\sum_{i=1}^k \theta_i=1 \right\}$.

显然,仿射集的仿射包就是他本身

凸组合,凸集与凸包

和仿射集类似地,凸集有如下定义:

凸集 集合$\mathcal{C}$为凸集,当且仅当$\forall \boldsymbol{x}_1,\boldsymbol{x}_2 \in \mathcal{C}, \theta\in [0,1], \theta\boldsymbol{x}_1+(1-\theta)\boldsymbol{x}_2 \in \mathcal{C}$.

凸组合 设$\displaystyle\boldsymbol{x}_1,\boldsymbol{x}_2,\dots,\boldsymbol{x}_k\in\mathcal{C},\theta_1,\theta_2,\dots,\theta_k\in[0,1],\sum_{i=1}^k\theta_i=1$,则$\displaystyle\boldsymbol{x}=\sum_{i=1}^k\theta_i\boldsymbol{x}_i$为$\boldsymbol{x}_1,\boldsymbol{x}_2,\dots,\boldsymbol{x}_k$的凸组合.

凸包 集合$\mathcal{C}$的凸包可以表示为$\displaystyle conv(\mathcal{C})=\left\{ \sum_{i=1}^k\theta_i\boldsymbol{x}_i | \forall \boldsymbol{x}_1,\boldsymbol{x}_2,\dots,\boldsymbol{x}_k \in \mathcal{C},\theta_1,\theta_2,\dots,\theta_k\in [0,1], \sum_{i=1}^k\theta_i=1 \right\}$.

在二维平面中,任何凸多边形都是凸集;特别地,单个点组成的集合也是凸集。

锥,凸锥,凸锥组合与凸锥包

类似地,我们给出如下定义:

集合$\mathcal{C}$为锥,当且仅当$\forall \boldsymbol{x}\in\mathcal{C},\theta\geqslant 0, \theta \boldsymbol{x} \in \mathcal{C}$.

凸锥 集合$\mathcal{C}$为凸锥,当且仅当$\forall \boldsymbol{x}_1,\boldsymbol{x}_2\in\mathcal{C},\theta_1,\theta_2\geqslant 0, \theta_1\boldsymbol{x}_1+\theta_2\boldsymbol{x}_2\in\mathcal{C}$.

凸锥组合 设$\boldsymbol{x}_1,\boldsymbol{x}_2,\dots,\boldsymbol{x}_k\in\mathcal{C},\theta_1,\theta_2,\dots,\theta_k\geqslant 0$,点$\displaystyle \boldsymbol{x}=\sum_{i=1}^k\theta_i\boldsymbol{x}_i$为$\boldsymbol{x}_1,\boldsymbol{x}_2,\dots,\boldsymbol{x}_k$的凸锥组合.

凸锥包 集合$\mathcal{C}$的凸锥包可以表示为$\displaystyle \left\{ \sum_{i=1}^k\theta_i\boldsymbol{x}_i|\boldsymbol{x}_1,\boldsymbol{x}_2,\dots,\boldsymbol{x}_k\in\mathcal{C},\theta_1,\theta_2,\dots,\theta_k\geqslant 0 \right\}$.

在二维平面中,一条以原点为源点的射线,即为凸锥;特别地,仅含原点的单点集合也是一个凸锥。

超平面和半空间

超平面 集合$\mathcal{A} = \{ \boldsymbol{x}\in\mathbb{R}^n|\boldsymbol{a}^T\boldsymbol{x}=b \}$为超平面,其中$b\in\mathbb{R},\boldsymbol{a}\ne\boldsymbol{0}$.

半空间 超平面$\mathcal{A}$将$\mathbb{R}^n$划分为两个半空间

球和椭球

$\mathcal{B}(\boldsymbol{x}_c,r)=\{ \boldsymbol{x}| \parallel\boldsymbol{x}-\boldsymbol{x}_c\parallel_2\leqslant r \}$.

椭球 $\varepsilon(\boldsymbol{x}_c,P) = \{ \boldsymbol{x}|\sqrt{(\boldsymbol{x}-\boldsymbol{x}_c)^TP^{-1}(\boldsymbol{x}-\boldsymbol{x}_c)}\leqslant 1 \}$,其中$\boldsymbol{x}\in\mathbb{R}^n,P\in S_{++}^n$($S_{++}^n\in\mathbb{R}^{n\times n}$为对称正定矩阵).

根据之前的定义,球有如下性质:

  • 一定是凸集;
  • 一般来说不是仿射集,当$r=0$时,$\mathcal{B}$为仿射集;
  • 一般来说不是凸锥,但当$r=0$且$\boldsymbol{x}_c=0$时,$\mathcal{B}$为凸锥。

我们给出球是凸集的证明:

由球的定义可得

因此,$\theta \boldsymbol{x}_1+(1-\theta)\boldsymbol{x}_2\in\mathcal{B}$,$\mathcal{B}$为凸集。

凸函数

这里给出凸函数的4个常用定义。

凸函数定义一 定义在凸集$\mathcal{C}$上的函数$f$是凸的,倘若$\forall 0<\lambda<1$,均有$f(\lambda \boldsymbol{x}+(1-\lambda)\boldsymbol{y})\leqslant \lambda f(\boldsymbol{x})+(1-\lambda)f(\boldsymbol{y})$成立。当不等式严格成立时,称$f$为严格凸函数。相反地,若$-f$为凸函数,则$f$为凸集$\mathcal{C}$上的凹函数,不等式严格成立时,称$f$为严格凹函数。

凸函数定义二 定义在凸集$\mathcal{C}$上的函数$f$是凸的,倘若$\forall \boldsymbol{x} \in \mathrm{dom}(f), \forall \boldsymbol{v}$,函数$g(t) = f(\boldsymbol{x} + t\boldsymbol{v})$是凸函数,其中$t\in \{ t|\boldsymbol{x}+t\boldsymbol{v}\in\mathrm{dom}(f) \}$.

凸函数定义三 定义在凸集$\mathcal{C}$上的可微函数$f$是凸的,倘若$\forall \boldsymbol{x},\boldsymbol{y}\in\mathrm{dom}(f)$,均有$f(\boldsymbol{y})\geqslant f(\boldsymbol{x})+\nabla^Tf(\boldsymbol{x})(\boldsymbol{y}-\boldsymbol{x})$成立;当不等式严格成立时,称$f$为严格凸函数.

凸函数定义四 定义在凸集$\mathcal{C}$上的二阶可微函数$f$是凸的,倘若其Hessian矩阵$\displaystyle H=\left( \frac{\partial^2f}{\partial \boldsymbol{x}_i \partial \boldsymbol{x}_j} \right)$半正定,也即$\forall \boldsymbol{x}\in\mathrm{dom}(f),\nabla^2f(\boldsymbol{x})\succeq 0$;此处注意,若$H$为正定的,$f$不一定严格凸.

保凸运算

非负加权和 $f_1,f_2,\dots,f_m$为凸函数,则对于$w_i\geqslant 0,i=1,2,\dots,n$,函数$\displaystyle f=\sum_{i=1}^mw_if_i$仍为凸函数。

非负加权和扩展到无穷形式的积分 若$f(x,y)$对于任意$y\in \mathcal{A}$,$f(x,y)$均为凸函数,当$w(y)\geqslant 0$,$\displaystyle\forall y\in\mathcal{A},g(x)=\int_{y\in\mathcal{A}}w(y)f(x,y)dy$为凸函数。

仿射映射 映射$f:\mathbb{R}^n\to \mathbb{R},A\in\mathbb{R}^{n\times m},\boldsymbol{b}\in\mathbb{R}^m$,定义映射$g:\mathbb{R}^m\to\mathbb{R},g(x)=f(Ax+\boldsymbol{b})$,其中$\mathrm{dom}(g)=\{ \boldsymbol{x}|A\boldsymbol{x}+\boldsymbol{b}\in \mathrm{dom}(f) \}$,若$f$为凸函数,则$g$也为凸函数。

仿射映射,可以看作“先仿射(仿射不改变凸性)后映射”,因此仿射映射不改变原映射的凸性。但是对于凸函数的仿射结果不一定仍为凸函数,例如

若函数$f_i:\mathbb{R}^n\to\mathbb{R}$为凸函数,函数$g:\mathbb{R}^n\to\mathbb{R},g(x)=A^T[f_1(x),f_2(x),\dots,f_m(x)]^T+b,A\in\mathbb{R}^m,b\in\mathbb{R}$不一定为凸函数,因为凸函数的“非负加权和”才仍为凸函数。

逐点最大函数 函数$f(x)=\max\{f_1(x),f_2(x)\}$,$\mathrm{dom}(f)=\mathrm{dom}(f_1)\cap \mathrm{dom}(f_2)$,当$f_1,f_2$为凸函数时,$f$也为凸函数。

这里给出简单的证明。在此之前给出一个引理

设$a,b,c,d\in\mathbb{R}$,如下不等式成立

【证明上述逐点最大函数为凸函数】

由于函数$f_1,f_2$为凸函数,则$\forall x,y\in\mathrm{dom}(f),\theta \in [0,1]$,有

因此$f$为凸函数。

_例 实对称矩阵的最大特征值_

函数$f(X)=\lambda_{max}(X),\ \mathrm{dom}(f)=S^n$,根据特征值的定义,得$\exist \boldsymbol{y}\in\mathbb{R}^n,X\boldsymbol{y}=\lambda \boldsymbol{y}$,进而

不妨有$\parallel \boldsymbol{y} \parallel_2^2=1$,则$\lambda = \boldsymbol{y}^TX\boldsymbol{y}$,于是

$\displaystyle f(X) = \sup\{ \boldsymbol{y}^TX\boldsymbol{y}|\boldsymbol{y}为X的特征向量且\parallel \boldsymbol{y} \parallel_2^2=1 \}$

几何平均 函数$\displaystyle f(\boldsymbol{x})=(x_1x_2\dots x_n)^{\frac{1}{n}},\boldsymbol{x}\in\mathbb{R}^n$在定义域$\mathbb{R}_{++}^n$上是凹函数。

【证明】

首先需要强调$\mathbb{R}_{++}^n$为凸集。由$f(\boldsymbol{x})$在$\mathbb{R}_{++}^n$上二阶可微,得

当$i\ne j$时,

当$i=j$时,

故而二阶Hessian矩阵

其中,

故$\forall \boldsymbol{y}=[y_1,y_2,\cdots,y_n]^T\in\mathbb{R}^n$,

由Cauchy-Schwartz不等式$(\boldsymbol{a}^T\boldsymbol{b})^2\leqslant (\boldsymbol{a}^T\boldsymbol{a})(\boldsymbol{b}^T\boldsymbol{b})$,令$\displaystyle \boldsymbol{a} = \left[ \frac{y_1}{x_1}, \frac{y_2}{x_2}, \cdots, \frac{y_n}{x_n} \right]^T$,$\boldsymbol{b}=\boldsymbol{1}$,得

故有$\forall \boldsymbol{y} \in \mathbb{R}^n$,$\boldsymbol{y}^TH\boldsymbol{y} \leqslant 0$,即$H\preceq 0$,因此$f(\boldsymbol{x})$在$\mathbb{R}_{++}^n$上为凹函数。

行列式的对数 函数$f:S_{++}^n\to \mathbb{R},f(X)=\log\det X,X\in\mathbb{R}^{n\times n}$是凸函数。

考虑

其中,$\lambda_1,\cdots,\lambda_n$为$I+tX^{-\frac{1}{2}}VX^{-\frac{1}{2}}$的$n$个特征值。故

因而$g(t)$是凹函数,$f(X)$也为凹函数。

复合函数的凸性

给定函数$h:\mathbb{R}^k\to\mathbb{R},g:\mathbb{R}^n\to\mathbb{R}^k$,定义复合函数$f=h\circ g:\mathbb{R}^n\to\mathbb{R},f(\boldsymbol{x})=h(g(\boldsymbol{x})),\mathrm{dom}(f)=\{ \boldsymbol{x}\in\mathrm{dom}(g)|g(\boldsymbol{x})\in \mathrm{dom}(h) \}$,接下来给出复合函数之间的凹凸性质。

我们从简单情况考虑,即一维情况$k=n=1$、$\mathrm{dom}(f)=\mathrm{dom}(h)=\mathrm{dom}(g)=\mathbb{R}$以及$h,g$均二阶可微,根据凸函数的定义4,对$f$求二阶导数,得

因此我们有如下结论:

  • 若$h$为凸函数且单调不减,$g$为凸函数,则$f$为凸函数;
  • 若$h$为凸函数且单调不增,$g$为凹函数,则$f$为凸函数;
  • 若$h$为凹函数且单调不减,$g$为凹函数,则$f$为凹函数;
  • 若$h$为凹函数且单调不增,$g$为凸函数,则$f$为凹函数。

那么更复杂的情况,也即$k,n\geqslant 1$、$\mathrm{dom}(f),\mathrm{dom}(g),\mathrm{dom}(h)\ne \mathbb{R}^n,\mathbb{R}^n,\mathbb{R}^k$以及$h,g$均不二阶可微呢?这里我们引入一个新概念:$h$的扩展函数$\widetilde{h}$,和上述四条结论类似地,有

  • 若$h$为凸函数且$\widetilde{h}$单调不减,$g$为凸函数,则$f$为凸函数;
  • 若$h$为凸函数且$\widetilde{h}$单调不增,$g$为凹函数,则$f$为凸函数;
  • 若$h$为凹函数且$\widetilde{h}$单调不减,$g$为凹函数,则$f$为凹函数;
  • 若$h$为凹函数且$\widetilde{h}$单调不增,$g$为凸函数,则$f$为凹函数。

其中,若$h$为凸函数,则

反之,若$h$为凹函数,只需将上述$\boldsymbol{x}\notin \mathrm{dom}(h)$时取值$+\infin$改为$-\infin$即可。

共轭函数

函数的共轭 函数$f:\mathbb{R}^n\to \mathbb{R}$,其共轭函数$f^*:\mathbb{R}^n\to\mathbb{R}$定义为

之所以提出函数共轭的概念,因为其有如下良好性质:

  1. 若函数$f$可微,则$f^(\boldsymbol{y})$对应的$\displaystyle\boldsymbol{x}^=\arg\sup_{\boldsymbol{x}\in\mathrm{dom}(f)}\{ \boldsymbol{y}^T\boldsymbol{x}-f(\boldsymbol{x}) \}$必是使得$\nabla f(\boldsymbol{x})=y$的一点;

    此处令$\displaystyle \nabla_\boldsymbol{x}(\boldsymbol{y}^T\boldsymbol{x}-f(\boldsymbol{x}))=0$,也即$\boldsymbol{y}-\nabla f(\boldsymbol{x})=0$.

  2. 函数的共轭一定是凸函数。

_例 二次型_ 求函数$\displaystyle f(\boldsymbol{x})=\frac{1}{2}\boldsymbol{x}^TQ\boldsymbol{x},Q\in S_{++}^n,\mathrm{dom}(f)=\mathbb{R}^n$的共轭。

令$\nabla f(\boldsymbol{x})=\boldsymbol{y}$,即$Q\boldsymbol{x}^=\boldsymbol{y}$,得$\boldsymbol{x}^=Q^{-1}\boldsymbol{y}$,注意到$Q\in S_{++}^n,Q^{-1}\in S_{++}^n$,故

$\alpha$-下水平集

对于$f:\mathbb{R}^n\to \mathbb{R}$,其$\alpha$-下水平集为

注意,凸函数的任意下水平集均为凸集;但是反之,若函数$f$的任意$\alpha$-下水平集均为凸集,则$f$不一定为凸函数。例如$f(x)=-e^x,x\in\mathbb{R}$为凹函数,但其$\alpha$-下水平集($\alpha\in\mathbb{R}$)为凸集。

拟凸函数

虽然上面的性质“函数$f$的任意$\alpha$-下水平集均为凸集”并不一定能够推导出其一定为凸函数,但是该性质非常良好。因此,给出拟凸函数的定义:

拟凸函数 称函数$f:\mathbb{R}^n\to\mathbb{R}$为拟凸函数,倘若其定义域为凸集,且任意的$\alpha$-下水平集也为凸集。

拟凹函数 称函数$f:\mathbb{R}^n\to\mathbb{R}$为拟凹函数,倘若其定义域为凸集,且任意的$\alpha$-上水平集也为凸集。

拟线性函数 称函数$f:\mathbb{R}^n\to\mathbb{R}$为拟凸函数,倘若其定义域为凸集,且任意的$\alpha$-水平集也为凸集。

此外,我们给出另一个拟凸函数的定义。

拟凸函数(定义2) 函数$f$是拟凸函数,倘若$\mathrm{dom}(f)$为凸函数,且$\forall \boldsymbol{x},\boldsymbol{y}\in\mathrm{dom}(f),0\leqslant \lambda \leqslant 1$,均有

凸优化问题

基本概念

一般优化问题 一个优化问题通常被形式地定义为

其中,前$m$个不等式称为不等式约束,后$p$个等式称为等式约束。

接下来借助上述定义说明几个概念。

优化变量 问题中的$\boldsymbol{x}\in\mathbb{R}^n$称为优化变量。

目标函数/损失函数 函数$f_0:\mathbb{R}^n\to\mathbb{R}$称为目标函数/损失函数。若为最大化问题,则称之为效用函数。

优化问题的域 称$D = \displaystyle \bigcap_{i=0}^m\mathrm{dom}(f_i)\cap \bigcap_{j=1}^p\mathrm{dom}(h_j)$为优化问题的域。

可行解 $\boldsymbol{x}\in D$为可行解,若$f_i(\boldsymbol{x})\leqslant 0,i=1,2,\dots,m;h_j(\boldsymbol{x})=0,j=1,2,\dots,p$.

可行解集 全部可行解组成的集合$X_f = \{ \boldsymbol{x}| f_i(\boldsymbol{x})\leqslant 0,i=1,2,\dots,m;h_j(\boldsymbol{x})=0,j=1,2,\dots,p \}$称为可行解集.

问题的最优值 问题的最优值为该最小化问题能取得的最小值$\displaystyle p^*=\inf_{\boldsymbol{x}\in X_f}\{f_0(\boldsymbol{x})\}$.

问题的最优解 问题的最优解为取得最优值时,所对应的优化变量的取值,即$\displaystyle\boldsymbol{x}^=\arg\min_{\boldsymbol{x}\in D} f_0(\boldsymbol{x}),f(\boldsymbol{x}^)=p^*$.

最优解集 称最优解构成的集合为最优解集$X_{opt}=\{ \boldsymbol{x}|\boldsymbol{x}\in X_f, f_0(\boldsymbol{x})=p^* \}$

$\varepsilon-$次优解集 称次优解集为$X_\varepsilon = \{ \boldsymbol{x}|\boldsymbol{x}\in X_f, f_0(\boldsymbol{x})\leqslant p^*+\varepsilon \}$

线性规划与单纯形法

这一部分,我们通过一个具体的实例,来展现单纯形法的执行步骤。

例如如下的标准型线性规划问题

首先,为了方便后续单纯形法的执行,我们将标准型重写为松弛型,即引入新的变量$x_4,x_5,x_6\geqslant 0$,并忽略显而易见的单变量不等式约束$x_i\geqslant 0$,写为

单纯形法开始执行。等式左侧的$x_4,x_5,x_6$被称为基变量,而右侧的$x_1,x_2,x_3$被称为非基变量。初始解为

这个初始解是符合条件($\boldsymbol{x}\geqslant 0$)的,下面继续执行单纯形法,也即迭代地将基变量换出称为非基变量,而非基变量转为基变量,以提高$Z$

第一次迭代:我们发现$Z=3x_1+x_2+2x_3$这个式子中,$x_1$的系数最大,因此将$x_1$换入基变量;而下面的三个等式约束中,$x_6=36-4x_1-x_2-2x_3\geqslant0$对$x_1$是最紧的,因此将$x_6$换出成为非基变量,即对第三个等式进行变形为左侧只有$x_1$:

根据上式得到新的松弛型

得到新的解

第二次迭代:和第一次类似,注意$Z$的表达式中$x_6$的系数已经为负,因此不再考虑优化$x_6$,故而选择$x_3$,将其换入基变量,将$x_5$换出成为非基变量,因为其所在的等式对$x_3$的约束最紧:

得到新的解

第三次迭代:只能选择$x_2$换入基变量,选择$x_3$换出成为非基变量。

此时,再无非基变量可以继续优化(换入非基变量),因此算法执行结束,得到最终解为

良好性质

局部最优也是全局最优

不妨设$f(z)$为$f(x)$的局部最优,即下式成立

往证$f(z)$也为全局最优。不然,则存在$z’$使得$f(z’)<f(z)$,且$\parallel z’-z \parallel_2 > r$.

取$\displaystyle\tilde{z} = (1-\theta)z+\theta z’, \theta = \frac{r}{2\parallel x-z \parallel_2}$,

则$\displaystyle\parallel \tilde{z} - z \parallel_2 = \parallel \theta(z’-z) \parallel_2 = \theta\parallel z’-z\parallel_2 = \frac{r}{2} < r$,由$z$为局部最优点得$f(\tilde{z}) > f(z)$.

另一方面,由$f$凸性得$f(\tilde{z}) = f((1-\theta)z+\theta z’) \leqslant (1-\theta)f(z) + \theta f(z’) \leqslant (1-\theta)f(z) + \theta f(z) = f(z)$,

矛盾。故假设不成立,得到$z$就是全局最优点.

(可微)最优性条件

对于凸优化问题,则$\boldsymbol{x}^$为最优解,当且仅当$\forall \boldsymbol{y} \in X_f, \nabla f_0^T(\boldsymbol{x}^)(\boldsymbol{y}-\boldsymbol{x}^*)\geqslant 0$

拉格朗日对偶

对偶函数性质

  • 对偶函数是凹函数
  • $\forall \lambda\geqslant 0,v, g(\lambda, v) \leqslant p^*$

证明第二条。首先根据对偶函数定义,有

故得到$g(\lambda,v) \leqslant p^*$.

鞍点解释

考虑仅含有不等式约束的凸优化问题

拉格朗日函数为

有如下鞍点定理

$\boldsymbol{x}^,\boldsymbol{\lambda}^$为$L(\boldsymbol{x},\boldsymbol{\lambda})$的鞍点,当且仅当强对偶成立,且$\boldsymbol{x}^,\boldsymbol{\lambda}^$为原问题和对偶问题的最优解

证明:先证明必要性。若$\boldsymbol{x}^,\boldsymbol{\lambda}^$为$L(\boldsymbol{x},\boldsymbol{\lambda})$的鞍点,根据鞍点定义,有

即$p^=d^$.且$\boldsymbol{x}^,\boldsymbol{\lambda}^$为原问题和对偶问题的最优解.

再证明充分性。首先由$\boldsymbol{x}^,\boldsymbol{\lambda}^$为原问题和对偶问题的最优解,则其必然可行,即有

由强对偶成立,即

因此,上面不等关系全部为等式关系,其中有

另一方面,由

综上有

优化算法与收敛速率

函数的强凸性与海塞矩阵上界

强凸性 函数$f$是强凸的,倘若$\exist m>0,s.t.\forall \boldsymbol{x},\nabla^2f(\boldsymbol{x})-mI \succeq 0$。也可以等价地表述为$\displaystyle\forall \boldsymbol{x}, \boldsymbol{y}, f(\boldsymbol{y})\geqslant f(\boldsymbol{x})+\nabla^Tf(\boldsymbol{x})(\boldsymbol{y}-\boldsymbol{x})+\frac{m}{2}\parallel \boldsymbol{y}-\boldsymbol{x} \parallel_2^2$.

我们进一步分析上式。对右侧式子关于$\boldsymbol{y}$求导得$\displaystyle \nabla f(\boldsymbol{x})+m(\boldsymbol{y}-\boldsymbol{x})$,令其等于零,有

代回,有

记最优解为$\boldsymbol{x}^*$,得到

整理得到

Hessian矩阵上界 $\exist M>0,s.t.\forall \boldsymbol{x}\in \mathrm{dom}f,\nabla^2f(\boldsymbol{x})-MI \preceq 0$.等价地表述为$\displaystyle\forall \boldsymbol{x},\boldsymbol{y}\in \mathrm{dom}f, f(\boldsymbol{y})\leqslant f(\boldsymbol{x}) + \nabla^Tf(\boldsymbol{x})(\boldsymbol{y} - \boldsymbol{x}) + \frac{M}{2}\parallel \boldsymbol{y}-\boldsymbol{x} \parallel_2^2$.

梯度下降法的收敛速率


文章作者: 鹿卿
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 鹿卿 !
评论
  目录