优化方法基础系列-非精确的一维搜索技术
选择最优步长的精确搜索方法往往计算量大,特别是当迭代点远离最优解时,效率很低,而且很多最优化算法的收敛速度并不依赖于精确的一维搜索过程。这促使一些研究者放宽了一维搜索的精确要求,而去保证目标函数在每次迭代有满意的下降量,这类方法称为非精确的一维搜索方法或可接受的一维搜索方法,它可以大大节省计算量。
不精确的一维搜索方法核心问题是选取可接受的步长 使得 得到一个满意的水平,即足够的下降且大范围收敛。因此,研究者提出了一些准则,以满足不精确搜索能也能收敛的条件。Armijo-Goldstein和Wolf-Powell准则为非精确一维搜索的两大准则。
Armijo-Goldstein准则核心思想就两点:
这两点意图是非常明显,由于最优化问题就是寻找极小值,所以使得目标函数值下降,是我们努力的方向,此外如果搜索步长太小,可能原地打转,影响收敛速度。具体方法如下:
假设 是一个下降方向,记 ,有:
则 的一个合理的下界(保证下降):
再给其一个上界限制( 不能太小):
那么Armijo-Goldstein准则可描述为:
可接受的 应该满足:
注:如果 不在这个范围内,将影响其超线性收敛性。
令 ,即固定 和方向 ,求解满足条件的步长,则Armijo-Goldstein可写为:
从上图和公式中,可以看出 在 的下方, 在 的下方,所以 区间都是在满足条件的步长。然而,Armijo-Goldstein准则可能会把极值点判断在可接受的范围之外,所以为了解决这一问题,Wolf-Powell准则应用而生。
Algorithm 9 Armijo-Goldstein准则
Wolf-Powell准则下界和Armijo-Goldstein准则是一样的,即:
为了保证足够的步长以及可接受的区间包含极小值点,上界被定义:
也就是:
其说明在点 处的斜率应该大于起始点斜率的 倍。 是负值,所以上界的含义就是可接受的范围中斜率应该是接近零的负值或者正值。
此外,还有一种更为严苛的准则,称为强Wolf调节,即:
强Wolf条件使得可接受的范围的斜率的正值不至于过大,可以将远离极小值点的步长排除在外。一般 越小,线性搜索越精确,不过 越小,工作量越大,一般取
Algorithm 10 Wolf-Powell 准则
后退法仅采用了Armijo-Goldstein准则的下界限制,即保证函数的下降,此外要求 不要太小即可。其基本思想是:
关于这些准则的有效性,比如步长的存在性,大范围收敛性质可参阅刘红英版本的数值规划基础或者Numerical Optimization。后来学者们又发展了Curry-Altman步长律、Danilin-Pshenichuyi步长律、De Leone-Grippo步长律等,这些步长律或者准则会在后文的具体优化算法中有所涉及,使用的过程中可能会大大加速优化方法的收敛。
参考文献:
[1] Numerical Optimization. Jorge Nocedal
继续阅读:优化方法基础系列-非精确的一维搜索技术不精确的一维搜索方法核心问题是选取可接受的步长 使得 得到一个满意的水平,即足够的下降且大范围收敛。因此,研究者提出了一些准则,以满足不精确搜索能也能收敛的条件。Armijo-Goldstein和Wolf-Powell准则为非精确一维搜索的两大准则。
Armijo-Goldstein准则核心思想就两点:
这两点意图是非常明显,由于最优化问题就是寻找极小值,所以使得目标函数值下降,是我们努力的方向,此外如果搜索步长太小,可能原地打转,影响收敛速度。具体方法如下:
假设 是一个下降方向,记 ,有:
则 的一个合理的下界(保证下降):
再给其一个上界限制( 不能太小):
那么Armijo-Goldstein准则可描述为:
可接受的 应该满足:
注:如果 不在这个范围内,将影响其超线性收敛性。
令 ,即固定 和方向 ,求解满足条件的步长,则Armijo-Goldstein可写为:
从上图和公式中,可以看出 在 的下方, 在 的下方,所以 区间都是在满足条件的步长。然而,Armijo-Goldstein准则可能会把极值点判断在可接受的范围之外,所以为了解决这一问题,Wolf-Powell准则应用而生。
Algorithm 9 Armijo-Goldstein准则
Wolf-Powell准则下界和Armijo-Goldstein准则是一样的,即:
为了保证足够的步长以及可接受的区间包含极小值点,上界被定义:
也就是:
其说明在点 处的斜率应该大于起始点斜率的 倍。 是负值,所以上界的含义就是可接受的范围中斜率应该是接近零的负值或者正值。
此外,还有一种更为严苛的准则,称为强Wolf调节,即:
强Wolf条件使得可接受的范围的斜率的正值不至于过大,可以将远离极小值点的步长排除在外。一般 越小,线性搜索越精确,不过 越小,工作量越大,一般取
Algorithm 10 Wolf-Powell 准则
后退法仅采用了Armijo-Goldstein准则的下界限制,即保证函数的下降,此外要求 不要太小即可。其基本思想是:
关于这些准则的有效性,比如步长的存在性,大范围收敛性质可参阅刘红英版本的数值规划基础或者Numerical Optimization。后来学者们又发展了Curry-Altman步长律、Danilin-Pshenichuyi步长律、De Leone-Grippo步长律等,这些步长律或者准则会在后文的具体优化算法中有所涉及,使用的过程中可能会大大加速优化方法的收敛。
参考文献:
[1] Numerical Optimization. Jorge Nocedal