О быстрых вариантах алгоритма отжига (simulated annealing) ·...

О быстрых вариантах алгоритма отжига(simulated annealing)1

Тихомиров А. С., к. ф.-м. н.Новгородский государственный университет, Великий Новгород[email protected], [email protected]

Получены быстрые варианты алгоритма simulated annealing. Показано,что число вычислений невырожденной целевой функции, необходимое длядостижения требуемой точности ε решения задачи при аппроксимации “поаргументу”, может медленно (логарифмически) стремиться к бесконечностипри стремлении ε к нулю.

Ключевые слова: алгоритм отжига, случайный поиск, стохастический поиск,глобальная оптимизация, стохастическая оптимизация.

1. Введение

Пусть целевая функция f : X 7→ R (где, например, X = Rd)

принимает минимальное значение в единственной точке x∗. Рас-смотрим задачу поиска точки глобального минимума x∗ с задан-ной точностью ε (аппроксимация “по аргументу”). Один из способоврешения этой задачи состоит в применении алгоритмов случайно-го поиска экстремума функции (см. [1–10]). Такие методы давно иуспешно используются при решении сложных задач оптимизации.Тем не менее, существует мало теоретических результатов о скоро-сти сходимости этих алгоритмов. Существенное отставание теорииглобального случайного поиска от потребностей практики отмеченов [4] (где в частности написано, что “теория глобальной оптимиза-ции еще не выросла из детского возраста” [4, с. 17]). Это отстава-ние ясно видно по работе [11], в которой методы стохастическойоптимизации сравниваются на основе теоретических оценок скоро-сти сходимости (и хорошо видна нехватка таких оценок). Нехваткатаких оценок ясно видна по книге [5], представляющей обзор совре-менного состояния стохастической глобальной оптимизации.

Данная работа посвящена теоретическому исследованию скоро-сти сходимости некоторых вариантов одного из самых знаменитых

1 c©А. С. Тихомиров, 2009

65

алгоритмов указанного семейства, алгоритма simulated annealing(называемого также “имитация отжига” или “метод отжига”).

В качестве характеристики скорости сходимости алгоритма ис-пользуем число вычислений целевой функции, требуемое для до-стижения заданной точности ε решения задачи. Одна из основныхпричин выбора такой характеристики состоит в том, что именновычисления целевой функции составляют основной объем вычис-лительной работы при выполнении алгоритма simulated annealing.Кроме того, такая характеристика удобна при сравнении различ-ных алгоритмов случайного поиска экстремума между собой. По-дробнее выбранная характеристика обосновывается и обсуждаетсяв [6, с. 13].

Основное внимание в данной работе будет уделено порядку ро-ста числа вычислений целевой функции, требуемого для достиже-ния заданной точности ε решения задачи, при стремлении ε к ну-лю. Такой упрощенный подход нуждается в объяснении. Дело втом, что теоретическое исследование скорости сходимости алгорит-ма simulated annealing оказалось сложной задачей. Известные тео-ретические оценки скорости сходимости этого алгоритма или носятасимптотический характер (см. [11,12]) или очень неточны (см. [5]).Кроме того, все эти оценки показывают крайне медленную скоростьсходимости алгоритма simulated annealing (оценки приведены далеев разделе 2.7). Поэтому основное внимание мы уделим изучениюпорядка скорости сходимости.

Для построения рационального алгоритма необходимо опреде-лить класс функций, к которому априори принадлежит целеваяфункция ( [4, с. 11]). Дело в том, что невозможно построить метод,который бы являлся быстрым для слишком широких классов опти-мизируемых функций (см. [13–15]). В работе получены “быстрые”алгоритмы оптимизации невырожденных целевых функций.

Метод оптимизации будем называть “быстрым”, если число вы-числений целевой функции, требуемое для достижения заданнойточности ε решения задачи, имеет медленный (логарифмический)порядок роста при стремлении ε к нулю (т. е. имеет вид O(| ln ε|α)при α > 0). Метод оптимизации назовем медленным, если он име-ет гораздо более худшую — степенную (т. е. O(1/εα) при α > 0)зависимость требуемого числа вычислений целевой функции от ε.

66

Алгоритм simulated annealing является одним из самых знаме-нитых алгоритмов стохастической глобальной оптимизации, и емупосвящено большое число публикаций. Во многих из них приведе-ны примеры успешного применения метода simulated annealing (см.,например, [8, 9]). При этом по известным теоретическим оценкамскорости сходимости (см., например, [5, 11, 12]) алгоритм simulatedannealing является очень медленным методом оптимизации. В луч-шем случае зависимость требуемого числа вычислений целевой фун-кции от ε имеет вид O(1/εd), где d — размерность пространстваоптимизации. Такой же порядок зависимости от ε имеет “чистыйслучайный поиск” (т. е. простейший алгоритм случайного бросанияточек в множество оптимизации, см. [5, с. 38] или [6, с. 37]). Проци-тируем [5, с. 119]: “The theoretical rate of convergence of the simulatedannealing is very slow; this convergence is based on the convergenceof the pure random search which is contained within the simulatedannealing algorithms . . . ”.

В этой работе доказано, что (при оптимизации невырожденныхцелевых функций) алгоритм simulated annealing может быть быст-рым, если его хорошо организовать. Результаты работы опровер-гают распространенное мнение о том, что с теоретической точкизрения алгоритм simulated annealing является медленным методомоптимизации.

2. Постановка задачи

2.1. Пространство оптимизации

Назовем пространством оптимизации множество оптимиза-ции X , снабженное метрикой ρ. Пусть BX — борелевская σ-алгебрав X . Замкнутый шар радиуса r с центром в точке x обозначим какBr(x) = {y ∈ X : ρ(x, y) 6 r}.

Основным практическим примером таких метрических прост-ранств будет, конечно, евклидово пространство R

d с какой либо“обычной” метрикой ρ. В числовом примере разд. 6 в качестве ρ(x, y),x = (x1, . . . , xd) и y = (y1, . . . , yd), использована метрика

ρ∞(x, y) = max16k6d

|xk − yk|.

67

В качестве другого примера таких метрических пространстврассмотрим множество X = I

d = (0, 1]d. Мы будем использоватьследующий вариант метрики ρ(x, y):

ρ∞(x, y) = max16k6d

%(xk, yk), (1)

где%(xk, yk) = min

{

|xk − yk|, 1− |xk − yk|}

.

Для метрики (1) пространство оптимизации (Id, ρ∞) топологическиявляется d-мерным тором. Выбор метрики тора в кубе I

d вместообычной метрики позволяет рассматривать оптимизацию в R

d и Id

параллельно. В частности, мы получаем возможность вводить в Id

симметричные переходные функции, естественные для Rd (см. [16,

17]). Тем самым удается избежать изучения “краевых эффектов”,возникающих вблизи границы куба.

В то же время для изучения порядков скорости сходимости слу-чайного поиска выбор тора в качестве пространства оптимизациине является принципиальным. Действительно, пусть целевая функ-ция f принимает минимальное значение в единственной точке x∗.При x∗ ∈ (0, 1)d малые окрестности точки x∗ в кубе и торе совпа-дают, и результаты о скорости сходимости, полученные для тора,автоматически переносятся на куб. Выбор метрики тора сказыва-ется здесь только на конструкции поиска.

2.2. Целевая функция

В дальнейшем всегда будет предполагаться, что целевая функ-ция f : X 7→ R ограничена снизу, измерима и удовлетворяет следу-ющему условию.

Условие 1. Функция f принимает минимальное значение вединственной точке x∗ = arg min{f(x) : x ∈ X}.

Кроме того, при построении быстрых алгоритмов случайногопоиска будем требовать выполнения дополнительных условий.

Условие 2. Функция f непрерывна в точке x∗.

Условие 3. Неравенство inf{f(x) : x ∈ Bcr(x∗)} > f(x∗) выпол-

нено для любого r > 0.

68

Здесь через Ac обозначено дополнение множества A в простран-стве X (т. е. Ac = X \A). Ввиду условия 3, из сходимости f(xn)→f(x∗) следует, что ρ(xn, x∗)→ 0. Отметим, что функции указанно-го класса могут быть многоэкстремальными в любой окрестностиглобального минимума.

Схематичное изображение функции f : R 7→ R представлено нарис. 1.

xx*

0

f

Рис. 1: График функции f .

Еще одно условие на целевую функцию f и определение невы-рожденности f будут введены ниже.

2.3. Случайный поиск

Случайным поиском называется произвольная последователь-ность случайных величин {ξi}i>0 со значениями в X . Если после-довательность ξi образует марковскую цепь относительно потокаσ-алгебр σ(ξ0, . . . , ξi), то поиск называется марковским, а если длялюбого i > 1 неравенство f(ξi) 6 f(ξi−1) выполняется с вероятно-стью 1, то поиск является монотонным.

Следуя [4, с. 127] и [5, с. 116] приведем общую схему марков-ских алгоритмов глобального случайного поиска. Обозначение “ζ ←P ( · )” читается как “получить реализацию случайной величины ζ сраспределением P ”. Запишем алгоритм моделирования марковско-го случайного поиска.

69

Алгоритм 1

Шаг 1. ξ0 ← x; i← 1.

Шаг 2. ζi ← Pi(ξi−1, · ).

Шаг 3. ξi ←{

ζi, с вероятностью pi,

ξi−1, с вероятностью 1− pi,

где pi = pi

(

ζi, ξi−1, f(ζi), f(ξi−1))

.

Шаг 4. i← i+ 1 и перейти к шагу 2.

Здесь x — начальная точка поиска. Как обычно, Pi(x, · ) прилюбых i и x ∈ X является вероятностной мерой, и Pi( · , A) для всехi и любого множества A ∈ BX является борелевской функцией в X .В соответствии со структурой алгоритма 1, распределения Pi(x, · )будем называть пробными переходными функциями, а случайныевеличины ζi — пробными точками.

Ниже для вероятностей событий, и математических ожиданийслучайных величин, связанных со случайным поиском алгоритма 1,начинающимся в точке x ∈ X , используются обозначения Px и Ex.

Если вероятности pi на шаге 3 алгоритма 1 задать следующимобразом:

pi =

{

1, если f(ζi) 6 f(ξi−1),

exp(

−βi

(

f(ζi)− f(ξi−1))

)

, если f(ζi) > f(ξi−1),(2)

где βi > 0 при всех i, то получим алгоритм simulated annealing.

Важную роль в дальнейшем исследовании играет марковскиймонотонный случайный поиск. Запишем алгоритм моделированияинтересующего нас марковского монотонного поиска.

Алгоритм 2

Шаг 1. ξ0 ← x; i← 1.

Шаг 2. ζi ← Pi(ξi−1, · ).Шаг 3. Если f(ζi) 6 f(ξi−1), то ξi ← ζi, иначе ξi ← ξi−1.

Шаг 4. i← i+ 1 и перейти к шагу 2.

Марковский монотонный поиск алгоритма 2 можно считать пре-дельным случаем алгоритма simulated annealing с βi = +∞ привсех i.

70

2.4. Цель поиска

Пусть целевая функция f принимает минимальное значение вединственной точке x∗. Случайный поиск используем для отыска-ния точки минимума x∗ с заданной точностью ε (аппроксимация “поаргументу”). При аппроксимации по аргументу нас должно интере-совать попадание поиска в шар Bε(x∗). Может, однако, случитьсятак, что поиск, оказавшись в Bε(x∗) на шаге i, выйдет из Bε(x∗)на одном из последующих шагов. Чтобы избежать анализа такихэффектов, введем множества

Mr ={

x ∈ Br(x∗) : f(x) < f(y) ∀y ∈ Bcr(x∗)

}

.

Легко видеть, что множества Mr обладают следующими свойства-ми: а) x∗ ∈Mr при всех r > 0, б) если r1 < r2, то Mr1

⊂Mr2, в) если

x ∈ Mr и y /∈ Mr, то f(x) < f(y). Подробнее свойства множестваMr приведены в [5, 16, 18].

Монотонный поиск, попав в множество Mε, из него больше невыйдет. Для немонотонного поиска введем величины

ξ∗n = arg min{f(ξ0), . . . , f(ξn)}.

Будем считать, что arg min{f(ξ0), . . . , f(ξn)} = ξj , где

j = max{

i ∈ {0, . . . , n} : f(ξi) = min{f(ξ0), . . . , f(ξn)}}

.

Отметим, что для монотонного поиска алгоритма 2 выполнено ξ∗n =ξn.

Случайная величина ξ∗n, попав в множество Mε, из него большене выйдет. Поэтому мы будем изучать момент попадания поискав множество Mε, где ε сохраняет смысл требуемой точности поис-ка. Соответственно мерой близости точки x к x∗ оказывается нерасстояние ρ(x, x∗), а число

δ(x) = inf{r > 0 : x ∈Mr}. (3)

2.5. Информация о целевой функции

Нам потребуется еще одно ограничение на поведение целевойфункции f :

71

Условие 4.⋃

r>0Mr = X .

Это условие гарантирует попадание любой начальной точки по-иска в множество Mr при некотором r < +∞. Тем самым гаран-тируется конечность функции δ(x), задаваемой формулой (3), прилюбом x ∈ X . В случае, когда diamX < +∞, условие 4 всегдавыполняется, так как Mdiam X = X .

В задачах оптимизации очень важно учитывать свойства целе-вой функции f . От свойств функции f зависит скорость сходимостислучайного поиска к точке экстремума (и оценки этой скорости).Пусть µ : BX 7→ [0,+∞] — мера на σ-алгебре борелевских подмно-жеств X . Ниже вся используемая информация о целевой функцииf будет содержатся в виде коэффициента асимметрии

F f (r) = F (r) = µ(Mr)/µ(Br(x∗)).

Коэффициент асимметрии “сравнивает” поведение f с F -идеальнойодноэкстремальной функцией f∗, для которой F f∗ ≡ 1. Условия 1–4, наложенные на целевую функцию, гарантируют выполнение не-равенства F f (r) > 0 при всех r > 0.

Функции, у которых lim inf F f (r) > 0 при r → 0, будут назы-ваться F -невырожденными (или, кратко, невырожденными).

В частности, если в пространстве Rd с евклидовой метрикой

ρ2 функция f дважды непрерывно дифференцируема в некоторойокрестности точки экстремума x∗ и матрица f ′′(x∗) вторых произ-водных функции f в точке x∗ невырождена, то

limr→0

F f (r) =

√

√

√

√

d∏

i=1

λmin/λi > 0,

где λi — собственные числа матрицы f ′′(x∗) и λmin = minλi > 0.

Иногда вместо F f (r) будет удобно иметь дело с функцией

mf (r) = m(r) = µ(Mr). (4)

Функция mf (r) называется функцией асимметрии целевой функ-ции.

72

Подробнее свойства коэффициента асимметрии F f и функцииасимметрии mf изложены в [5, 16, 18].

Подчеркнем, что быстрые варианты алгоритма simulated annea-ling построены только для невырожденных целевых функций.

2.6. Характеристики случайного поиска

Обозначим τε = min{

i > 0 : ξi ∈Mε

}

— момент первого попада-ния поиска в множество Mε. Как правило предполагается, что длямоделирования распределений Pi не требуется вычислений функ-ции f . Тем самым, на каждом шаге ξi−1 7→ ξi алгоритма 1 проис-ходит ровно одно вычисление целевой функции, и распределениеслучайной величины τε дает нам достаточно полную информациюо качестве случайного поиска. Действительно, при выполнении τεшагов алгоритма значения функции f вычисляются τε+1 раз. Кро-ме того, Px(τε 6 i) = Px(ξ∗i ∈Mε).

Мы рассмотрим две характеристики скорости сходимости слу-чайного поиска. Величина Ex τε имеет смысл среднего числа шаговпоиска до достижения им множества Mε и будет называться тру-доемкостью случайного поиска.

Гарантирующее число шагов N = N(x, f, ε, γ) определяется кактакое минимальное число шагов поиска, при котором достижениемножестваMε гарантировано с вероятностью большей чем γ. Иначеговоря,

N(x, f, ε, γ) = min{

i > 0 : Px(ξ∗i ∈Mε) > γ}

=

= min{

i > 0 : Px(τε 6 i) > γ}

.

(Полагаем N(x, f, ε, γ) = +∞ в случае когда Px(ξ∗i ∈ Mε) 6 γ привсех i > 0).

2.7. Известные теоретические результаты

Приведем известные теоретические результаты, относящиеся кисследуемому поиску. Общие теоремы о сходимости случайного по-иска (применимые в том числе и к алгоритму simulated annealing)приведены в [3–5].

73

За точку отсчета (эталон), при исследовании скорости сходимо-сти случайного поиска, естественно принять скорость сходимоститак называемого “чистого случайного поиска”, т. е. простейшего ал-горитма случайного бросания точек в множество оптимизации (см.,например, [5, с. 38] или [6, с. 37]). Трудоемкость и гарантирующеечисло шагов такого поиска (для невырожденных целевых функций)имеют вид O(1/εd), где d — размерность пространства оптимиза-ции.

В силу известных теоретических результатов о скорости сходи-мости алгоритма simulated annealing (см., например, [5,11,12]) этоталгоритм относится к медленным методам оптимизации.

В [12] исследована скорость сходимости двух вариантов алго-ритма simulated annealing. Для первого из рассмотренных в [12]алгоритмов (см. также [11]) случайный вектор

(ξi − x∗)√

ln (i1−α) +A

(где A — положительная константа, 0 < α < 1) асимптотическинормален с нулевым средним и матрицей ковариаций, зависящейот параметров алгоритма и гессиана функции f в точке x∗. В силуэтого, число вычислений целевой функции, требуемое для выпол-нения неравенства Px

(

ξi ∈ Bε(x∗))

> γ, имеет вид O(

exp(c ε−2))

,где c — положительная постоянная.

Для второго из рассмотренных в [12] алгоритмов случайныйвектор

(ξi − x∗)√

ln ln (i+A)

асимптотически нормален с нулевым средним и матрицей ковари-аций, зависящей от параметров алгоритма и гессиана функции f вточке x∗. В этом случае число вычислений целевой функции, тре-буемое для выполнения неравенства Px

(

ξi ∈ Bε(x∗))

> γ, имеет

вид O(

exp(exp(c ε−2)))

, где c — положительная постоянная.

Полученные оценки O(

exp(c ε−2))

и O(

exp(exp(c ε−2)))

имеюточень плохой порядок зависимости от ε.

Кроме представленных оценок, используются простейшие оцен-ки скорости сходимости, основанные на скорости сходимости “чи-стого случайного поиска”, который входит (в смысле смеси рас-пределений) в пробные переходные функции алгоритма simulated

74

annealing (см. [5, с. 119]). При таком методе получения оценок,оценки трудоемкости и гарантирующего числа шагов алгоритмаsimulated annealing имеют вид O(1/εd), где d — размерность про-странства оптимизации.

Таким образом, по известным ранее теоретическим результатам,даже в лучшем случае зависимость требуемого числа вычисленийцелевой функции от ε для алгоритма simulated annealing имеет видO(1/εd). Такой же порядок зависимости от ε имеет “чистый случай-ный поиск”.

Быстрыми методами оптимизации (невырожденных функций)являются некоторые алгоритмы марковского монотонного случай-ного поиска. В работах [5, 16–20] представлены такие однородныемарковские монотонные поиски, для которых трудоемкость и га-рантирующее число шагов имеют вид O(ln2 ε). Некоторые матери-алы, посвященные быстрым алгоритмам марковского случайногопоиска, можно найти на персональной странице автора на сайтеНовГУ (www.novsu.ru/doc/study/tas1/), а также на сайте журнала“Вестник НовГУ” (www.novsu.ru/press/vestnik/).

Отметим также, что марковские монотонные поиски давно иуспешно используется для решения сложных задач оптимизации(см. [7]).

Таким образом, по известным ранее теоретическим результатам,существует большой разрыв между логарифмическими порядками“быстрых” алгоритмов марковского монотонного случайного поис-ка и степенными порядками алгоритма simulated annealing.

Так как марковский монотонный поиск можно считать предель-ным случаем алгоритма simulated annealing, то можно ожидать,что и некоторые варианты алгоритма simulated annealing окажутсябыстрыми методами оптимизации.

В данной работе представлены такие варианты алгоритма simu-lated annealing, у которых (для невырожденных целевых функций)трудоемкость и гарантирующее число шагов имеют вид O(ln2 ε).Результаты работы показывают, что метод simulated annealing мо-жет на самом деле быть быстрым (с теоретической точки зрения),если его хорошо организовать.

75

3. Сравнение поисков

Рассмотрим ξi — алгоритм simulated annealing, параметры βi

которого (см. формулу (2)) не зависят от номера шага i (т. е. βi =β). Пусть ηi — марковский монотонный поиск, с такими же каку ξi пробными переходными функциями Pi. Следующая теорема(доказанная в [21]) показывает, что марковский монотонный поискявляется предельным случаем алгоритма simulated annealing.

Т е о р е м а 1. Пусть целевая функция f : X 7→ R, прини-мающая минимальное значение в единственной точке x∗, ε > 0и начальная точка поиска x ∈ X фиксированы. Пусть ξi — алго-ритм simulated annealing, параметры βi которого не зависят отномера шага i (т. е. βi = β). Пусть ηi — марковский монотонныйпоиск, с такими же как у ξi пробными переходными функциями.Справедливы следующие утверждения.

1. Пусть i ∈ N и A1, . . . , Ai ∈ BX . Тогда

limβ→+∞

Px(ξ1 ∈ A1, . . . , ξi ∈ Ai) = Px(η1 ∈ A1, . . . , ηi ∈ Ai). (5)

2. Пусть f , ε > 0, γ ∈ (0, 1) и x фиксированы. Пусть N(x, f, ε, γ) иN∗(x, f, ε, γ) — гарантирующие числа шагов поисков ξi и ηi соот-ветственно. Тогда существует такое β0 = β0(x, f, ε, γ) > 0, чтопри всех β > β0

N∗(x, f, ε, γ) > N(x, f, ε, γ).

3. Пусть τε = min{

i > 0 : ξi ∈ Mε

}

и τ∗ε = min{

i > 0 : ηi ∈Mε

}

— моменты первого попадания поисков ξi и ηi в множествоMε. Тогда для всех i ∈ N

limβ→+∞

Px(τε 6 i) = Px(τ∗ε 6 i).

4. Пусть Pi(x,Mε) > cε > 0 при всех i ∈ N и x ∈ X. Пустьτε = min

{

i > 0 : ξi ∈Mε

}

и τ∗ε = min{

i > 0 : ηi ∈Mε

}

. Тогда

limβ→+∞

Ex τε = Ex τ∗ε .

76

Отметим, что доказательство пунктов 2, 3 и 4 теоремы 1 непо-средственно следует из соотношения (5). Поэтому, если при аппрок-симации по аргументу нас будет интересовать попадание поиска вшар Bε(x∗), а не в множество Mε, то пункты 2, 3 и 4 теоремы 1останутся справедливы при замене множества Mε в характеристи-ках скорости сходимости на ε-окрестность экстремума Bε(x∗).

4. Примеры алгоритмов

В рассматриваемых примерах в качестве пространства оптими-зации возьмем множество X = I

d = (0, 1]d с метрикой ρ = ρ∞,задаваемой формулой (1), и d-мерной мерой Лебега µ. Для мет-рики (1) пространство (Id, ρ∞) топологически является d-мернымтором. Отметим что d-мерный объем шара Br(x) не зависит от x.Таким образом, можно ввести функцию ϕ : [0, diamX ] 7→ [0,+∞)равенством

ϕ(r) = µ(

Br(x))

. (6)

Очевидно, что diam Id = 0.5 и ϕ(r) = (2r)d для r 6 0.5.

В этом разделе мы без специальных оговорок полагаем, чторассматриваемые целевые функции удовлетворяют условиям 1–3.В силу этих условий функция асимметрии m является непрерыв-ной справа и неубывающей, кроме того x ∈Mδ(x).

В качестве примеров быстрых алгоритмов случайного поискабудем рассматривать марковский случайный поиск алгоритма 1,пробные переходные функции Pi(x, · ) которого не зависят от но-мера шага i и обладают плотностью p(x, y).

Мы рассмотрим два варианта переходных плотностей p(x, y).В первом случае плотность имеет вид

p(x, y) = g(

ρ(x, y))

, (7)

где ρ — метрика, а g — невозрастающая неотрицательная функция,определенная на множестве (0, diamX ]. Функцию g будем называтьформой поиска, а также формой переходной плотности p. Чтобыфункция p(x, y), определенная в (7), была плотностью, форма по-иска g должна удовлетворять условию нормировки

∫

(0,diam X]

g(r) dϕ(r) = 1. (8)

77

Не умаляя общности, будем считать, что функция g непрерывнаслева.

Простейшим из таких распределений является равномерное рас-пределение Ua(x, · ) в шаре Ba(x) радиуса a > 0 с центром в точкеx ∈ X ,

Ua(x, · ) = µ(

· ∩Ba(x))/

µ(

Ba(x))

.

Форма g = g(a) для такого распределения имеет вид

g(a)(r) =1

ϕ(a)

{

1, при 0 < r 6 a,

0, при r > a.

Марковский поиск c пробными переходными функциями, обла-дающими плотностями вида (7), будем называть марковским сим-метричным случайным поиском.

Второй рассматриваемый тип переходной плотности p(x, y) име-ет вид

p(x, y) =

d∏

k=1

gk

(

%(xk, yk))

, (9)

где x = (x1, . . . , xd), y = (y1, . . . , yd), %(xk, yk) = min{

|xk − yk|, 1 −|xk − yk|

}

(использование % объясняется выбором метрики (1)), аgk — невозрастающие неотрицательные функции, определенные нана множестве (0, diamX ]. Не умаляя общности, будем считать, чтофункции gk непрерывны слева.

Введем функцию χ : (0, diamX ] 7→ [0,+∞) равенством

χ(r) = χp(r) = inf{

p(x, y) : x, y ∈ Br(x∗)}

. (10)

Для переходных плотностей вида (7) или (9) функция χ очевидноне зависит от x∗. Для переходной плотности c формой (7) функцияχ задается формулой

χ(r) = g(

min{2r, diamX})

.

Для переходной плотности вида (9) функция χ задается формулой

χ(r) =

d∏

k=1

gk

(

min{2r, diamX})

.

78

Результаты этого раздела связаны с одной общей оценкой свер-ху трудоемкости Ex τε монотонного однородного поиска. Она по-дробно обсуждается в [16], а ее доказательство для переходнойплотности вида (7) можно найти в [17] и [18]. Для переходной плот-ности вида (9) все результаты доказываются совершенно аналогич-но.

При 0 < ε < δ 6 diamX введем величину

I(δ, ε; f, χ) =1

m(δ)χ(δ)+

∫

(ε,δ]

1

χ(r)d

( −1

m(r)

)

. (11)

В формуле (11) функция m — это функция асимметрии, введен-ная в (4), а функция χ определяется переходной плотностью поформуле (10). Интеграл в правой части (11) понимается в смыслеЛебега-Стилтьеса. Отметим, что функции m и χ монотонны и от-делены от нуля на промежутке [ε, δ], если только функция χ строгоположительна в точке δ. Поэтому в этих условиях величина I ко-нечна.

Далее мы без специальных оговорок предполагаем, что началь-ная точка поиска x /∈ Mε (при x ∈ Mε задача поиска решена изна-чально). Таким образом ε < δ(x), где функция δ(x) задается фор-мулой (3).

Т е о р е м а 2. Пусть функция f удовлетворяет условиям1–3. Рассмотрим однородный марковский монотонный случайныйпоиск, начинающийся в точке x ∈ X. Пусть переходная плот-ность поиска имеет вид (7) или (9). Тогда при 0 < ε < δ(x) иχ(δ(x)) > 0 верно неравенство

Ex τε 6 I(

δ(x), ε; f, χ)

. (12)

Величина I(δ(x), ε; f, χ) зависит от функции асимметрии m (со-держащей в себе информацию о целевой функции f), начальнойточки x, требуемой точности решения задачи ε и от функции χ,определяемой переходной плотностью. Обозначим

Fε,x = inf{

F f (r) : ε 6 r < δ(x)}

, (13)

и заметим, что в силу условий 1–3 выполнено соотношение Fε,x > 0.Полезную информацию о зависимости I от свойств целевой функ-ции и начальной точки поиска дает следующее утверждение.

79

Л е м м а 1. 1. Пусть 0 < ε < δ, функция χ задаетсяформулой (10), а функции f1 и f2 таковы, что F f1(r) > F f2(r)при всех r ∈ [ε, δ). Тогда I(δ, ε; f1, χ) 6 I(δ, ε; f2, χ).2. Если 0 < ε < δ1 6 δ2, то I(δ1, ε; f, χ) 6 I(δ2, ε; f, χ).3. Если 0 < ε < δ(x), то I

(

δ(x), ε; f, χ)

6 F−1ε,x I

(

δ(x), ε; f∗, χ)

, гдеδ(x) задается формулой (3), Fε,x задается формулой (13), а f∗ —F -идеальная целевая функция.

Из неравенств леммы 1 следует, что в оценке (12) теоремы 2,вместо коэффициента асимметрии F f и величины δ(x), точные зна-чения которых могут быть неизвестны, можно использовать (по-ложительную) оценку коэффициента асимметрии снизу и оценкусверху величины δ(x).

Получим простейшую оценку гарантирующего числа шагов дляоднородного поиска. В условиях теоремы 2, в силу неравенстваМаркова, имеет место неравенство

Px

(

τε < I(δ(x), ε; f, χ)/(1 − γ))

> γ.

Значит величина[

I(δ(x), ε; f, χ)/(1 − γ)]

(14)

служит оценкой сверху гарантирующего числа шагов однородногопоиска (где через [z] обозначена целая часть числа z).

Более точные оценки гарантирующего числа шагов для невы-рожденных целевых функций и некоторых видов однородных поис-ков приведены в [16] и [19]. Но эти оценки имеют такой же порядокзависимости от ε как и величина (14). Поэтому мы воспользуемсяпростейшей оценкой (14).

Как показано в [16], неравенство (12) не может дать лучшую попорядку оценку трудоемкости при малых ε, чем O(ln2 ε). Мы рас-смотрим примеры переходных плотностей, которые (для невырож-денных целевых функций) обеспечивают наилучший возможныйпорядок зависимости I от ε, и кроме того легко моделируются.

80

Пример 1. В качестве первого примера рассмотрим переход-ные плотности вида (7), формы которых задаются следующим об-разом. Пусть 0 < ν < θ 6 Θ 6 diamX и

g(r) =1

2dλ

ν−d, при 0 < r 6 ν,

r−d, при ν < r 6 θ,

θ−d, при θ < r 6 Θ,

0, иначе,

(15)

где λ = d ln(θ/ν) + Θd/θd — нормирующая константа.

Процедура моделирования переходных функций P (x, · ), имею-щих симметричные плотности вида p(x, y) = g

(

ρ(x, y))

, где g зада-ется формулой (15), очень проста и описана далее в разделе 5.

В качестве примера рассмотрим семейство форм поиска опреде-ляемых формулой (15) в случае когда значение параметра ν зави-сит от требуемой точности решения задачи ε и задается формулойν = εω, где ω — положительная постоянная. Чтобы обеспечить по-ложительность χ в точке δ(x) для любой начальной точки x ∈ Xположим Θ = diam I

d.

Отметим также, что форма поиска минимизирующая величинуI для F -идеальной целевой функции f∗ также имеет вид (15) (см.[16] и [17]). В этом случае ν = 2 d

√2ε и θ = Θ/ d

√2. Соотношение

θ = Θ/ d√

2 будет использовано в числовом примере раздела 6.

Применяя теорему 2 и лемму 1, а также вычисляя величинуI(

δ(x), ε; f∗, χ)

, где f∗ — F -идеальная целевая функция, получимследующее утверждение.

Т е о р е м а 3. Пусть функция f удовлетворяет условиям1–3. Рассмотрим однородный марковский монотонный симмет-ричный случайный поиск, начинающийся в точке x ∈ X. Пустьформа поиска g задается равенством (15), где 0 < ν = εω < θ 6

Θ = diam Id, ω и θ — положительные постоянные. Тогда

Ex τε 6 I(

δ(x), ε; f, χ)

6 F−1ε,x I

(

δ(x), ε; f∗, χ)

= F−1ε,xO(ln2 ε),

где f∗ — F -идеальная целевая функция.

Таким образом однородный марковский монотонный симмет-ричный случайный поиск теоремы 3 является быстрым. При оп-тимизации невырожденных целевых функций его трудоемкость и

81

гарантирующее число шагов имеют вид O(ln2 ε). Кроме того проб-ные переходные функции этого монотонного поиска удовлетворяютусловиям теоремы 1. Поэтому справедлива следующая теорема.

Т е о р е м а 4. Пусть функция f , удовлетворяющая усло-виям 1–3, ε > 0, γ ∈ (0, 1) и начальная точка поиска x ∈ X фикси-рованы. Пусть ξi — алгоритм simulated annealing, параметры βi

которого не зависят от номера шага i (т. е. βi = β). Пусть фор-ма поиска g задается равенством (15), где 0 < ν = εω < θ 6 Θ =diam I

d, ω и θ — положительные постоянные. Тогда существуеттакое β0 = β0(x, f, g, ε, γ) > 0, что при всех β > β0 справедливынеравенства

Ex τε 6 I(

δ(x), ε; f, χ)

+ 1, N(x, f, ε, γ) 6[

I(δ(x), ε; f, χ)/(1− γ)]

.

Таким образом алгоритм simulated annealing теоремы 4 являет-ся быстрым. При оптимизации невырожденных целевых функцийего трудоемкость и гарантирующее число шагов имеют вид O(ln2 ε).

Пример 2. Для построения примера с переходной плотностьювида (9) воспользуемся распределением, применяемым Л. Ингберомв методе сверхбыстрого отжига (very fast annealing) см. [8, 9].

Пусть случайный вектор Ψ∗ = (ψ∗1 , . . . , ψ

∗d) со значениями в

[−1, 1]d имеет плотность h(x), задаваемую следующей формулой

h(x) =

d∏

k=1

1

2(|xk|+ c) ln(1 + 1/c), (16)

где x = (x1, . . . , xd), xk ∈ [−1, 1], c = const > 0.

Используя метод обратных функций (см., например, [22]) несложно получить моделирующую формулу для ψ∗

k:

ψ∗k = sgn(αk − 1/2)c

(

(1 + 1/c)|2αk−1| − 1)

,

где через αk обозначена случайная величина равномерно распреде-ленная на [0, 1].

Для построения изучаемого поиска используем случайный век-тор Ψ = (ψ1, . . . , ψd) c распределением, аналогичным (16) и со зна-

82

чениями в [−1/2, 1/2]d. Для получения вектора Ψ компоненты век-тора Ψ∗ нужно поделить на 2. Таким образом приходим к следую-щей моделирующей формуле для ψk:

ψk = sgn(αk − 1/2)c(

(1 + 1/c)|2αk−1| − 1)

/2. (17)

Для получения новой пробной точки ζi на i-ой итерации алго-ритмов 1 и 2 воспользуемся формулой

ζi = ξi−1 ⊕ Ψi, (18)

где ξi−1 — “текущая” точка поиска, а ⊕ означает знак сложения помодулю 1.

В качестве примера рассмотрим семейство пробных переходныхфункций, определяемых формулами (17) и (18) в случае когда зна-чение параметра c зависит от требуемой точности решения задачиε и задается формулой c = εω, где ω — положительная постоянная.

Применяя теорему 2 и лемму 1, а также оценивая величинуI(

δ(x), ε; f∗, χ)

, где f∗ — F -идеальная целевая функция, получимследующее утверждение.

Т е о р е м а 5. Пусть функция f удовлетворяет условиям1–3. Рассмотрим однородный марковский монотонный случайныйпоиск, начинающийся в точке x ∈ X, пробные переходные функ-ции которого задаются формулами (17) и (18), где c = εω, ω —положительная постоянная. Тогда

Ex τε 6 I(

δ(x), ε; f, χ)

6 F−1ε,x I

(

δ(x), ε; f∗, χ)

= F−1ε,xO(ln2 ε),

где f∗ — F -идеальная целевая функция.

Таким образом однородный марковский монотонный случайныйпоиск теоремы 5 является быстрым. При оптимизации невырож-денных целевых функций его трудоемкость и гарантирующее числошагов имеют вид O(ln2 ε). Кроме того пробные переходные функ-ции этого монотонного поиска удовлетворяют условиям теоремы 1.Поэтому справедлива следующая теорема.

Т е о р е м а 6. Пусть функция f , удовлетворяющая усло-виям 1–3, ε > 0, γ ∈ (0, 1) и начальная точка поиска x ∈ X фик-сированы. Пусть ξi — алгоритм simulated annealing, параметры

83

βi которого не зависят от номера шага i (т. е. βi = β). Пустьпробные переходные функции задаются формулами (17) и (18), гдеc = εω, ω — положительная постоянная. Тогда существует та-кое β0 = β0(x, f, ω, ε, γ) > 0, что при всех β > β0 справедливынеравенства

Ex τε 6 I(

δ(x), ε; f, χ)

+ 1, N(x, f, ε, γ) 6[

I(δ(x), ε; f, χ)/(1− γ)]

.

Таким образом алгоритм simulated annealing теоремы 6 являет-ся быстрым. При оптимизации невырожденных целевых функцийего трудоемкость и гарантирующее число шагов имеют вид O(ln2 ε).

Отметим, что полученный в примерах 1 и 2 порядок O(ln2 ε)зависимости от ε не является оптимальным. Его можно немногоулучшить, если воспользоваться описанными в [16] и [20] неодно-родными поисками.

5. О моделировании распределений

с симметричными плотностями

Алгоритм моделирования марковского симметричного случай-ного поиска примера 1 основан на моделировании пробных пере-ходных функций P (x, · ), имеющих симметричные плотности видаp(x, y) = g

(

ρ(x, y))

, где ρ — метрика, а g — невозрастающая неотри-цательная непрерывная слева функция, удовлетворяющая условиюнормировки (8).

Нам потребуется процедура моделирования не только в про-странстве (Id, ρ∞), но и в пространстве (Rd, ρ∞). Будем рассматри-вать оба пространства одновременно. Для этого в случае diamX <

+∞ при r > diamX формально положим g(r)def= 0. Таким образом,

теперь во всех случаях g : (0,+∞) 7→ [0,+∞). Функция ϕ (задавае-мая формулой (6)) в случае R

d определена при всех r ∈ [0,+∞).

Поскольку в пространствах (Id, ρ∞) и (Rd, ρ∞) процедура мо-делирования равномерного распределения Ua(x, · ) в шаре Ba(x)очень проста, возникает мысль представить любое распределениеP (x, · ) с симметричной плотностью p(x, y) в виде смеси равномер-ных распределений в шарах. Следующая теорема доказана в [23].

84

Т е о р е м а 7. Пусть g — невозрастающая неотрица-тельная непрерывная слева функция, удовлетворяющая условиюнормировки (8), и пусть переходная функция P (x, · ) имеет плот-ность p(x, y) = g

(

ρ(x, y))

. Тогда

P (x, · ) =

∫

(0,+∞)

Ur(x, · )ϕ(r) d(

−g(r))

. (19)

Интеграл в (19) понимается в смысле Лебега-Стилтьеса. Соглас-но (19), для моделирования P (x, · ) нам достаточно уметь модели-ровать одномерное распределение с функцией распределения F (r),задаваемой при r > 0 следующей формулой

F (r) =

∫

(0,r)

ϕ(t) d(

−g(t))

. (20)

При некоторых g это можно делать стандартным методом обрат-ных функций. Соответствующим примером служит форма поискаg задаваемая формулой (15).

Пусть (X, ρ) = (Rd, ρ∞) или (Id, ρ∞). Пусть 0 < ν < θ 6 Θ (длятора Θ 6 diam I

d) и g задается формулой (15). Для формы поиска(15) функция распределения (20) имеет вид

F (r) =

0, при r 6 ν,

d ln(r/ν)/λ, при ν < r 6 θ,

d ln(θ/ν)/λ, при θ < r 6 Θ,

1, при r > Θ.

(21)

Для моделирования воспользуемся методом обратных функций(см., например, [22]). При 0 < y < 1 зададим функцию G следую-щим образом:

G(y) = inf{

r : F (r) > y}

. (22)

Через α обозначим равномерно распределенную на [0, 1] случайнуювеличину. Тогда случайная величина G(α) будет иметь требуемоераспределение.

Для функции распределения (21) функция (22) задается следу-ющей формулой

G(y) =

{

ν exp(λy/d), при 0 < y < d ln(θ/ν)/λ,

Θ, при d ln(θ/ν)/λ 6 y < 1.(23)

85

Используя формулу (23), приходим к алгоритму моделирова-ния случайного вектора ζ, имеющего распределение P (x, · ) с фор-мой (15).

Алгоритм моделирования 1

Шаг 1. Получить α.

Шаг 2. Если α > d ln(θ/ν)/λ, то r← Θ, иначе r← ν exp(

λα/d)

.

Шаг 3. ζ ← Ur(x, · ); STOP.

Отметим, что в многомерном случае данная процедура модели-рования проще процедуры моделирования примера 2 (при исполь-зовании распределения применяемого Л. Ингбером). Дело в том,что там трудоемкую операцию возведения в степень нужно выпол-нить d раз (для каждой координаты вектора), а здесь трудоемкуюоперацию вычисления экспоненты нужно выполнить 1 раз при по-лучении радиуса. Зато там можно использовать разные распреде-ления для разных координат (см. [8, 9]).

6. Числовой пример быстрого поиска

В заключение приведем простой (но важный для обсужденияполученных результатов) пример применения алгоритма simulatedannealing. Пример взят из известной книги [6, с. 219]. Здесь про-странствоX = R

2, x = (x1, x2), f(x) = f(x1, x2) = x41+x

21+x1x2+x

22.

Функция f принимает минимальное значение в единственной точ-ке x∗ = (0, 0) и f(x∗) = 0. Разумеется, f является очень простойфункцией, и для ее оптимизации не нужно использовать методыстохастической глобальной оптимизации. Тем не менее, начинатьисследование случайного поиска нужно с простой функции вродеf , и именно эта функция рассмотрена в книге [6, с. 219]. Большуючасть таблицы 1 составляют данные таблицы 8.2 [6, с. 220]. Только вдвух последних столбцах этой таблицы (озаглавленных “Пример 1”и “Пример 2”) представлены результаты данной работы. В табли-це 1 приведены оценки минимального значения целевой функции f ,полученные после применения N шагов исследуемых поисков. Точ-нее в таблице 8.2 даны средние значения функции f , полученныепри 40 повторениях рассматриваемых алгоритмов.

Начальной точкой поиска выбрана x = (1, 1). В столбцах оза-главленных T = 0.01, T = 0.1, T = 1, приведены результаты работы

86

алгоритма simulated annealing книги [6] при различных значени-ях параметра T , интерпретируемого как начальная температура.В книге [6, с. 220] отмечено, что значительные усилия были по-трачены на эффективный выбор параметров алгоритма simulatedannealing. Процитируем [6, с. 220]: “Reasonable efforts were made totune the SAN parameters to enhance the performance of the algorithm”.

В столбце таблицы озаглавленном “Пример 1” представлены ре-зультаты поиска примера 1 данной работы. Поиск примера 1 легкопереносится из пространства I

2 в пространство R2. В качестве фор-

мы поиска была использована функция g, задаваемая формулой(15) с параметрами Θ = 0.6 и θ = Θ/

√2 (соотношение θ = Θ/

√2

получено при оптимизации величины I). Значение ν выбиралосьблизким к ожидаемой точности поиска при аппроксимации по ар-гументу (в данном примере использовались значения ν1 = 0.02,ν2 = 2 × 10−7, ν3 = 10−23). Значения βi задавались формулойβi = 100 × 1.04i−1. Здесь для оценки минимального значения fпоиск повторялся 500 раз.

N T = 0.01 T = 0.1 T = 1 Пример 1 Пример 2100 1.86 0.091 0.763 0.00023 0.000281000 0.0092 0.067 0.506 7.3× 10−14 1.1× 10−12

10000 0.00038 0.0024 0.018 7.0× 10−48 7.9× 10−39

Таблица 1: Сравнение поисков.

Хорошо видно, что поиск примера 1 оказался значительно точ-нее алгоритма simulated annealing с параметрами работы [6]. Приэтом, при больших значениях N преимущество становиться огром-ным. При N = 10000 алгоритм simulated annealing с полученны-ми параметрами в 1043 раз точнее алгоритма simulated annealingс параметрами работы [6]. Кроме того, никаких особых усилий поподбору параметров исследуемого поиска не прилагалось.

В столбце таблицы озаглавленном “Пример 2” представлены ре-зультаты поиска примера 2 данной работы. (Поиск примера 2 так-же легко переносится из пространства I

2 в пространство R2). Поиск

примера 2 значительно точнее алгоритма simulated annealing с па-раметрами работы [6], но несколько хуже поиска примера 1. Впро-чем на результаты сравнения поисков примеров 1 и 2 мог повлиятьнеудачный выбор параметров поиска.

87

Список литературы

[1] Ермаков С.М., Жиглявский А.А. О случайном поиске гло-бального экстремума // Теория вероятностей и ее применения.1983. № 1. С. 129–136.

[2] Ермаков С.М., Жиглявский А.А., Кондратович М.В. О срав-нении некоторых процедур случайного поиска глобального экс-тремума // Журнал вычислительной математики и математи-ческой физики. 1989. Том 29. № 2. С. 163–170.

[3] Жиглявский А.А. Математическая теория глобального слу-чайного поиска. — Л.: Изд-во Ленингр. ун-та. 1985.

[4] Жиглявский А.А., Жилинскас А.Г. Методы поиска глобально-го экстремума. — М.: Наука, 1991.

[5] Zhigljavsky A., Zilinskas A. Stochastic Global Optimization. —Berlin: Springer-Verlag. 2008.

[6] Spall J.C. Introduction to stochastic search and optimization:estimation, simulation, and control. — New Jersey: Wiley. 2003.

[7] Абакаров А.Ш., Сушков Ю.А. Статистическое исследованиеслучайного поиска // Матем. модели. Теория и прилож.Вып. 2. СПб: Изд-во НИИХ СПбГУ. 2002. C. 70–86.

[8] Ingber L. Very fast simulated re-annealing // Mathl. Comput.Modelling. 1989. Vol. 12. P. 967–973.

[9] Лопатин А.С. Метод отжига // Стохастическая оптимизацияв информатике. 2005. Вып. 1. С. 133–149.

[10] Граничин О.Н., Поляк Б.Т. Рандомизированные алгоритмыоценивания и оптимизации при почти произвольных помехах.— М.: Наука. 2003.

[11] Spall J.C., Hill S.D., Stark D.R. Theoretical framework forcomparing several stochastic optimization approaches // Proba-bilistic and Randomized Methods for Design Under Uncertainty.— London: Springer-Verlag. 2006. P. 99–117.

88

[12] Yin G. Rates of convergence for a class of global stochasticoptimization algorithms // SIAM Journal on Optimization. 1999.Vol. 10. No. 1. P. 99–120.

[13] Немировский А.С., Юдин Д.Б. Сложность задач и эффектив-ность методов оптимизации. — М.: Наука. 1979.

[14] Сухарев А.Г. Минимаксные алгоритмы в задачах численногоанализа. — М.: Наука. 1989.

[15] Иванов В.В. Об оптимальных алгоритмах минимизации функ-ций некоторых классов // Кибернетика. 1972. № 4. С. 81–94.

[16] Тихомиров А.С., Некруткин В.В. Марковский монотонный по-иск экстремума. Обзор некоторых теоретических результатов// Матем. модели. Теория и прилож. Вып. 4. СПб: ВВМ, 2004.С. 3–47.

[17] Tikhomirov A., Stojunina T., Nekrutkin V. Monotonous randomsearch on a torus: Integral upper bounds for the complexity //Journal of Statistical Planning and Inference. 2007. Vol. 137.Is. 12. P. 4031–4047.

[18] Тихомиров А.С. Об однородном марковском монотонном поис-ке экстремума // Ж. вычисл. матем. и матем. физ. 2006. Т. 46,№ 3. С. 379–394.

[19] Тихомиров А.С. О скорости сходимости однородного марков-ского монотонного поиска экстремума // Ж. вычисл. матем. иматем. физ. 2007. Т. 47. № 5. С. 817–828.

[20] Nekrutkin V.V., Tikhomirov A.S. Speed of convergence as afunction of given accuracy for random search methods // ActaApplicandae Mathematicae. 1993. Vol. 33. P. 89–108.

[21] Тихомиров А.С. О трудоемкости алгоритма simulated annea-ling. Деп. в ВИНИТИ, № 230–В2007. 19 c.

[22] Кропачева Н.Ю., Тихомиров А.С. Моделирование случайныхвеличин: Методические указания. НовГУ им. Ярослава Муд-рого. Великий Новгород. 2004.

89

[23] Тихомиров А.С. О моделировании случайных векторов с моно-тонными симметричными плотностями // Вестник Новгород-ского государственного университета. Сер. Техн. науки. 2004.№ 28. С. 111–113.

О быстрых вариантах алгоритма отжига (simulated annealing) ·...

Documents

Transcript of О быстрых вариантах алгоритма отжига (simulated annealing) ·...