Algorytm Levenberga-Marquardta

Algorytm Levenberga-Marquardta – algorytm optymalizacji nieliniowej. Jest to algorytm iteracyjny, łączący w sobie cechy metody największego spadku i metody Gaussa-Newtona.

Sformułowanie problemu

Mając daną serię danych $(t_{i}, y_{i}) \in 𝐑^{2},$ gdzie $i = 1, 2, \dots, N,$ szukamy dopasowania $\bar{y} = f (t | 𝐩),$ gdzie $𝐩 \in 𝐑^{n}$ – wektor parametrów. Zakładamy, że najlepszym dopasowaniem jest to minimalizujące funkcjonał:

χ^{2} (f) = χ^{2} (𝐩) = \sum_{i = 1}^{N} [y_{i} - f (t_{i} | 𝐩)]^{2} .

Algorytm Levenberga-Marquardta w ogólności znajduje rozwiązanie zadania optymalizacji nieliniowej funkcji dającej się zapisać w postaci:

Φ (𝐱) = \frac{1}{2} \sum_{i = 1}^{N} r_{i}^{2} (𝐱),

gdzie $𝐱 \in 𝐑^{n}$ i zakładamy, że $N ⩾ n .$ Jak łatwo zauważyć, funkcjonał $χ^{2}$ daje się zapisać w taki sposób. Dla uproszczenia, przedstawmy funkcje $r_{i}$ jako wektor $𝐫 (𝐱) = (r_{1} (𝐱), \dots, r_{N} (𝐱))$ (zwany wektorem rezydualnym). Wtedy $Φ (𝐱) = ‖ 𝐫 (𝐱) ‖^{2} .$ Pochodne funkcji $Φ$ można zapisać przy użyciu Macierzy Jacobiego funkcji $𝐫,$ zdefiniowanego jako ${𝖩 (𝐱)}_{i j} = \frac{\partial r_{i}}{\partial x_{j}} (𝐱) .$ W ogólnym przypadku gradient funkcji $Φ$ można zapisać:

\nabla Φ (𝐱) = \sum_{i = 1}^{N} r_{i} (𝐱) \nabla r_{i} (𝐱) = 𝖩 (𝐱)^{𝖳} 𝐫 (𝐱),

a jej Macierz Hessego:

\nabla^{2} Φ (𝐱) = 𝖩 (𝐱)^{𝖳} 𝖩 (𝐱) + \sum_{i = 1}^{N} r_{j} (𝐱) \nabla^{2} r_{j} (𝐱) .

W przypadku, gdy funkcje $r_{j}$ można aproksymować funkcjami liniowymi w otoczeniu interesującego nas punktu (wtedy $\nabla^{2} r_{j} (𝐱)$ jest bliskie zeru), lub gdy $r_{j} (𝐱)$ jest małe, hesjan funkcji $Φ$ przyjmuje prostszą postać:

\nabla^{2} Φ (𝐱) = 𝖩 (𝐱)^{𝖳} 𝖩 (𝐱),

a więc hesjan można otrzymać wprost mając dany jakobian wektora rezydualnego $𝐫 (𝐱),$ co jest charakterystyczne dla zadania najmniejszych kwadratów.

Opis metody

Najprostszym podejściem do problemu minimalizacji funkcji $Φ$ jest metoda największego spadku, opisana schematem:

𝐱_{i + 1} = 𝐱_{i} - λ \nabla Φ (𝐱_{i}),

która jest, w ogólnym przypadku, wolno zbieżna. Aby poprawić jej zbieżność, można skorzystać z wiedzy o drugiej pochodnej minimalizowanej funkcji w badanym punkcie. Jednym z możliwych podejść jest rozwinięcie gradientu minimalizowanej funkcji w szereg Taylora:

\nabla Φ (𝐱) = \nabla Φ (𝐱_{0}) + (𝐱 - 𝐱_{0})^{𝖳} \nabla^{2} Φ (𝐱_{0}) + \dots

i przyjęcie przybliżenia kwadratowego funkcji $Φ$ w otoczeniu $𝐱_{0}$ do rozwiązania równania $\nabla Φ (\bar{𝐱}) = 0 .$ W ten sposób otrzymujemy metodę Gaussa-Newtona opisaną schematem:

𝐱_{i + 1} = 𝐱_{i} - (\nabla^{2} Φ (𝐱_{i}))^{- 1} \nabla Φ (𝐱_{i}),

gdzie hesjan funkcji $Φ$ nie musi być znany dokładnie i często wystarczy podane wcześniej przybliżenie. Niestety, szybkość zbieżności tej metody zależy od wyboru punktu początkowego, a konkretnie od liniowości minimalizowanej funkcji w otoczeniu punktu startowego. Kenneth Levenberg zauważył, że opisane metody (największego spadku i Gaussa-Newtona) nawzajem się uzupełniają i zaproponował następującą modyfikację kroku metody:

𝐱_{i + 1} = 𝐱_{i} - (𝖧 (𝐱_{i}) + λ 𝖨)^{- 1} \nabla Φ (𝐱_{i}),

(*)

wraz z następującym algorytmem:

oblicz wartość $𝐱_{i + 1}$ na podstawie $𝐱_{i}$ i równania (*),
oblicz wartość błędu w punkcie $𝐱_{i + 1},$
jeśli błąd wzrósł, wróć do wartości $𝐱_{i},$ zwiększ wartość $λ$ $k$ -krotnie i wróć do kroku 1 (przybliżenie liniowe minimalizowanej funkcji w otoczeniu $𝐱_{i}$ okazało się nie dość ścisłe, więc zwiększamy „wpływ” metody największego spadku),
jeśli błąd zmalał, zaakceptuj ten krok i zmniejsz wartość $λ$ $k$ -krotnie (założenie o liniowości minimalizowanej funkcji w otoczeniu $𝐱_{i}$ okazało się wystarczająco ścisłe, więc zwiększamy „wpływ” metody Gaussa-Newtona).

W typowych zastosowaniach $k = 10 .$ W przypadku, gdy $λ$ jest duże, hesjan w zasadzie nie jest wykorzystywany. Donald Marquardt zauważył, że nawet w takiej sytuacji można wykorzystać informację zawartą w drugiej pochodnej minimalizowanej funkcji, poprzez skalowanie każdego komponentu wektora gradientu w zależności od krzywizny w danym kierunku (co pomaga w źle uwarunkowanych zadaniach minimalizacji typu error valley). Po uwzględnieniu poprawki Marquardta otrzymujemy następującą postać kroku metody:

𝐱_{i + 1} = 𝐱_{i} - (𝖧 (𝐱_{i}) + λ diag [𝖧])^{- 1} \nabla Φ (𝐱_{i}),

gdzie:

diag [𝖧] = [\begin{matrix} h_{11} & 0 & \dots & 0 \\ 0 & h_{22} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & h_{n n} \end{matrix}] .

Największą zaletą algorytmu Levenberga-Marquardta jest jego szybka zbieżność, w porównaniu z konkurencyjnymi metodami. Najkosztowniejszą operacją jest natomiast wyznaczenie macierzy odwrotnej, które w praktyce jest przeprowadzane w sposób przybliżony, na przykład przy użyciu metody SVD. Tym niemniej, nawet w najoszczędniejszych przypadkach koszt jednego kroku rośnie niedopuszczalnie wraz ze wzrostem rozmiaru zadania powyżej tysiąca parametrów. Z drugiej dla zadań o umiarkowanej ilości parametrów (rzędu kilkuset), metoda Levenberga-Marquardta jest dużo szybsza od metody największego spadku.

Zobacz też

optymalizacja (matematyka)

Linki zewnętrzne

Szablon:Cytuj stronę

Algorytm Levenberga-Marquardta

Spis treści

Sformułowanie problemu

Opis metody

Zobacz też

Linki zewnętrzne

Menu nawigacyjne

Algorytm Levenberga-Marquardta

Sformułowanie problemu

Opis metody

Zobacz też

Linki zewnętrzne

Menu nawigacyjne

Szukaj