CG-Verfahren

CG-Verfahren
Ein Vergleich des einfachen Gradientenverfahren mit optimaler Schrittlänge (in grün) mit dem CG-Verfahren (in rot) für die Minimierung der quadratischen Form eines gegebenen linearen Gleichungssystems. CG konvergiert nach 2 Schritten, die Größe der Systemmatrix ist m=2).

Das CG-Verfahren (von engl. conjugate gradients oder auch Verfahren der konjugierten Gradienten) ist eine effiziente numerische Methode zur Lösung von großen, symmetrischen, positiv definiten Gleichungssystemen der Form Ax = b. Es gehört zur Klasse der Krylow-Unterraum-Verfahren. Das Verfahren liefert nach spätestens m Schritten die exakte Lösung, wobei m die Dimension der quadratischen Matrix A ist. Insbesondere ist es aber als iteratives Verfahren interessant, da der Fehler monoton fällt.

Es wurde zuerst 1952 von Eduard Stiefel und Magnus Hestenes vorgeschlagen.[1] Ein für bestimmte Gleichungssysteme äquivalentes Verfahren schlug auch Cornelius Lanczos Anfang der 1950er Jahre mit dem Lanczos-Verfahren vor.

Inhaltsverzeichnis

Idee des CG-Verfahrens

Die Idee des CG-Verfahrens besteht darin, dass das Minimieren der quadratischen Form

E(x):=\frac12\langle Ax,x\rangle - \langle b,x\rangle

äquivalent zum Lösen von Ax = b ist. Hierbei bezeichnet \langle \cdot,\cdot \rangle das euklidische Skalarprodukt.

Der Gradient von E an der Stelle xk ist gerade \left. \nabla E\right|_{x_k}=Ax_k-b:=-r_k und somit bei großen, dünn besetzten Matrizen schnell zu berechnen. Die Idee des CG-Verfahrens ist es nun, anstelle in Richtung des Residuums rk wie beim Verfahren des steilsten Abstiegs in eine andere Richtung dk die Funktion E über einen Unterraum zu minimieren. Die Richtungen dk sind dabei alle A-konjugiert, das heißt es gilt

\langle Ad_i,d_j\rangle=0\qquad\forall i\neq j.

Die Iterierten xk des CG-Verfahrens werden dann so gewählt, dass sie das Minimum von E in dem affinen Raum Vk, der durch die Vektoren d_0,\ldots,d_k aufgespannt und um x0 verschoben wird, bilden:

V_k:=x_0+\operatorname{span}\{d_0,\ldots,d_{k-1}\}.

Es lässt sich zeigen, dass ebenfalls gilt:

V_k = x_0+\operatorname{span}\{r_0, Ar_0\ldots,A^{k-1}r_0\}.

Der letzte Teil zeigt, dass die Suchrichtungen den Krylow-Unterraum zu A und r0 aufspannen. Das CG-Verfahren lässt sich deswegen alternativ direkt als Krylow-Unterraum-Verfahren definieren.

Da die Vektoren dk alle A-konjugiert sind, ist die Dimension von Vk gerade k. Ist also A eine m\times m-Matrix, so terminiert das Verfahren nach spätestens m Schritten, falls exakt gerechnet wird. Numerische Fehler können durch weitere Iterationen eliminiert werden. Hierzu betrachtet man den Gradienten rk, der das Residuum angibt. Unterschreitet die Norm dieses Residuums einen gewissen Schwellenwert, wird das Verfahren abgebrochen.

Das Verfahren baut sukzessive eine A-orthogonale Basis für den \mathbb R^m auf und minimiert in die jeweilige Richtung bestmöglich.

Das Problem bei dem iterativen Verfahren ist das Finden der optimalen Schrittweite. Um die Güte eines Punktes zu bestimmen ist jeweils eine vollständige Matrixmultiplikation notwendig, welche nebenbei gleich einen neuen Gradienten liefert. Ist die Schrittweite entlang eines vorgegebenen Gradienten zu ungenau, entspricht die Methode eher einem einfachen Downhill-Algorithmus.

CG-Verfahren ohne Vorkonditionierung

Zunächst wählt man ein x_0 \in \mathbb{R}^m beliebig und berechnet:

r0 = bAx0
d0 = r0

Für k = 0,1,... führt man aus:

  • Finde von xk in Richtung dk den Ort xk + 1 des Minimums der Funktion E und aktualisiere den Gradienten bzw. das Residuum
\begin{align}
\alpha_k \;&=\; \frac{d_k^T\,r_k} {d_k^T\,A\,d_k},  \\[.2em]
x_{k+1}  \;&=\; x_k+\alpha_k\,d_k,                  \\[.4em]
r_{k+1}  \;&=\; r_k-\alpha_k\,A\,d_k
\end{align}
  • Korrigiere die Suchrichtung dk + 1 mit Hilfe von dk und rk + 1
\begin{align}
\beta_k \;&=\; \frac{r_{k+1}^T\,r_{k+1}}{r_k^T\,r_k}, \\[.2em]
d_{k+1} \;&=\; r_{k+1}+\beta_k\,d_k,
\end{align}

bis das Residuum in der Norm kleiner als eine Toleranz ist (\|r_{k+1}\|<\text{tol}).

Varianten

Es existieren verschiedene Varianten des Verfahrens, neben der ersten von Fletcher und Reeves z. B. von Hestenes und Stiefel, von Davidon, Fletcher und Powell oder von Polak und Ribiere. Diese sind für quadratische Formen (wie oben definiert) identisch, da die weiteren Terme aufgrund der Orthogonalität der Residuen verschwinden. Verwendet man das CG-Verfahren aber, um eine durch eine quadratische Form angenäherte Funktion zu minimieren, so zeigen diese Varianten oft besseres Konvergenzverhalten als die ursprüngliche Formulierung von Fletcher und Reeves.

  • \beta_{k} = \frac{(r_{k+1})^T r_{k+1}}{(r_k)^T r_k} (Fletcher-Reeves)
  • \beta_{k} = \frac{(r_{k+1})^T (r_{k+1}-r_k)}{(r_k)^T r_k} (Polak-Ribiere)
  • \beta_{k} = \frac{(r_{k+1})^T (r_{k+1}-r_k)}{(d_k)^T (r_{k+1}-r_k)} (Hestenes-Stiefel)

CG-Verfahren mit symmetrischer Vorkonditionierung (PCG-Verfahren)

Die Konvergenz des CG-Verfahrens ist nur bei symmetrischen positiv definiten Matrizen gesichert. Dies muss ein Vorkonditionierer berücksichtigen. Bei einer symmetrischen Vorkonditionierung wird das Gleichungssystem Ax = b mit Hilfe einer Vorkonditionierer-Matrix C=KK^T\approx A^{-1} zu KTAKy = KTb mit y = K − 1x transformiert, und darauf das CG-Verfahren angewandt.

Die Matrix KTAK ist symmetrisch, da A symmetrisch ist. Sie ist ferner positiv definit, da nach dem Trägheitssatz von Sylvester A und KTAK die gleichen Anzahlen positiver und negativer Eigenwerte besitzen.

Das resultierende Verfahren ist das sogenannte PCG-Verfahren (von engl. Preconditioned Conjugate Gradient):

Zunächst wählt man ein x_0 \in \mathbb{R}^m beliebig und berechnet:

r0 = bAx0
h0 = Cr0
d0 = h0

Für k = 0,1,... setzt man:

Finde von xk in Richtung dk das Minimum xk + 1 und aktualisiere Gradienten und vorkonditionierten Gradienten

\alpha_k=\frac{\langle r_k, h_k\rangle}{\langle d_k, A d_k\rangle}
xk + 1 = xk + αkdk
rk + 1 = rk − αkAdk (Residuum)
hk + 1 = Crk + 1

Korrigiere die Suchrichtung dk + 1

\beta_k=\frac{\langle r_{k+1}, h_{k+1}\rangle}{\langle r_k, h_k\rangle}
dk + 1 = hk + 1 + βkdk

bis das Residuum in der Norm kleiner als eine Toleranz ist (\|r_{k+1}\|<\mbox{tol}).

Vergleich von ICCG mit CG anhand der 2D-Poisson-Gleichung

Ein häufiger Vorkonditionierer im Zusammenhang mit CG ist die unvollständige Cholesky-Zerlegung. Diese Kombination wird auch als ICCG bezeichnet und wurde in den 1970ern von Meijerink und van der Vorst eingeführt.

Zwei weitere für das PCG-Verfahren zulässige Vorkonditionierer sind der Jacobi-Vorkonditionierer C = D − 1, wobei D die Hauptdiagonale von A ist, und der SSOR-Vorkonditionierer


C=\left[
  \tfrac{1}{2-\omega}
  \left(\tfrac{1}{\omega}D+L\right)
  \left(\tfrac{1}{\omega}D\right)^{-1}
  \left(\tfrac{1}{\omega}D+L\right)^T
\right]^{-1}

mit \omega \in (0, \,2), wobei D die Hauptdiagonale und L die strikte untere Dreiecksmatrix von A ist.

Konvergenzrate des CG-Verfahrens

Man kann zeigen, dass die Konvergenzgeschwindigkeit des CG-Algorithmus durch

\|x_k-x\|_A \le 2\left(\frac{\sqrt{\kappa(A)}-1}{\sqrt{\kappa(A)}+1}\right)^k\|x_{0}-x\|_A

beschrieben wird. Hierbei ist κ(A) die Kondition der Matrix A, sowie \|x\|_A = \sqrt{x^T A x} die Energienorm von A. \sqrt{\kappa(A)}-1 ist nicht negativ, da A symmetrisch und positiv definit ist. Ferner ist deswegen die Kondition

\kappa(A) = \frac{\lambda_{max}(A)}{\lambda_{min}(A)}.

Aus der Minimierungseigenschaft lässt sich ferner herleiten, dass

\frac{\|x_k-x^*\|_A}{\|x_0-x^*\|_A} \leq \max_{z \in \sigma(A)}|p_k(z)|,

wobei pk(z) ein beliebiges Polynom vom Grad 1 ist mit pk(0) = 1 und x * die Lösung. Mit σ(A) ist das Spektrum, also die Menge der Eigenwerte der Matrix A gemeint. Daraus folgt, dass CG ein System zu einer Matrix mit nur k Eigenwerten in k Schritten löst und dass CG für Systeme, bei denen die Eigenwerte in kleinen Umgebungen konzentriert sind, sehr schnell konvergiert. Dies wiederum liefert einen Anhaltspunkt für sinnvolle Vorkonditionierer: Ein Vorkonditionierer ist dann gut, wenn er dafür sorgt, dass die Eigenwerte konzentriert werden.

Erweiterung auf unsymmetrische Matrizen

Ist die Systemmatrix A unsymmetrisch, aber regulär, so kann das CG-Verfahren auf die Normalgleichungen

ATAx = ATb

angewendet werden, da ATA für eine reguläre Matrix A symmetrisch und positiv definit ist. Dieses Verfahren nennt sich auch CGNR, da bei diesem Vorgehen die Norm des Residuums von bAx minimiert wird. Alternativ gibt es das Verfahren CGNE, welches

AATy = b

löst mit x = ATy. Hierbei wird der Fehler (Error) minimiert.

Beide Verfahren haben den Nachteil, dass zum einen AT zur Verfügung stehen muss, was nicht immer gegeben ist, und zum anderen die Kondition von A bei diesem Ansatz quadriert wird, was zur Verlangsamung der Konvergenz führen kann.

Literatur

Einzelnachweise

  1. Hestenes, Stiefel: Methods of conjugate gradients for solving linear systems, Journal of Research of the National Bureau of Standards, Bd. 49, 1952, S.409Online, pdf

Wikimedia Foundation.

Игры ⚽ Нужно решить контрольную?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Verfahren — Verfahren, verb. irreg. S. Fahren, welches nach Maßgebung des einfachen fahren in verschiedener Bedeutung üblich ist. Es wird auf doppelte Art gebraucht. I. Als ein Neutrum mit dem Hülfsworte seyn, in Einer Bedeutung auch wohl mit haben. 1. Eine… …   Grammatisch-kritisches Wörterbuch der Hochdeutschen Mundart

  • verfahren — ¹verfahren anfassen, behandeln, einen Weg einschlagen, handeln, handhaben, in Angriff nehmen, praktizieren, tätig sein/werden, umgehen, sich verhalten, vorgehen, wirken; (geh.): begegnen, schalten, zu Werke gehen; (bildungsspr.): agieren,… …   Das Wörterbuch der Synonyme

  • verfahren — V. (Aufbaustufe) in einer bestimmten Art und Weise vorgehen Synonyme: anfassen, behandeln, handhaben, in Angriff nehmen, umgehen, anpacken (ugs.) Beispiel: Mit seinen Feinden verfuhr er gnadenlos. Kollokation: nach einem Schema verfahren… …   Extremes Deutsch

  • Verfahren — ¹verfahren anfassen, behandeln, einen Weg einschlagen, handeln, handhaben, in Angriff nehmen, praktizieren, tätig sein/werden, umgehen, sich verhalten, vorgehen, wirken; (geh.): begegnen, schalten, zu Werke gehen; (bildungsspr.): agieren,… …   Das Wörterbuch der Synonyme

  • verfahren — verfahren: Das Verb (mhd. vervarn, mnd. vorvāren, ahd. firfaran, aengl. forfaran) ist eine westgerm. Präfixbildung zu dem unter ↑ fahren behandelten Verb. Es bedeutete zunächst »vorüberziehen, weggehen (sterben, verderben); irrefahren«, dann… …   Das Herkunftswörterbuch

  • Verfahren — verfahren: Das Verb (mhd. vervarn, mnd. vorvāren, ahd. firfaran, aengl. forfaran) ist eine westgerm. Präfixbildung zu dem unter ↑ fahren behandelten Verb. Es bedeutete zunächst »vorüberziehen, weggehen (sterben, verderben); irrefahren«, dann… …   Das Herkunftswörterbuch

  • Verfahren [1] — Verfahren, 1) (Bergb.), einen Gang, ihn bei der Arbeit nicht bemerken, sondern einem Nebengange folgen, od. auch beim Treiben einer Strecke nicht den Ort treffen, welchen man erreichen will; 2) ein Feld, einen Gangverfahren, es mit Schächten od.… …   Pierer's Universal-Lexikon

  • verfahren — Vst. std. (16. Jh.) Stammwort. Im rechtlich technischen Sinne tritt das Wort zuerst im Mittelniederdeutschen auf, entsprechend zu vorgehen, also übertragen aus der räumlichen Bedeutung nach vorne, vorwärts gehen/fahren . Abstraktum: Verfahren.… …   Etymologisches Wörterbuch der deutschen sprache

  • Verfahren [2] — Verfahren, 1) die Behandlung einer rechtlichen Angelegenheit im Allgemeinen; bes. aber 2) die Form u. Aufeinanderfolge der verschiedenen rechtlichen Handlungen, welche bei streitigen Rechtsangelegenheiten vor dem Richter vorzunehmen sind, um die… …   Pierer's Universal-Lexikon

  • Verfahren — Verfahren, in der Rechtssprache eine zusammenhängende Reihe von Rechtshandlungen, die zu gemeinsamem Zwecke vor und von der zuständigen Behörde nach bestehender Gesetzesvorschrift vorgenommen werden. In diesem Sinne wird ein ganzer Prozeß als V.… …   Meyers Großes Konversations-Lexikon

  • Verfahren Schubert-Borsig — zur Schlammförderung, s. Aufbereitung, S. 32 …   Lexikon der gesamten Technik

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”