Methode der konjugierten Gradienten

Ein Vergleich des einfachen Gradientenverfahren mit optimaler Schrittlänge (in grün) mit dem CG-Verfahren (in rot) für die Minimierung der quadratischen Form eines gegebenen linearen Gleichungssystems. CG konvergiert nach 2 Schritten, die Größe der Systemmatrix ist m=2).

Das CG-Verfahren (von engl. conjugate gradients oder auch Verfahren der konjugierten Gradienten) ist eine effiziente numerische Methode zur Lösung von großen, symmetrischen, positiv definiten Gleichungssystemen der Form $A x = b$ . Es gehört zur Klasse der Krylow-Unterraum-Verfahren. Das Verfahren konvergiert nach spätestens $m$ Schritten, wobei $m$ die Dimension der quadratischen Matrix $A$ ist. Insbesondere ist es aber als iteratives Verfahren interessant, da der Fehler monoton fällt.

Inhaltsverzeichnis

1 Idee des CG-Verfahrens
2 Varianten
3 CG-Verfahren ohne Vorkonditionierung
4 CG-Verfahren mit symmetrischer Vorkonditionierung (PCG-Verfahren)
5 Konvergenzrate des CG-Verfahrens
6 Erweiterung auf unsymmetrische Matrizen
7 Literatur

Idee des CG-Verfahrens

Die Idee des CG-Verfahrens besteht darin, dass das Minimieren von

$E(x):=\frac12\langle Ax,x\rangle - \langle b,x\rangle$

äquivalent zum Lösen von $A x = b$ ist. Hierbei bezeichnet $\langle \cdot,\cdot \rangle$ das euklidische Skalarprodukt.

Der Gradient von $E$ an der Stelle $x k$ ist gerade $r k = A x k - b$ und somit bei großen, dünn besetzten Matrizen schnell zu berechnen. Die Idee des CG-Verfahrens ist es nun, anstelle in Richtung $r k$ wie beim Verfahren des steilsten Abstiegs in eine andere Richtung $d k$ die Funktion $E$ über einen Unterraum zu minimieren. Die Richtungen $d k$ sind dabei alle $A$ -konjugiert, das heißt es gilt

$\langle Ad_i,d_j\rangle=0\qquad\forall i\neq j$ .

Die Iterierten $x k$ des CG-Verfahrens werden dann so gewählt, dass sie das Minimum von $E$ in dem affinen Raum $V k$ , der durch die Vektoren $d_0,\ldots,d_k$ aufgespannt und um $x 0$ verschoben wird, bilden:

$V_k:=x_0+\operatorname{span}\{d_0,\ldots,d_{k-1}\}.$

Es lässt sich zeigen, dass ebenfalls gilt:

$V_k = x_0+\operatorname{span}\{r_0, Ar_0\ldots,A^{k-1}r_0\}.$

Der letzte Teil zeigt, dass die Suchrichtungen den Krylow-Unterraum zu A und $r 0$ aufspannen. Das CG-Verfahren lässt sich deswegen alternativ direkt als Krylow-Unterraum-Verfahren definieren.

Da die Vektoren $d k$ alle $A$ -konjugiert sind, ist die Dimension von $V k$ gerade $k$ . Ist also $A$ eine $m\times m$ -Matrix, so terminiert das Verfahren nach spätestens $m$ Schritten, falls exakt gerechnet wird. Numerische Fehler können durch weitere Iterationen eliminiert werden. Hierzu betrachtet man den Gradienten $r k$ , der das Residuum angibt. Unterschreitet die Norm dieses Residuums einen gewissen Schwellenwert, wird das Verfahren abgebrochen.

Das Verfahren baut sukzessive eine $A$ -orthogonale Basis für den $\mathbb R^m$ auf und minimiert in die jeweilige Richtung bestmöglich.

Das Problem bei dem iterativen Verfahren ist das Finden der optimalen Schrittweite. Um die Güte eines Punktes zu bestimmen ist jeweils eine vollständige Matrixmultiplikation notwendig, welche nebenbei gleich einen neuen Gradienten liefert. Ist die Schrittweite entlang eines vorgegebenen Gradienten zu ungenau, entspricht die Methode eher einem einfachen Downhill-Algorithmus.

Varianten

Es existieren verschiedene Varianten des Verfahrens, z. B. Fletcher-Reeves, Hestenes-Stiefel, Davidon-Fletcher-Powell und Polak-Ribiere.

$β k + 1 = (g k + 1) T g k + 1 / (g k) T g k$ (Fletcher-Reeves)
$β k + 1 = (g k + 1) T (g k + 1 - g k) / (g k) T g k$ (Polak-Ribiere)
$β k + 1 = (g k + 1) T (g k + 1 - g k) / (d k) T (g k + 1 - g k)$ (Hestenes-Stiefel)

CG-Verfahren ohne Vorkonditionierung

Zunächst wählt man ein $x_0 \in \mathbb{R}^m$ beliebig und berechnet:

r 0 = b - A x 0

d 0 = r 0

Für $k = 0, 1,...$ setzt man:

Finde von $x k$ in Richtung $d k$ das Minimum $x k + 1$ und aktualisiere den Gradienten bzw. das Residuum

$\alpha_k=\frac{r_k^T r_k} {d_k^T A d_k}$

x k + 1 = x k + α k d k

$r_{k+1}=r_k-\alpha_k A\,d_k$

Korrigiere die Suchrichtung $d k + 1$ mit Hilfe von $d k$ und $r k + 1$

$\beta_k=\frac{r_{k+1}^T r_{k+1}}{r_k^T r_k}$

d k + 1 = r k + 1 + β k d k

bis das Residuum in der Norm kleiner als eine Toleranz ist ( $\|r_{k+1}\|&amp;lt;\mbox{tol}$ ).

CG-Verfahren mit symmetrischer Vorkonditionierung (PCG-Verfahren)

Die Konvergenz des CG-Verfahren ist nur bei symmetrischen positiv definiten Matrizen gesichert. Dies muss ein Vorkonditionierer berücksichtigen. Bei einer symmetrischen Vorkonditionierung wird das Gleichungssystem $A x = b$ mit Hilfe einer Vorkonditionierer-Matrix $C=KK^T\approx A^{-1}$ zu $K T A K y = K T b$ mit $y = K - 1 x$ transformiert, und darauf das CG-Verfahren angewandt.

Die Matrix $K T A K$ ist symmetrisch, da A symmetrisch ist. Sie ist ferner positiv definit, da nach dem Trägheitssatz von Sylvester $A$ und $K T A K$ die gleichen Anzahlen positiver und negativer Eigenwerte besitzen.

Das resultierende Verfahren ist das sogenannte PCG-Verfahren (von engl. Preconditioned Conjugate Gradient):

Zunächst wählt man ein $x_0 \in \mathbb{R}^m$ beliebig und berechnet:

r 0 = b - A x 0

h 0 = C r 0

d 0 = h 0

Für $k = 0, 1,...$ setzt man:

Finde von $x k$ in Richtung $d k$ das Minimum $x k + 1$ und aktualisiere Gradienten und vorkonditionierten Gradienten

$\alpha_k=\frac{\langle r_k, h_k\rangle}{\langle d_k, A d_k\rangle}$

x k + 1 = x k + α k d k

r k + 1 = r k - α k A d k

(Residuum)

h k + 1 = C r k + 1

Korrigiere die Suchrichtung $d k + 1$

$\beta_k=\frac{\langle r_{k+1}, h_{k+1}\rangle}{\langle r_k, h_k\rangle}$

d k + 1 = h k + 1 + β k d k

bis das Residuum in der Norm kleiner als eine Toleranz ist ( $\|r_{k+1}\|&amp;lt;\mbox{tol}$ ).

Vergleich von ICCG mit CG anhand der 2D-Poisson-Gleichung

Ein häufiger Vorkonditionierer im Zusammenhang mit CG ist die unvollständige Cholesky-Zerlegung. Diese Kombination wird auch als ICCG bezeichnet und wurde in den 1970ern von Meijerink und van der Vorst eingeführt.

Zwei weitere für das PCG-Verfahren zulässige Vorkonditionierer sind der Jacobi-Vorkonditionierer $C = D - 1$ , wobei $D$ die Hauptdiagonale von $A$ ist, und der SSOR-Vorkonditionierer $C=(\frac{1}{2-\omega}(\frac{1}{\omega}D+L)(\frac{1}{\omega}D)^{-1}(\frac{1}{\omega}D+L)^T)^{-1}$ mit $\omega \in (0, \,2)$ , wobei $D$ die Hauptdiagonale und $L$ die strikte untere Dreiecksmatrix von $A$ ist.

Konvergenzrate des CG-Verfahrens

Man kann zeigen, dass die Konvergenzgeschwindigkeit des CG-Algorithmus durch

$\|x_k-x\|_A \le 2\frac{\sqrt{\kappa(A)}-1}{\sqrt{\kappa(A)}+1}\|x_{k-1}-x\|_A$

beschrieben wird. Hierbei ist $κ (A)$ die Kondition der Matrix $A$ , sowie $\|x\|_A = \sqrt{x^T A x}$ die Energienorm von $A$ . $\sqrt{\kappa(A)}-1$ ist nicht negativ, da $A$ symmetrisch und positiv definit ist. Ferner ist deswegen die Kondition

$\kappa(A) = \frac{\lambda_{max}(A)}{\lambda_{min}(A)}.$

Aus der Minimierungseigenschaft lässt sich ferner herleiten, dass

$\frac{\|x_k-x^*\|_A}{\|x_0-x^*\|_A} \leq \max_{z \in \sigma(A)}|p_k(z)|,$

wobei $p k (z)$ ein beliebiges Polynom vom Grad 1 ist mit $p k (0) = 1$ und $x *$ die Lösung. Mit $σ (A)$ ist das Spektrum, also die Menge der Eigenwerte der Matrix A gemeint. Daraus folgt, dass CG ein System zu einer Matrix mit nur k Eigenwerten in k Schritten löst und dass CG für Systeme, bei denen die Eigenwerte in kleinen Umgebungen konzentriert sind, sehr schnell konvergiert. Dies wiederum liefert einen Anhaltspunkt für sinnvolle Vorkonditionierer: Ein Vorkonditionierer ist dann gut, wenn er dafür sorgt, dass die Eigenwerte konzentriert werden.

Erweiterung auf unsymmetrische Matrizen

Ist die Systemmatrix A unsymmetrisch, aber regulär, so kann das CG-Verfahren auf die Normalgleichungen

A T A x = A T b

angewendet werden, da $A T A$ für eine reguläre Matrix A symmetrisch und positiv definit ist. Dieses Verfahren nennt sich auch CGNR, da bei diesem Vorgehen die Norm des Residuums von $b - A x$ minimiert wird. Alternativ gibt es das Verfahren CGNE, welches

A A T y = b

löst mit $x = A T y$ . Hierbei wird der Fehler (Error) minimiert.

Beide Verfahren haben den Nachteil, dass zum Einen $A T$ zur Verfügung stehen muss, was nicht immer gegeben ist und zum Anderen die Kondition von A bei diesem Ansatz quadriert wird, was zur Verlangsamung der Konvergenz führen kann.

Literatur

C. T. Kelley: Iterative Methods for Linear and Nonlinear Equations, SIAM, ISBN 0-89871-352-8
P. Knabner, L. Angermann: Numerik partieller Differentialgleichungen, Springer, ISBN 3-540-66231-6
A. Meister: Numerik linearer Gleichungssysteme, Vieweg 1999, ISBN 3-528-03135-2
William H., Teukolsky, Saul A.:Numerical Recipes in C++, Cambridge University Press 2002, ISBN 0-521-75033-4.
www.cs.cmu.edu An Introduction to the Conjugate Gradient Method Without the Agonizing Pain (PDF)

Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

Verfahren der konjugierten Gradienten — Ein Vergleich des einfachen Gradientenverfahren mit optimaler Schrittlänge (in grün) mit dem CG Verfahren (in rot) für die Minimierung der quadratischen Form eines gegebenen linearen Gleichungssystems. CG konvergiert nach 2 Schritten, die Größe… … Deutsch Wikipedia
Methode der finiten Elemente — Die Finite Elemente Methode (FEM) ist ein numerisches Verfahren zur näherungsweisen Lösung, insbesondere elliptischer partieller Differentialgleichungen mit Randbedingungen. Sie ist auch ein weit verbreitetes modernes Berechnungsverfahren im… … Deutsch Wikipedia
Finite-Elemente-Methode — Die Finite Elemente Methode (FEM), auch „Methode der finiten Elemente“ genannt, ist ein numerisches Verfahren zur Lösung von partiellen Differentialgleichungen. Sie ist ein weit verbreitetes modernes Berechnungsverfahren im Ingenieurwesen und ist … Deutsch Wikipedia
CG-Verfahren — Ein Vergleich des einfachen Gradientenverfahren mit optimaler Schrittlänge (in grün) mit dem CG Verfahren (in rot) für die Minimierung der quadratischen Form eines gegebenen linearen Gleichungssystems. CG konvergiert nach 2 Schritten, die Größe… … Deutsch Wikipedia
Gradientenverfahren — Das Verfahren des steilsten Abstiegs, auch Gradientenverfahren genannt, ist ein Verfahren, das in der Numerik eingesetzt wird, um allgemeine Optimierungsprobleme zu lösen. Dabei geht man (am Beispiel eines Minimierungsproblemes) von einem… … Deutsch Wikipedia
Numerische Verfahren — Die Liste numerischer Verfahren führt Verfahren der numerischen Mathematik nach Anwendungsgebieten auf. Inhaltsverzeichnis 1 Lineare Gleichungssysteme 2 Nichtlineare Gleichungssysteme 3 Numerische Integration 4 Approximation und Interpolation … Deutsch Wikipedia
Liste numerischer Verfahren — Die Liste numerischer Verfahren führt Verfahren der numerischen Mathematik nach Anwendungsgebieten auf. Inhaltsverzeichnis 1 Lineare Gleichungssysteme 2 Nichtlineare Gleichungssysteme 3 Numerische Integration … Deutsch Wikipedia
Quadratisches Sieb — ist ein Begriff aus dem Bereich Zahlentheorie der Mathematik und bezeichnet einen der schnellsten bekannten Algorithmen zur Faktorisierung großer natürlicher Zahlen. Es ist ein allgemeines Faktorisierungsverfahren, d.h. die Laufzeit hängt nur von … Deutsch Wikipedia
Krylov-Unterraum-Verfahren — Krylow Unterraum Verfahren sind iterative Verfahren zum Lösen großer, dünnbesetzter linearer Gleichungssysteme, wie sie bei der Diskretisierung von partiellen Differentialgleichungen entstehen oder von Eigenwertproblemen. Sie sind benannt nach… … Deutsch Wikipedia
Krylov-Unterraumverfahren — Krylow Unterraum Verfahren sind iterative Verfahren zum Lösen großer, dünnbesetzter linearer Gleichungssysteme, wie sie bei der Diskretisierung von partiellen Differentialgleichungen entstehen oder von Eigenwertproblemen. Sie sind benannt nach… … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Methode der konjugierten Gradienten

Inhaltsverzeichnis

Idee des CG-Verfahrens

Varianten

CG-Verfahren ohne Vorkonditionierung

CG-Verfahren mit symmetrischer Vorkonditionierung (PCG-Verfahren)

Konvergenzrate des CG-Verfahrens

Erweiterung auf unsymmetrische Matrizen

Literatur

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Methode der konjugierten Gradienten

Inhaltsverzeichnis

Idee des CG-Verfahrens

Varianten

CG-Verfahren ohne Vorkonditionierung

CG-Verfahren mit symmetrischer Vorkonditionierung (PCG-Verfahren)

Konvergenzrate des CG-Verfahrens

Erweiterung auf unsymmetrische Matrizen

Literatur

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link