Projektionsmatrix

Modell einer Lochkamera. Die Abbildung des 3D-Objektes kann mathematisch mit der Projektionsmatrix beschrieben werden.

Nimmt eine Kamera ein Objekt auf, so bildet sich das Objekt auf dem Kamerabild ab. Diese Abbildung (auch Projektion genannt) wird mathematisch durch die so genannte Projektionsmatrix $\mathbf{P}$ beschrieben. Diese ist eine spezielle Matrix aus dem Bereich Computer Vision und beschreibt die perspektivische Abbildung eines dreidimensionalen Objektpunktes an die zweidimensionale Bildposition.

Inhaltsverzeichnis

1 Einleitung und Anwendung
2 Geometrische Deutung der Projektionsmatrix
3 Zerlegung der Projektionsmatrix
4 Berechnung der Projektionsmatrix aus Punktkorrespondenzen
5 Radiale Verzeichnung
6 Einzelnachweise
7 Literatur

Einleitung und Anwendung

Die Projektionsmatrix beschreibt die perspektivische Abbildung eines dreidimensionalen Objektpunktes $\mathbf{X}=[X\; Y\; Z\; W]$ an die Bildposition $\mathbf{x}=[x\; y\; w]$ durch eine Kamera. Dabei gilt folgender Zusammenhang zwischen Objekt- und Bildpunkt:

$\begin{bmatrix} x \\ y \\ w \end{bmatrix} = \begin{bmatrix} p_{11} & p_{12} & p_{13} & p_{14} \\ p_{21} & p_{22} & p_{23} & p_{24} \\ p_{31} & p_{32} & p_{33} & p_{34} \end{bmatrix} \begin{bmatrix} X \\ Y \\ Z \\ W \end{bmatrix} \quad \cong \quad \mathbf{x}=\mathbf{PX}$

Die Abbildung des Objektpunktes auf die Bildebene wird hier mit den in der projektiven Geometrie benutzten homogenen Koordinaten beschrieben. Homogene Koordinaten sind gegenüber kartesischen oder affinen Koordinaten um eine Koordinate erweitert und nur bis auf einen Skalierungsfaktor eindeutig. Den zweidimensionalen kartesischen oder affinen Koordinaten $x,\, y$ entsprechen die homogenen Koordinaten $u,\, v,\, w=wx,\, wy,\, w$ . Die homogenen Koordinaten $u,\, v,\, w$ und $u/w,\, v/w,\, 1=x,\, y,\, 1$ repräsentieren denselben Punkt. Entsprechendes gilt für den dreidimensionalen Raum. Die Projektionsmatrix führt somit eine Transformation der projektiven Räume $\mathbb{P}^3$ in $\mathbb{P}^2$ durch. Die Elemente der Projektionsmatrix hängen dabei von den Orientierungsparametern der Kamera ab. Diese sind im Einzelnen der innere Aufbau der Kamera („innere Orientierung“) und die Lage der Kamera im Raum sowie die Blickrichtung der Kamera („äußere Orientierung“).

Die innere Orientierung $\mathbf{K}$ der Kamera setzt sich aus folgenden Elementen zusammen:

Der Kammerkonstante c als Abstand zwischen Bildebene und Linse der Kamera.
Der Anzahl der Bildpunkte pro Millimeter in Richtung der x-Achse ( $k x$ ) und y-Achse ( $k y$ ).
Der Position des Bildhauptpunktes $h 0 = (x 0, y 0)$ als der Durchstosspunkt der optischen Achse durch die Bildebene und
dem Scherungswinkel Θ zwischen den Bildachsen.

Zusammengefasst wird das in der Kalibrierungsmatrix $\mathbf{K}$ :

$\mathbf{K}= \begin{bmatrix} ck_x & -ck_x\cot(\Theta) & x_0 \\ 0 & ck_y/\sin(\Theta) & y_0 \\ 0 & 0 & 1 \end{bmatrix}$

Im Weiteren wird die Position einer Kamera bezüglich des Weltkoordinatensystems mit $\mathbf{C}$ , die Aufnahmerichtung mit $\mathbf{R}$ bezeichnet. Letzteres ist eine 3×3-Rotationsmatrix. Für $\mathbf{P}$ ergibt sich damit:

$\mathbf{P}=\mathbf{KR}[\mathbf{I}|-\mathbf{C}]$

( $\mathbf{I}$ ist die 3×3 Einheitsmatrix). Da $[\mathbf{I}|-\mathbf{C}]$ eine 3x4 große Matrix ist, ist $\mathbf{P}$ ebenfalls 3x4 groß. $\mathbf{P}$ ist somit eindeutig bestimmt.

Der Vorteil der Projektionsmatrix gegenüber anderen Darstellungsformen wie der Kollinearitätsgleichung ist ihre kompakte Darstellung in einer einzigen Matrix. Dadurch entfällt die explizite Angabe der einzelnen Orientierungsparameter. Auch etwaige Unklarheiten über die Reihenfolge der Transformationsschritte treten nicht auf. Sie wird überall angewendet, wo entsprechende Abbildungen durch eine Kamera durchgeführt werden. Dies ist zum Beispiel auf den Gebieten der Photogrammetrie bei der Bestimmung von 3D-Koordinaten und der Kalibrierung, Computer Vision und in der projektiven Geometrie der Fall. Meist wird von den aufgezeichneten Bildpunkten auf die Koordinaten der beobachteten Objektpunkte rückgerechnet.

Geometrische Deutung der Projektionsmatrix

Die Elemente von $\mathbf{P}$ sind geometrisch deutbar. Die Zeilen $p i$ der Matrix $\mathbf{P}$ sind 4-Vektoren und können als Ebenen im projektiven Raum $\mathbb{P}^3$ angesehen werden. Diese 3 Ebenen schneiden sich im Projektionszentrum $\mathbf{C}$ . Die Spalten $p i$ sind 3-Vektoren. Die ersten drei Spalten $p 1, p 2, p 3$ sind die Abbildungen des Weltkoordinatensystems und entsprechen den Fluchtpunkten der X-, Y- beziehungsweise Z-Achse. Die letzte Spalte $p 4$ ist die Abbildung des Ursprungs des Weltkoordinatensystems.

Da die Projektionsmatrix auf Grund der homogenen Darstellung nur bis auf einen Skalierungsfaktor λ bekannt ist, sollte sie dafür normiert werden. Dazu ist der Betrag und das Vorzeichen des Normierungsfaktors zu bestimmen. Für den Betrag wird die erste 3×3-Teilmatrix $\mathbf{M}$ von $\mathbf{P}=[\mathbf{M}|\mathbf{t}]$ betrachtet. Wenn $\mathbf{m}^3$ die dritte Zeile von $\mathbf{M}$ ist, so muss die gesamte Projektionsmatrix durch den Betrag dieses Vektors dividiert werden. Das korrekte Vorzeichen ergibt sich aus der Bedingung $det(\mathbf{M})><span class=$ 0" border="0">. Ist die Determinante kleiner 0, muss das Vorzeichen aller Komponenten von $\mathbf{P}$ invertiert werden.

Zerlegung der Projektionsmatrix

Es ist möglich, aus $\mathbf{P}$ wiederum die einzelnen Orientierungsparameter der Kamera zu berechnen. Für das Projektionszentrum $\mathbf{C}$ gilt der Zusammenhang $\mathbf{PC}=0$ . Diese Eigenschaft kann als lineares Gleichungssystem aufgefasst und mittels Singulärwertzerlegung gelöst werden. Dabei ist zu beachten, dass die Rechteckmatrix $\mathbf{P}$ um eine Zeile mit Nullen ergänzt werden muss.

Die Rotationsmatrix $\mathbf{R}$ und die Kalibrierungsmatrix $\mathbf{K}$ extrahiert eine RQ-Zerlegung aus der ersten Matrix 3×3 Teilmatrix $\mathbf{M}$ von $\mathbf{P}$ :

$\mathbf{M}=\mathbf{RQ}= \begin{bmatrix} r_{11} & r_{21} & r_{31} \\ 0 & r_{22} & r_{32} \\ 0 & 0 & r_{33} \end{bmatrix} \begin{bmatrix} q_{11} & q_{21} & q_{31} \\ q_{21} & q_{22} & q_{32} \\ q_{31} & q_{23} & q_{33} \end{bmatrix}$

$\mathbf{R}$ ist dann die Kalibrierungmatrix $\mathbf{K}$ , $\mathbf{Q}$ enthält die Elemente der Rotationsmatrix. Somit sind alle Parameter der innerern und äußeren Orientierung bestimmt.

Berechnung der Projektionsmatrix aus Punktkorrespondenzen

Die Projektionsmatrix lässt sich – wie im Abschnitt Mathematische Darstellung gezeigt – direkt aus den Orientierungsparametern der Kamera berechnen. Da die Berechnung der Projektionsmatrix meist vor einer Bestimmung der Kameraparameter durchgeführt wird, tritt dieser Fall selten auf. Im Folgenden wird erläutert, wie $\mathbf{P}$ nur mit Hilfe von bekannten Objektpunkten und deren Abbildungen berechnet werden kann.

Sind eine Menge Punktkorrespondenzen $X_i \leftrightarrow x_i$ gegeben, lässt sich $\mathbf{P}$ aus diesen Punktepaaren berechnen. Ziel ist es, eine Matrix $\mathbf{P}$ zu bestimmen, so dass $\mathbf{x}_i=\mathbf{P}\mathbf{X}_i$ . Dazu wird die Formel mittels des Kreuzproduktes nach $\mathbf{x}_i \times \mathbf{PX}_i=\mathbf{0}$ umgestellt. Wenn $\mathbf{x}_i=[x_i\quad y_i\quad w_i]$ , ergibt sich nach Umstellung der Gleichung folgender Zusammenhang:

$\begin{bmatrix} \mathbf{0}^T & -w_i\mathbf{X}_i & y_i\mathbf{X}_i \\ w_i\mathbf{X}_i & \mathbf{0}^T & -x_i\mathbf{X}_i \\ -y_i\mathbf{X}_i & x_i\mathbf{X}_i & \mathbf{0}^T \end{bmatrix} \begin{pmatrix} \mathbf{P}^{1T} \\ \mathbf{P}^{2T} \\ \mathbf{P}^{3T} \end{pmatrix} =\mathbf{0}$

mit $\mathbf{P}^{i}$ der i-ten Zeile von $\mathbf{P}$ .

Da diese drei Gleichungen linear abhängig sind, werden nur die beiden ersten benutzt. Eine Punktkorrespondenz liefert somit zwei Gleichungen. Von n Punktkorrespondenzen erhält man eine 2n×12 große Matrix $\mathbf{A}$ . Die Projektionsmatrix berechnet sich aus $\mathbf{Ap}=0$ , wobei $\mathbf{p}$ der Vektor mit den Elementen von $\mathbf{P}$ ist.

Minimale Lösung

Da die Matrix $\mathbf{P}$ zwölf Elemente hat und vom Rang 11 ist, reichen elf Gleichungen zur Lösung des Gleichungssystems. Da jede Punktkorrespondenz zwei Gleichungen liefert, reichen fünf Punktkorrespondenzen und Kenntnis der x- oder y-Koordinate der sechsten Korrespondenz. $\mathbf{A}$ ist dann eine 11×12 große Matrix, deren rechter Nullraum die Lösung für $\mathbf{P}$ enthält.

Überbestimmte Lösung

Da die Punktkorresponzen meist Fehler enthalten, existiert keine exakte Lösung für $\mathbf{Ap}=0$ . Daher muss eine Lösung durch Minimierung eines algebraischen oder geometrischen Fehlermaßes bestimmt werden.

Algebraisches Fehlermaß

Im Falle eines algebraischen Fehlermaßes besteht der Ansatz darin, $||\mathbf{Ap}||$ mit einer Nebenbeschränkung zu minimieren. Diese Nebenbeschränkungen können sein:

$||\mathbf{p}||=1$
$||\mathbf{\dot p}^3||=1$ , wobei $||\mathbf{\dot p}^3||$ die ersten drei Elemente der letzten Zeile von $\mathbf{P}$ enthält.

In beiden Fällen wird der Fehlervektor $||\mathbf{Ap}||$ als algebraischer Fehler bezeichnet. Dieses Verfahren wurde von Ivan Sutherland 1963 im Rahmen seiner Dissertation zu Sketchpad vorgestellt.^[1]

Geometrisches Fehlermaß

Passpunktfeld mit Marken

Sind sehr genau vermessene Weltkoordinaten $\mathbf{X_i}$ wie bei der Benutzung eines ausgemessenen Passpunktfeldes vorhanden, kann der geometrische Fehler d im Bild definiert werden:

$d=\sum_i d(\mathbf{x}_i,\hat{\mathbf{x}}_i)^2$

Dabei sind $\mathbf{x}_i$ die gemessenen Bildpunkte und $\hat{\mathbf{x}}_i$ der Punkt $\mathbf{PX}_i$ . Wenn die Fehler normalverteilt sind, dann ist die Lösung

$\min_p\sum_i d(\mathbf{x}_i,\hat{\mathbf{x}}_i)^2$

die Maximum-Likelihood-Schätzung von $\mathbf{P}$ . Zur Lösung werden iterative Techniken wie der Levenberg-Marquardt-Algorithmus verwendet.^[2]

Vorgehen in der Praxis

Voraussetzung für die Berechnung von $\mathbf{P}$ ist, dass mehr als sechs Punktkorrespondenzen vorhanden sind. Ziel ist es dann, die Maximum-Likelihood-Schätzung von $\mathbf{P}$ zu bestimmen. Da die Maximum-Likelihood-Methode gute Startwerte für die Minimierung benötigt, wird davor eine Lösung von $\mathbf{P}$ mittels des algebraischen Fehlermaßes bestimmt. Zusätzlich werden die Eingangsdaten normalisiert. Dabei werden alle Bildpunkte so verschoben, dass ihr Schwerpunkt im Ursprung des Koordinatensystems liegt. Danach werden sie so skaliert, dass der durchschnittliche Abstand zum Ursprung $\sqrt{2}$ beträgt. Die Objektpunkte werden auch in den Ursprung verschoben und so skaliert, dass der durchschnittliche Abstand zum Ursprung $\sqrt{3}$ ist. Diese Vorgehensweise führt zu numerisch stabileren Ergebnissen. Die jeweiligen Transformationen $\mathbf{T}$ der Bildpunkte und $\mathbf{U}$ der Objektpunkte müssen nach Berechnung von $\mathbf{P}$ rückgängig gemacht werden.

Radiale Verzeichnung

Bei Objektiven mit Verzeichnung wird ein Rechteck nicht maßstabsgetreu abgebildet

Bisher wurde davon ausgegangen, dass die Bilder verzeichnungsfrei sind. Nur bei sehr hochwertigen Objektiven ist das im Rahmen der erforderlichen Genauigkeit richtig. Daher muss der Fehler so korrigiert werden, als wenn die Bilder von einer perfekten linearen Kamera (Lochkamera) aufgenommen worden wären. Da die Linsenverzeichnung bei der ursprünglichen Abbildung des Objektpunktes auf das Bild auftritt, wird der dabei entstandene Fehler modelliert mit folgender Gleichung:

$\begin{pmatrix} y_d \\ x_d \end{pmatrix} =L(\tilde r) \begin{pmatrix} \tilde y_d \\ \tilde x_d \end{pmatrix}$

Dabei sind

$(\tilde x, \tilde y)$ die idealen Bildpunkte ohne Verzeichnung,
$x d, y d$ die verzeichneten Bildkoordinaten,
$\tilde r$ der radialen Abstand $\sqrt{\tilde{x}^2 + \tilde{y}^2}$ vom Verzeichnungszentrum (meist Bildmitte) und
$L(\tilde r)$ der Verzeichnisfaktor, welcher nur von $\tilde r$ abhängig ist.

Die Korrektur geschieht dann mittels

$\hat x = x_c + L(r)(x-x_c) \quad \hat y = y_c + L(r)(y-y_c)$

$x$ und $y$ sind die gemessenen, $\hat x$ und $\hat y$ die korrigierten Bildkoordinaten und $x c$ , $y c$ das Zentrum der Verzeichnung mit $r 2 = (x - x c) 2 + (y - y c) 2$ . $L$ ist nur definiert bei positiven $r$ . Eine Annäherung geschieht meist mittels Taylor-Approximation. $L$ ist dann

$L(r)=1+k_1r + k_2r^2 + k_3r^3 + \ldots$

Die Koeffizienten $k i$ sind Teil der inneren Kalibrierung der Kamera. Sie werden meist mittels iterativer Verfahren bestimmt. Dabei wird das Bild von Geraden benutzt. Diese müssen sich bei richtiger Korrektur in Geraden abbilden. Die Minimierung einer Kostenfunktion (zum Beispiel der Abstand der Linienenden zum Mittelpunkt) liefert dann die Lösung. Diese Methode ist auch als Plumbline-Kalibrierung bekannt.^[3]

Der Hauptpunkt wird meist als Zentrum der Verzeichnung angenommen. Die Verzeichniskorrektur zusammen mit der Kamerakalibrierungsmatrix beschreibt damit vollständig die Abbildung des Objektpunktes auf einen Bildpunkt.

Einzelnachweise

↑ Ivan Edward Sutherland: Sketchpad: A man-machine graphical communications system. In: Technical Report 296, MIT Lincoln Laboratories. 1963 (Kommentierte Version, 2003).
↑ American Society of Photogrammetry (Hrsg.): Manual of Photogrammetry. 1980, ISBN 978-0937294017.
↑ Thomas Luhmann: Nahbereichsphotogrammetrie. Wichmann, Heidelberg 2003, ISBN 3-87907-398-8.

Literatur

Richard Hartley, Andrew Zisserman: Multiple View Geometry in computer vision. Cambridge University Press, Cambridge 2003, ISBN 0-521-54051-8.
Andrew Zisserman: MATLAB Functions for Multiple View Geometry. 2007, abgerufen am 2. Mai 2009.
Volker Rodehorst: Photogrammetrische 3D-Rekonstruktion. Wissenschaftlicher Verlag Berlin, Berlin 2004, ISBN 3-936846-83-9.
Paul Withagen, Rein van den Boomgaard: Camera Calibration. 2002, abgerufen am 2. Mai 2009.

Kategorien:

Wikimedia Foundation.

Игры ⚽ Нужен реферат?

Schlagen Sie auch in anderen Wörterbüchern nach:

Kernstrahlgeometrie — Zwei Kameras nehmen eine Szene auf. Die Epipolargeometrie beschreibt die Beziehung zwischen den beiden Bildern. Die Epipolargeometrie (selten auch Kernstrahlgeometrie) ist ein mathematisches Modell aus der Geometrie, das die geometrischen… … Deutsch Wikipedia
Stereoanalyse — Zwei Kameras nehmen eine Szene auf. Die Epipolargeometrie beschreibt die Beziehung zwischen den beiden Bildern. Die Epipolargeometrie (selten auch Kernstrahlgeometrie) ist ein mathematisches Modell aus der Geometrie, das die geometrischen… … Deutsch Wikipedia
Epipolargeometrie — Zwei Kameras nehmen von unterschiedlichen Standpunkten eine Szene auf. Die Epipolargeometrie beschreibt die Beziehung zwischen den beiden Bildern. Die Epipolargeometrie (selten auch Kernstrahlgeometrie) ist ein mathematisches Modell aus der… … Deutsch Wikipedia
Abbildungsmatrix — Eine Abbildungsmatrix oder Darstellungsmatrix ist eine Matrix, die in der linearen Algebra verwendet wird, um eine lineare Abbildung zwischen zwei endlichdimensionalen Vektorräumen zu beschreiben. Die aus diesen abgeleiteten affinen Abbildungen,… … Deutsch Wikipedia
Darstellungsmatrix — Eine Abbildungsmatrix oder Darstellungsmatrix ist eine Matrix, die in der linearen Algebra verwendet wird, um eine lineare Abbildung zwischen zwei endlichdimensionalen Vektorräumen zu beschreiben. Inhaltsverzeichnis 1 Verwendung von… … Deutsch Wikipedia
Matrixdarstellung — Eine Abbildungsmatrix oder Darstellungsmatrix ist eine Matrix, die in der linearen Algebra verwendet wird, um eine lineare Abbildung zwischen zwei endlichdimensionalen Vektorräumen zu beschreiben. Inhaltsverzeichnis 1 Verwendung von… … Deutsch Wikipedia
Matrix (Mathematik) — Schema für eine allgemeine m×n Matrix In der Mathematik versteht man unter einer Matrix (Plural: Matrizen) eine rechteckige Anordnung (Tabelle) von Elementen bzw. mathematischen Objekten, mit denen man in bestimmter Weise rechnen kann (z. B … Deutsch Wikipedia
Matrixmultiplikation — In der Mathematik ist eine Matrix (Plural: Matrizen) eine Tabelle von Zahlen oder anderen Größen, die addiert und multipliziert werden können. Matrizen unterscheiden sich von einfachen Tabellen dadurch, dass mit ihnen gerechnet werden kann. Wenn… … Deutsch Wikipedia
Matrixprodukt — In der Mathematik ist eine Matrix (Plural: Matrizen) eine Tabelle von Zahlen oder anderen Größen, die addiert und multipliziert werden können. Matrizen unterscheiden sich von einfachen Tabellen dadurch, dass mit ihnen gerechnet werden kann. Wenn… … Deutsch Wikipedia
Matrizenmultiplikation — In der Mathematik ist eine Matrix (Plural: Matrizen) eine Tabelle von Zahlen oder anderen Größen, die addiert und multipliziert werden können. Matrizen unterscheiden sich von einfachen Tabellen dadurch, dass mit ihnen gerechnet werden kann. Wenn… … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Projektionsmatrix

Inhaltsverzeichnis

Einleitung und Anwendung

Geometrische Deutung der Projektionsmatrix

Zerlegung der Projektionsmatrix