- Projektionsmatrix
-
Nimmt eine Kamera ein Objekt auf, so bildet sich das Objekt auf dem Kamerabild ab. Diese Abbildung (auch Projektion genannt) wird mathematisch durch die so genannte Projektionsmatrix
beschrieben. Diese ist eine spezielle Matrix aus dem Bereich Computer Vision und beschreibt die perspektivische Abbildung eines dreidimensionalen Objektpunktes an die zweidimensionale Bildposition.
Inhaltsverzeichnis
Einleitung und Anwendung
Die Projektionsmatrix beschreibt die perspektivische Abbildung eines dreidimensionalen Objektpunktes
an die Bildposition
durch eine Kamera. Dabei gilt folgender Zusammenhang zwischen Objekt- und Bildpunkt:
Die Abbildung des Objektpunktes auf die Bildebene wird hier mit den in der projektiven Geometrie benutzten homogenen Koordinaten beschrieben. Homogene Koordinaten sind gegenüber kartesischen oder affinen Koordinaten um eine Koordinate erweitert und nur bis auf einen Skalierungsfaktor eindeutig. Den zweidimensionalen kartesischen oder affinen Koordinaten
entsprechen die homogenen Koordinaten
. Die homogenen Koordinaten
und
repräsentieren denselben Punkt. Entsprechendes gilt für den dreidimensionalen Raum. Die Projektionsmatrix führt somit eine Transformation der projektiven Räume
in
durch. Die Elemente der Projektionsmatrix hängen dabei von den Orientierungsparametern der Kamera ab. Diese sind im Einzelnen der innere Aufbau der Kamera („innere Orientierung“) und die Lage der Kamera im Raum sowie die Blickrichtung der Kamera („äußere Orientierung“).
Die innere Orientierung
der Kamera setzt sich aus folgenden Elementen zusammen:
- Der Kammerkonstante c als Abstand zwischen Bildebene und Linse der Kamera.
- Der Anzahl der Bildpunkte pro Millimeter in Richtung der x-Achse (kx) und y-Achse (ky).
- Der Position des Bildhauptpunktes h0 = (x0,y0) als der Durchstosspunkt der optischen Achse durch die Bildebene und
- dem Scherungswinkel Θ zwischen den Bildachsen.
Zusammengefasst wird das in der Kalibrierungsmatrix
:
Im Weiteren wird die Position einer Kamera bezüglich des Weltkoordinatensystems mit
, die Aufnahmerichtung mit
bezeichnet. Letzteres ist eine 3×3-Rotationsmatrix. Für
ergibt sich damit:
(
ist die 3×3 Einheitsmatrix). Da
eine 3x4 große Matrix ist, ist
ebenfalls 3x4 groß.
ist somit eindeutig bestimmt.
Der Vorteil der Projektionsmatrix gegenüber anderen Darstellungsformen wie der Kollinearitätsgleichung ist ihre kompakte Darstellung in einer einzigen Matrix. Dadurch entfällt die explizite Angabe der einzelnen Orientierungsparameter. Auch etwaige Unklarheiten über die Reihenfolge der Transformationsschritte treten nicht auf. Sie wird überall angewendet, wo entsprechende Abbildungen durch eine Kamera durchgeführt werden. Dies ist zum Beispiel auf den Gebieten der Photogrammetrie bei der Bestimmung von 3D-Koordinaten und der Kalibrierung, Computer Vision und in der projektiven Geometrie der Fall. Meist wird von den aufgezeichneten Bildpunkten auf die Koordinaten der beobachteten Objektpunkte rückgerechnet.
Geometrische Deutung der Projektionsmatrix
Die Elemente von
sind geometrisch deutbar. Die Zeilen pi der Matrix
sind 4-Vektoren und können als Ebenen im projektiven Raum
angesehen werden. Diese 3 Ebenen schneiden sich im Projektionszentrum
. Die Spalten pi sind 3-Vektoren. Die ersten drei Spalten p1,p2,p3 sind die Abbildungen des Weltkoordinatensystems und entsprechen den Fluchtpunkten der X-, Y- beziehungsweise Z-Achse. Die letzte Spalte p4 ist die Abbildung des Ursprungs des Weltkoordinatensystems.
Da die Projektionsmatrix auf Grund der homogenen Darstellung nur bis auf einen Skalierungsfaktor λ bekannt ist, sollte sie dafür normiert werden. Dazu ist der Betrag und das Vorzeichen des Normierungsfaktors zu bestimmen. Für den Betrag wird die erste 3×3-Teilmatrix
von
betrachtet. Wenn
die dritte Zeile von
ist, so muss die gesamte Projektionsmatrix durch den Betrag dieses Vektors dividiert werden. Das korrekte Vorzeichen ergibt sich aus der Bedingung
. Ist die Determinante kleiner 0, muss das Vorzeichen aller Komponenten von
invertiert werden.
Zerlegung der Projektionsmatrix
Es ist möglich, aus
wiederum die einzelnen Orientierungsparameter der Kamera zu berechnen. Für das Projektionszentrum
gilt der Zusammenhang
. Diese Eigenschaft kann als lineares Gleichungssystem aufgefasst und mittels Singulärwertzerlegung gelöst werden. Dabei ist zu beachten, dass die Rechteckmatrix
um eine Zeile mit Nullen ergänzt werden muss.
Die Rotationsmatrix
und die Kalibrierungsmatrix
extrahiert eine RQ-Zerlegung aus der ersten Matrix 3×3 Teilmatrix
von
:
ist dann die Kalibrierungmatrix
,
enthält die Elemente der Rotationsmatrix. Somit sind alle Parameter der innerern und äußeren Orientierung bestimmt.
Berechnung der Projektionsmatrix aus Punktkorrespondenzen
Die Projektionsmatrix lässt sich – wie im Abschnitt Mathematische Darstellung gezeigt – direkt aus den Orientierungsparametern der Kamera berechnen. Da die Berechnung der Projektionsmatrix meist vor einer Bestimmung der Kameraparameter durchgeführt wird, tritt dieser Fall selten auf. Im Folgenden wird erläutert, wie
nur mit Hilfe von bekannten Objektpunkten und deren Abbildungen berechnet werden kann.
Sind eine Menge Punktkorrespondenzen
gegeben, lässt sich
aus diesen Punktepaaren berechnen. Ziel ist es, eine Matrix
zu bestimmen, so dass
. Dazu wird die Formel mittels des Kreuzproduktes nach
umgestellt. Wenn
, ergibt sich nach Umstellung der Gleichung folgender Zusammenhang:
mit
der i-ten Zeile von
.
Da diese drei Gleichungen linear abhängig sind, werden nur die beiden ersten benutzt. Eine Punktkorrespondenz liefert somit zwei Gleichungen. Von n Punktkorrespondenzen erhält man eine 2n×12 große Matrix
. Die Projektionsmatrix berechnet sich aus
, wobei
der Vektor mit den Elementen von
ist.
Minimale Lösung
Da die Matrix
zwölf Elemente hat und vom Rang 11 ist, reichen elf Gleichungen zur Lösung des Gleichungssystems. Da jede Punktkorrespondenz zwei Gleichungen liefert, reichen fünf Punktkorrespondenzen und Kenntnis der x- oder y-Koordinate der sechsten Korrespondenz.
ist dann eine 11×12 große Matrix, deren rechter Nullraum die Lösung für
enthält.
Überbestimmte Lösung
Da die Punktkorresponzen meist Fehler enthalten, existiert keine exakte Lösung für
. Daher muss eine Lösung durch Minimierung eines algebraischen oder geometrischen Fehlermaßes bestimmt werden.
Algebraisches Fehlermaß
Im Falle eines algebraischen Fehlermaßes besteht der Ansatz darin,
mit einer Nebenbeschränkung zu minimieren. Diese Nebenbeschränkungen können sein:
, wobei
die ersten drei Elemente der letzten Zeile von
enthält.
In beiden Fällen wird der Fehlervektor
als algebraischer Fehler bezeichnet. Dieses Verfahren wurde von Ivan Sutherland 1963 im Rahmen seiner Dissertation zu Sketchpad vorgestellt.[1]
Geometrisches Fehlermaß
Sind sehr genau vermessene Weltkoordinaten
wie bei der Benutzung eines ausgemessenen Passpunktfeldes vorhanden, kann der geometrische Fehler d im Bild definiert werden:
Dabei sind
die gemessenen Bildpunkte und
der Punkt
. Wenn die Fehler normalverteilt sind, dann ist die Lösung
die Maximum-Likelihood-Schätzung von
. Zur Lösung werden iterative Techniken wie der Levenberg-Marquardt-Algorithmus verwendet.[2]
Vorgehen in der Praxis
Voraussetzung für die Berechnung von
ist, dass mehr als sechs Punktkorrespondenzen vorhanden sind. Ziel ist es dann, die Maximum-Likelihood-Schätzung von
zu bestimmen. Da die Maximum-Likelihood-Methode gute Startwerte für die Minimierung benötigt, wird davor eine Lösung von
mittels des algebraischen Fehlermaßes bestimmt. Zusätzlich werden die Eingangsdaten normalisiert. Dabei werden alle Bildpunkte so verschoben, dass ihr Schwerpunkt im Ursprung des Koordinatensystems liegt. Danach werden sie so skaliert, dass der durchschnittliche Abstand zum Ursprung
beträgt. Die Objektpunkte werden auch in den Ursprung verschoben und so skaliert, dass der durchschnittliche Abstand zum Ursprung
ist. Diese Vorgehensweise führt zu numerisch stabileren Ergebnissen. Die jeweiligen Transformationen
der Bildpunkte und
der Objektpunkte müssen nach Berechnung von
rückgängig gemacht werden.
Radiale Verzeichnung
Bisher wurde davon ausgegangen, dass die Bilder verzeichnungsfrei sind. Nur bei sehr hochwertigen Objektiven ist das im Rahmen der erforderlichen Genauigkeit richtig. Daher muss der Fehler so korrigiert werden, als wenn die Bilder von einer perfekten linearen Kamera (Lochkamera) aufgenommen worden wären. Da die Linsenverzeichnung bei der ursprünglichen Abbildung des Objektpunktes auf das Bild auftritt, wird der dabei entstandene Fehler modelliert mit folgender Gleichung:
Dabei sind
die idealen Bildpunkte ohne Verzeichnung,
- xd,yd die verzeichneten Bildkoordinaten,
der radialen Abstand
vom Verzeichnungszentrum (meist Bildmitte) und
der Verzeichnisfaktor, welcher nur von
abhängig ist.
Die Korrektur geschieht dann mittels
x und y sind die gemessenen,
und
die korrigierten Bildkoordinaten und xc, yc das Zentrum der Verzeichnung mit r2 = (x − xc)2 + (y − yc)2. L ist nur definiert bei positiven r. Eine Annäherung geschieht meist mittels Taylor-Approximation. L ist dann
Die Koeffizienten ki sind Teil der inneren Kalibrierung der Kamera. Sie werden meist mittels iterativer Verfahren bestimmt. Dabei wird das Bild von Geraden benutzt. Diese müssen sich bei richtiger Korrektur in Geraden abbilden. Die Minimierung einer Kostenfunktion (zum Beispiel der Abstand der Linienenden zum Mittelpunkt) liefert dann die Lösung. Diese Methode ist auch als Plumbline-Kalibrierung bekannt.[3]
Der Hauptpunkt wird meist als Zentrum der Verzeichnung angenommen. Die Verzeichniskorrektur zusammen mit der Kamerakalibrierungsmatrix beschreibt damit vollständig die Abbildung des Objektpunktes auf einen Bildpunkt.
Einzelnachweise
- ↑ Ivan Edward Sutherland: Sketchpad: A man-machine graphical communications system. In: Technical Report 296, MIT Lincoln Laboratories. 1963 (Kommentierte Version, 2003).
- ↑ American Society of Photogrammetry (Hrsg.): Manual of Photogrammetry. 1980, ISBN 978-0937294017.
- ↑ Thomas Luhmann: Nahbereichsphotogrammetrie. Wichmann, Heidelberg 2003, ISBN 3-87907-398-8.
Literatur
- Richard Hartley, Andrew Zisserman: Multiple View Geometry in computer vision. Cambridge University Press, Cambridge 2003, ISBN 0-521-54051-8.
- Andrew Zisserman: MATLAB Functions for Multiple View Geometry. 2007, abgerufen am 2. Mai 2009.
- Volker Rodehorst: Photogrammetrische 3D-Rekonstruktion. Wissenschaftlicher Verlag Berlin, Berlin 2004, ISBN 3-936846-83-9.
- Paul Withagen, Rein van den Boomgaard: Camera Calibration. 2002, abgerufen am 2. Mai 2009.
Wikimedia Foundation.