Ein Informationskriterium ist ein Kriterium zur Auswahl eines Modells in der Statistik. Hat man stochastische Beobachtungen und eine Anzahl von Modellkandidaten zur Verfügung, so berechnet man für alle Kandidaten den zugehörigen Wert des Informationskriteriums. Ein niedriger Wert zeigt ein passendes Modell an. Das Modell mit dem kleinsten Wert ist am besten zu den Beobachtungen passend und sollte gewählt werden.
Leider gibt es in der statistischen Literatur mehrere verschiedene Definitionen für Informationskriterien. Die wichtigsten sind:
Informations- | |||
---|---|---|---|
kriterium | Formel | Symbole | |
Akaike | AIC | = 2·k − 2·log(L( θ; l)) | k = Anzahl der Modellparameter θ |
Akaike korrigiert | AICc | = AIC + 2k(k+1)/(n-k-1) | n = Anzahl der Beobachtungen l |
Bayes | BIC | = log(n)k − 2·log(L( θ; l)) | L = Likelihoodfunktion des Modells |
θ = Maximum-Likelihood-Schätzung von θ |
Alle diese Kriterien zerfallen in einen Strafterm für die Anzahl der Modellparameter, der eine Überanpassung bestraft, und einen Modellanpassungsterm -2·log(L( θ; l)). Beachten Sie, dass zu den k Modellparametern θ auch die (Ko-)Varianzparameter (unbekannte (Ko-)Varianzfaktoren oder -komponenten) zu zählen sind. Liegen jedoch d Datumsdefekte vor, z.B. bei der freien Netzausgleichung, dann ist k um d zu verringern. Enthält das Modell zusätzlich m unabhängige Bedingungsgleichungen für Parameter, so ist k um m zu verringern.
In der Geodäsie sind Modelle mit normalverteilten Beobachtungen verbreitet. Zwei Fälle sind praktisch besonders bedeutsam:
In diesem Fall ist die Kovarianzmatrix Σl
der Beobachtungen l
vollständig bekannt.
Wir haben θ = x und k = u - m - d.
Die Likelihoodfunktion L
hat folgende Gestalt:
L( x; l) = (2π·det(Σl))-1/2 exp(-(Ax− l)TΣl-1 (Ax− l)/2) =(2πσ²)-n/2det(P)1/2exp(-σ-2 (Ax− l)TP(Ax− l)/2)
Hierbei sind die Symbole aus verwendet worden. Daraus gewinnt man
- 2·log(L( x; l)) = n·log(2πσ²)− log(det(P)) + σ-2(Ax− l)TP (Ax− l)
Haben wir speziell den Fall, dass die Gewichtsmatrix P eine Diagonalmatrix mit den Elementen p1, p2, …, pn ist, erhalten wir
- 2·log(L( x; l)) = n·log(2πσ²) − Σ log(pi) + σ-2(Ax− l) TP(Ax− l)
Die ersten beiden Summanden sind für alle Informationskriterien und Modelle gleich und könnten bei der Minimumbestimmung weggelassen werden. Wegen der Vergleichbarkeit der Werte berechnet IN DUBIO PRO GEO sie aber trotzdem mit. Zusammengefasst erhalten wir im prio-Fall:
Cprio := n·log(2πσ²)− ⅀ log(pi)
Ω( x,l):= (Ax− l)T
P(Ax− l)
AICprio=2k + σ-2Ω( x,l) + Cprio
AICcprio=2k + 2k(k+1)/(n-k-1) + σ-2Ω( x,l)
+ Cprio
BICprio=log(n)k + σ-2Ω( x,l) + Cprio
In diesem Fall enthält die Kovarianzmatrix der Beobachtungen Σl=σ²P-1 einen unbekannten Varianzfaktor σ². Dieser muss ebenfalls geschätzt werden. Dadurch umfasst θ eine weitere Größe, d.h. k = u - m - d + 1. Als Schätzwert für σ² wird der (nicht erwartungstreue) Maximum-Likelihood-Schätzwert verwendet:
σ² = Ω( x,l)/n
Die neue Likelihoodfunktion lautet:
L( x,σ²; l) =
(2πσ²)-n/2det(P)1/2
exp(-σ-2(Ax− l)T
P(Ax− l)/2)
=(2πΩ( x,l)/n)-n/2det(P)1/2exp(-n/2)
- 2·log(L( x,σ²; l))
= n·log(2πΩ( x,l)/n)− ⅀ log(pi) + n
Zusammengefasst erhalten wir im post-Fall:
Cpost := n·log(2π)− ⅀ log(pi) + n
AICpost=2k + n·log(Ω( x,l)/n) + Cpost
AICcpost=2k + 2k(k+1)/(n-k-1) + n·log(Ω( x,l)/n) + C post
BICpost=log(n)k + n·log(Ω( x,l)/n) + Cpost
|
Ausgleichungslehrbücher |
|