Per una singola variabile avente una distribuzione
con known population mean
, la population variance
, comunemente scritta come
, è definita come
![]() |
(1)
|
dove è la media della popolazione e
denota il valore atteso di
. Per una distribuzione discreta con
i possibili valori
di
, la varianza della popolazione è pertanto
![]() |
(2)
|
mentre per una distribuzione continua, è data da
![]() |
(3)
|
La varianza è quindi uguale al secondo momento centrale .
Si noti che è necessaria una certa attenzione nell\'interpretare come una varianza,
poiché il simbolo
è anche comunemente usato come un parametro
correlato ma non equivalente alla radice quadrata della varianza, per esempio nella distribuzione logaritmica normale,
nella distribuzione diMaxwell e in quella di Rayleigh.
Se la distribuzione sottostante non è conosciuta, allora la varianza campione può essere calcolata come
![]() |
(4)
|
dove è la media campionaria.
Si noti che il campione varianza sopra definito non è uno stimatore corretto per la varianza della popolazione
. Per ottenere
uno stimatore obiettivo per
, è necessario
definire invece una "bias-varianza corretta del campione"
![]() |
(5)
|
La distinzione tra e
è una comune fonte di confusione,
e la cura estrema dovrebbe essere esercitata quando si consulta la letteratura per determinare
quale convenzione è in uso, tanto più che la notazione disinformativa
è comunemente utilizzato per entrambi. La bias-varianza corretta del campione
per un elenco di dati è implementata
come Varianza[list].
La radice quadrata della varianza è nota come la deviazione standard.
La ragione per cui dà uno stimatore distorto della varianza della popolazione è che i due parametri liberi
e
vengono
di fatto stimati sulla base dei dati stessi. In tali casi, è opportuno utilizzare la distribuzione t dello Studente
invece di una distribuzione normale
come modello, molto in senso lato, la distribuzione t dello Studente
è la "migliore" che può essere utilizzata senza conoscere
.
Formalmente, per stimare la varianza della popolazione da un campione di
elementi con una
priorità sconoscita significa che (cioè, la media è stimata dal campione stesso),
abbiamo bisogno di uno stimatore
per
. Questa è data da k-statistic
, dove
![]() |
(6)
|
e è un esempio
di varianza non corretta per bias.
Risulta che la quantità ha
una distribuzione chi-quadrata.
Per un insieme di dati , la varianza dei dati si ottiene da una trasformazione lineare che è ottenuta da
![]() | ![]() | ![]() |
(7)
|
![]() | ![]() | ![]() |
(8)
|
![]() | ![]() | ![]() |
(9)
|
![]() | ![]() | ![]() |
(10)
|
![]() | ![]() | ![]() |
(11)
|
![]() | ![]() | ![]() |
(12)
|
Per variabili multiple, la varianza è ottenuta usando la definizione di covarianza,
![]() | ![]() | ![]() |
(13)
|
![]() | ![]() | ![]() |
(14)
|
![]() | ![]() | ![]() |
(15)
|
![]() | ![]() | ![]() |
(16)
|
![]() | ![]() | ![]() |
(17)
|
Una somma lineare è della forma:
![]() | ![]() | ![]() |
(18)
|
![]() | ![]() | ![]() |
(19)
|
![]() | ![]() | ![]() |
(20)
|
Queste equazioni possono essere scritte usando la matrice di covarianza.