La variance permet de caractériser la dispersion des valeurs par rapport à la moyenne.


Soit une population de taille N sur laquelle est observée une caractéristique dont on connaît la moyenne mu et l'espérance <X>. Lorsqu'on prélève un individu dans cette population, le résultat observé est aléatoire et constitue donc une observation d'une variable aléatoire X de moyenne mu, et de variance sigma^2, aussi appelée var(X).
La variance se définit ainsi :
 sigma^2=<(X-mu)^2>,
(1)

Pour une distribution discrète avec N valeurs possibles de x_i, la variance de la population est : 

 sigma^2=sum_(i=1)^NP(x_i)(x_i-mu)^2,
(2)

tandis que pour une distribution continue, on a :

 sigma^2=intP(x)(x-mu)^2dx.
(3)

Attention à bien interpréter sigma^2 comme la variance, car le symbole sigma est aussi généralement utilisé comme paramètre mais non-équivalent à la racine carrée de la variance (comme par exemple pour la loi log-normale, la loi de Maxwell, et la loi de Rayleigh).

Si la distribution est inconnue alors, la variance se définit comme suit : 

 s_N^2=1/Nsum_(i=1)^N(x_i-x^_)^2,
(4)

x^_ est l'échantillon moyen

Remarquons que la variance d'échantillon  s_N^2 définie ci dessus n'est pas une estimation non-biaisée de la variance de la population sigma^2. Afin d'obtenur une estimation non-biaisée pour sigma^2, il faut plutôt définir une "variance d'échantillon corrigée"

 s_(N-1)^2=1/(N-1)sum_(i=1)^N(x_i-x^_)^2.
(5)

La différence entre s_N^2 et s_(N-1)^2 prête souvent à confusion, donc attention à bien définir quelle convention est utilisée, surtout lorsque le s est communément utilisé pour les deux. La variance d'échantillon corrigée s_(N-1)^2 pour une liste de données est implémentée comme  Variance[list].

La racine carrée de la variance est connue comme étant l'écart type.

Si s_N^2 donne une estimation biaisée de la variance c'est parce que deux paramètres libres muet sigma^2 sont estimés à partir de la donnée. Dans de pareils cas, il est conseillé d'utiliser une loi de Student au lieu d'une loi normale, car la loi de Student est la meilleure option si l'on ne connaît pas sigma^2 (pour rappel, la loi de Student permet de déterminer l'intervalle de confiance de l'estimateur de l'espérance d'une loi normale dont la variance est inconnue).

Afin d'estimer la variance sigma^2 d'échantillon de n éléments avec une moyenne à priori inconnue, il nous faut un estimateur sans biais pour  sigma^2. Ceci nous est fourni par la statistique-k  k_2=sigma^^^2, où

 k_2=N/(N-1)m_2
(6)

et m_2=s_N^2 est la variance variance d'échantillon non corrigée uncorrected.

Ainsi, la quantité Ns_N^2/sigma^2 a une loi du  \chi^{2} (« khi-deux » ou « khi carré »).

Pour un ensemble de données X, la variance de la donnée obtenue par une transformation linéaire est donnée par : 

var(aX+b)=<[(aX+b)-<aX+b>]^2>
(7)
=<(aX+b-a<X>-b)^2>
(8)
=<(aX-amu)^2>
(9)
=<a^2(X-mu)^2>
(10)
=a^2<(X-mu)^2>
(11)
=a^2var(X)
(12)

Pour des variables multiples, la variance est obtenue en utilisant la définition de la covariance,

var(sum_(i=1)^(n)X_i)=cov(sum_(i=1)^(n)X_i,sum_(j=1)^(n)X_j)
(13)
=sum_(i=1)^(n)sum_(j=1)^(n)cov(X_i,X_j)
(14)
=sum_(i=1)^(n)sum_(j=1; j=i)^(n)cov(X_i,X_j)+sum_(i=1)^(n)sum_(j=1; j!=i)^(n)cov(X_i,X_j)
(15)
=sum_(i=1)^(n)cov(X_i,X_i)+sum_(i=1)^(n)sum_(j=1; j!=i)^(n)cov(X_i,X_j)
(16)
=sum_(i=1)^(n)var(X_i)+2sum_(i=1)^(n)sum_(j=i+1)^(n)cov(X_i,X_j).
(17)

Une somme linéaire à une forme similaire : 

var(sum_(i=1)^(n)a_iX_i)=cov(sum_(i=1)^(n)a_iX_i,sum_(j=1)^(n)a_jX_j)
(18)
=sum_(i=1)^(n)sum_(j=1)^(n)a_ia_jcov(X_i,X_j)
(19)
=sum_(i=1)^(n)a_i^2var(X_i)+2sum_(i=1)^(n)sum_(j=i+1)^(n)a_ia_jcov(X_i,X_j).
(20)

Ces équations peuvent s'exprimer au moyen de la matrice de covariance.