Algoritmo EM y modelo GMM

En estadística, el algoritmo EM (maximización de expectativas) maneja variables latentes, mientras que GMM es el modelo de mezcla gaussiana.

Antecedentes

En la imagen de abajo, se muestran la concentración de hemoglobina en glóbulos rojos y el volumen de glóbulos rojos de dos grupos de personas: el grupo con anemia y el grupo control (es decir, el grupo de personas sin anemia ). Como era de esperar, las personas con anemia tienen un volumen de glóbulos rojos y una concentración de hemoglobina en glóbulos rojos más bajos que aquellas sin anemia.

$x$ es un vector aleatorio tal que $x:={\big (}{\text{volumen de globulos rojos}},{\text{concentración de hemoglobina en glóbulos rojos}}{\big )}$ , y según estudios médicos^{[cita requerida]} se sabe que $x$ se distribuye normalmenteen cada grupo, es decir, $x\sim {\mathcal {N}}(\mu ,\Sigma )$ .

$z$ se denota como el grupo al que pertenece $x$ con $z_{i}=0$ cuando $x_{i}$ pertenece al grupo con anemia y $z_{i}=1$ cuando $x_{i}$ pertenece al grupo de control. Además, $z\sim \operatorname {Categorical} (k,\phi )$ donde $k=2$ , $\phi _{j}\geq 0,$ y $\sum _{j=1}^{k}\phi _{j}=1$ . Véase la distribución categórica.

El siguiente procedimiento se puede utilizar para estimar $\phi ,\mu ,\Sigma$ .

Se puede aplicar una estimación de máxima verosimilitud:

\ell (\phi ,\mu ,\Sigma )=\sum _{i=1}^{m}\log(p(x^{(i)};\phi ,\mu ,\Sigma ))=\sum _{i=1}^{m}\log \sum _{z^{(i)}=1}^{k}p\left(x^{(i)}\mid z^{(i)};\mu ,\Sigma \right)p(z^{(i)};\phi )

Dado que $z_{i}$ para cada $x_{i}$ son conocidos, la función de verosimilitud logarítmica se puede simplificar del siguiente modo:

\ell (\phi ,\mu ,\Sigma )=\sum _{i=1}^{m}\log p\left(x^{(i)}\mid z^{(i)};\mu ,\Sigma \right)+\log p\left(z^{(i)};\phi \right)

Ahora la función de verosimilitud puede maximizarse tomando la derivada parcial sobre $\mu ,\Sigma ,\phi$ , obteniendo:

\phi _{j}={\frac {1}{m}}\sum _{i=1}^{m}1\{z^{(i)}=j\}

\mu _{j}={\frac {\sum _{i=1}^{m}1\{z^{(i)}=j\}x^{(i)}}{\sum _{i=1}^{m}1\left\{z^{(i)}=j\right\}}}

\Sigma _{j}={\frac {\sum _{i=1}^{m}1\{z^{(i)}=j\}(x^{(i)}-\mu _{j})(x^{(i)}-\mu _{j})^{T}}{\sum _{i=1}^{m}1\{z^{(i)}=j\}}}

^[1]

Si $z_{i}$ es conocido, la estimación de los parámetros resulta bastante sencilla con la estimación de máxima verosimilitud . Pero si $z_{i}$ se desconoce, es mucho más complicado. ^[2]

Siendo $z$ una variable latente (es decir, no observada), en un escenario no etiquetado, se necesita el algoritmo de maximización de expectativas para estimar $z$ así como otros parámetros. Generalmente, este problema se plantea como un GMM, dado que los datos de cada grupo se distribuyen normalmente.

En el aprendizaje automático, la variable latente 𝑧 se considera como un patrón oculto subyacente a los datos, que el observador no puede ver de manera muy directa. $x_{i}$ son los datos conocidos, mientras que $\phi ,\mu ,\Sigma$ son los parámetros del modelo. Con el algoritmo EM, se puede encontrar algún patrón subyacente $z$ en los datos $x_{i}$ , junto con la estimación de los parámetros. La amplia aplicación de esta circunstancia en el aprendizaje automático es lo que hace que el algoritmo EM sea tan importante.

Algoritmo EM en GMM

El algoritmo EM consta de dos pasos: el paso E y el paso M. En primer lugar, se definen los parámetros del modelo y los $z^{(i)}$ se puede inicializar aleatoriamente. En el paso E, el algoritmo intenta adivinar el valor de $z^{(i)}$ basado en los parámetros, mientras que en el paso M, el algoritmo actualiza el valor de los parámetros del modelo en función de la estimación de $z^{(i)}$ del paso E. Estos dos pasos se repiten hasta alcanzar la convergencia.

El algoritmo en GMM es:

Repetir hasta la convergencia:

2. (Paso M) Actualizar los parámetros
   $\phi _{j}:={\frac {1}{m}}\sum _{i=1}^{m}w_{j}^{(i)}$ 
    $\mu _{j}:={\frac {\sum _{i=1}^{m}w_{j}^{(i)}x^{(i)}}{\sum _{i=1}^{m}w_{j}^{(i)}}}$ 
    $\Sigma _{j}:={\frac {\sum _{i=1}^{m}w_{j}^{(i)}\left(x^{(i)}-\mu _{j}\right)\left(x^{(i)}-\mu _{j}\right)^{T}}{\sum _{i=1}^{m}w_{j}^{(i)}}}$

^[3]

Con la regla de Bayes se obtiene el siguiente resultado mediante el paso E:

$p\left(z^{(i)}=j|x^{(i)};\phi ,\mu ,\Sigma \right)={\frac {p\left(x^{(i)}|z^{(i)}=j;\mu ,\Sigma \right)p\left(z^{(i)}=j;\phi \right)}{\sum _{l=1}^{k}p\left(x^{(i)}|z^{(i)}=l;\mu ,\Sigma \right)p\left(z^{(i)}=l;\phi \right)}}$

Según la configuración del GMM, se obtienen las siguientes fórmulas:

$p\left(x^{(i)}|z^{(i)}=j;\mu ,\Sigma \right)={\frac {1}{(2\pi )^{n/2}\left|\Sigma _{j}\right|^{1/2}}}\exp \left(-{\frac {1}{2}}\left(x^{(i)}-\mu _{j}\right)^{T}\Sigma _{j}^{-1}\left(x^{(i)}-\mu _{j}\right)\right)$

$p\left(z^{(i)}=j;\phi \right)=\phi _{j}$

De esta manera, es posible cambiar entre el paso E y el paso M, según los parámetros inicializados aleatoriamente.

Referencias

↑ Ng, Andrew. «CS229 Lecture notes».
↑ Hui, Jonathan (13 de octubre de 2019). «Machine Learning —Expectation-Maximization Algorithm (EM)». Medium (en inglés).
↑ Ng, Andrew. «CS229 Lecture notes».

[1] Ng, Andrew. «CS229 Lecture notes».

[Machine_Learning_—Expectation-Maximization_Algorithm_(EM)-2] Hui, Jonathan (13 de octubre de 2019). «Machine Learning —Expectation-Maximization Algorithm (EM)». Medium (en inglés).

[Stanford_CS229_Notes-3] Ng, Andrew. «CS229 Lecture notes».

[1]

[2]

[3]