Distribución Beta

Por: Ludger O. Suarez-Burgoa (Universidad Nacional de Colombia).

La distribución beta (\(B(x;p,q,a=0,b=0)\)) posibilita representar una variedad de formas distribucionales en el intervalo entre cero a uno. Si se cambia los límites \(a\) y \(b\) y la escala, las cotas del intervalo \([a, b]\) se expanden a cualquier intervalo que esté dentro de \([0, \infty]\), i.e. \(a \in \{\mathbb{R}^+,0\}\) y \(b \in \{\mathbb{R}^+\}\) con \(a< b\).

Función de distribución probabilidad beta del primer tipo

La función de distribución de probabilidades (PDF de la sigla en Inglés de Probability Density Function) que está acotada entre cero y uno es la más básica de las distribuciones Beta y tiene dos parámetros de forma únicamente, ya que los límites están bien definidos entre cero y uno. A esta función se la denomina función de distribución beta del primer tipo o beta estándar y está definida como sigue

\begin{equation} f(x, p, q) = \begin{cases} \frac{\Gamma(p +q)}{\Gamma(p)\Gamma(q)} x^{p-1} (1-x)^{q-1} &,\text{para $0\leq x\leq 1$, $0 < p$, $0 < q$}\\ 0 &,\text{de lo contrario} \end{cases}; \end{equation} 1

La función \(\Gamma(\alpha)\) es la Integral Gamma dada por \begin{equation} \Gamma(\alpha) = \int\limits_0^\infty{u^{\alpha-1}\exp^{-\alpha}}\,\mathrm{d}{u} =(\alpha-1)\,\Gamma(\alpha-1). \end{equation} Hay representaciones para la solución de la función \(\Gamma(\alpha)\): la de Euler, la del producto de Weierstrass y la expansión de Stirling (Vea [Korn and Korn, 1968]).

La Integral Beta es la razón de \[ B{(p,q)} = \frac{\Gamma(p)\Gamma(q)}{\Gamma(p + q)}. \]

Los parámetros de forma \(p\) y \(q\) definen tres características intuitivas de la respuesta de la forma, que son las siguientes (tomado de [Hahn and Shapiro, 1967]).

  1. Cuando \(p > 1\) y \(q > 1\) la distribución tiene un solo alto valor de frecuencia en el punto \[x = \frac{p-1}{p+q-2}.\]
  2. Cuando \(p < 1\) y \(q < 1\) la distribución tiene forma de U.
  3. Cuando \(p < 1\) y \(q \geq 1\) la distribución es de la forma J reflejada.
  4. Cuando \(p \geq 1\) y \(q < 1\) la distribución es de la forma de J.
  5. Cuando \(p=q\) la distribución es simétrica, habiendo un caso especial cuando \(p=q=1\).

La función beta se puede programar según su definición (Ec. 1) en un lenguaje matemático de programación como en Octave con base a una función de integral beta (beta(p,q)) ya definida previamente, del siguiente modo.


y = 1 / beta(p, q) * x^(p - 1) * (1 - x)^(q -1);

En Octave está definida mediante la función betapdf(x, p, q) que da el mismo resultado que el de arriba.

La función de distribución acumulada de probabilidades (CDF de la sigla en Inglés de Cumulative Density Function) de Beta para el primer tipo, i.e. dos parámetros es la siguiente.

\begin{equation} F(x, p, q) = \begin{cases} 0 &,\text{para $x<0$}\\ \frac{\Gamma(p + q)}{\Gamma(p)\Gamma(q)} \int_0^x{t^{p-1} (1-t)^{q-1}\mathrm{d}{t}} &,\text{para $0\leq x\leq 1$, $0 < p$, $0 < q$}\\ 1 &,\text{$x>1$} \end{cases}; \end{equation} 2

Para encontrar los valores de la distribución de probabilidades acumulada según la definición, en Octave se resuelve la integral de forma numérica con la función quad previa definición del integrando mediante con una función anónima. Por ejemplo, para encontrar la CDF en el valor de \(x=0.6\) con los parámetros de forma de \(p=1\) y \(q=2\), se codifica del siguiente modo


p = 1; q = 2;
x = 0.6;
f = @(x) 1 / beta(p, q) * x^(p - 1) * (1 - x)^(q - 1);
q1 = quad(f, 0, x);

Este mismo resultado se obtiene de usar la función directa de Octave para este fin q = betacdf(x, p, q). Todo esto se puede verificar con las tablas de la distribución beta publicadas en [Pearson, 1968].

El código en Octave para calcular los valores de las funciones PDF y CDF en un punto está en el archivo pdfAcdfDefinitionsSCR.m

Debido a que la PDF beta posibilita crear varias formas con tan solo modificar los valores de los parámetros de forma, esta función es muy usada en la ingeniería. Por ejemplo se usa en la Técnica de Informe y Programa de Evaluación (PERT de las siglas en Ingles de Program Evaluation and Reporting Technique), donde se define los valores de tiempo optimistas (\(o\)), pesimistas (\(p\)) o más posible (\(m\)) necesarios para cada tarea del diagrama PERT.

También la distribución beta se usa en el análisis bayesiano para describir en primera instancia la probabilidad de suceso tal como la probabilidad que un proyecto sea completado.

Estimación de los parámetros a partir de datos

El procedimiento para encontrar los parámetros de una distribución de probabilidades a partir de los datos muestrales consiste en hallar el máxima probabilidad (maximum likelihood) de los datos en esa función.

Los parámetros de la PDF Beta del primer orden ya son de por sí difíciles de obtener. Si se tiene muchos valores medidos \(x\) (digamos por el orden de las centenas) es posible usar el método de los momentos, donde la pérdida de precisión no es sustancial.

El procedimiento es el siguiente.

  1. Encuentre el valor más esperado de la muestra, i.e. el promedio de la muestra según la definición \[ \hat{x} = \frac{1}{n}{\sum_{k=1}^{n}{x_k}}. \]
  2. Encuentre la varianza (\(s^2\)) y la desviación estándar (\(s\)) de esa muestra, también según su definición (e.g. Ec. 2-51a, página 38 de [Hahn and Shapiro, 1967]) \[ s^2 = \frac{n \sum_{k=1}^{n}{x^2} - \left( \sum_{k=1}^{n}{x} \right)^2}{n (n - 1)},\\ s = \sqrt{s^2}. \]
  3. Reemplace los valores de \(\hat{x}\) y (\(s^2\)) en la ecuaciones de los parámetros \(p\) y \(q\) encontrados por el método de los momentos por [Hahn and Shapiro, 1967] (página 96, ecuaciones 3-28) \[ q = \frac{1 - \hat{x}}{s^2} \left(\hat{x} (1 - \hat{x}) - s^2\right),\\ p = \frac{\hat{x} q}{1 - \hat{x}}. \]

Muchas veces los límites no son ni cero ni uno, son otros valores; pero estos valores son conocidos a priori. Por tanto, se puede adecuar el método de obtención de parámetros para los valores comprendidos entre los dos límites \([a, b]\); siendo \(a\) el límite inferior y \(b\) el límite superior. Tiene que estar claro que \(a\) y \(b\) son valores dados por el analista y que pueden ser por ejemplo (solo una recomendación) \[ a = \mathrm{min}{(x_i)},\\ b = \mathrm{max}{(x_i)}. \]

Para ello se hace la normalización de los datos de la muestra de modo de convertirlo a valores comprendidos entre cero y uno y se sigue el procedimiento descrito arriba. De este modo, cada valor muestral \(x_i\) se convierte en un valor muestral normalizado al promedio \(x_{\mathrm{t}i}\) del siguiente modo \[ x_{\mathrm{t}i} =\frac{x_i - a}{b-a}. \] De ahí se aplica el procedimiento de arriba para encontrar el promedio y la varianza normalizadas, i.e. \(\hat{x}_\mathrm{n} \) y \(s^2_\mathrm{n}\).

También se puede encontrar \(\hat{x}_\mathrm{n} \) y \(s^2_\mathrm{n}\) de los valores de \(x_i\) sin normalizar, mediante las siguientes ecuaciones de transformación \[ \hat{x}_\mathrm{n} = \frac{\hat{x} - a}{b - a};\\ s^2_\mathrm{n} = \frac{s^2}{(b - a)^ 2}; \]

Ejemplo

Ejemplo 1, obtención de los parámetros de la PDF beta de datos medidos.

Función de distribución probabilidad beta general

La función de distribución de probabilidades beta general se llama también distribución beta de cuatro parámetros, porque añade los dos parámetros de los límites (parámetros de localización) a los parámetros de forma. La expresión es la siguiente.

\begin{equation} f(x) = \begin{cases} \frac{\Gamma(p +q)}{\Gamma(p)\Gamma(q)}\left[\frac{(x-a)^{p-1} (b-x)^{q-1}}{(b-a)^{p+q-1}}\right], &\text{para $a\leq x\leq b$}\\ 0, &\text{de lo contrario} \end{cases}; \end{equation} 3

Del mismo modo que para el caso de la función beta del primer tipo, los parámetros de forma \(p\) y \(q\) definen tres características intuitivas de la respuesta de la forma, que son las siguientes.

  1. La localización del valor máximo con respecto de los extremos \(a\) y \(b\) por \(\frac{p b +q a}{p + q}\); si \(p=q\) la localización del máximo está en \(\frac{1}{2}(a+b)\).
  2. El sesgo (i.e. skewness) de la respuesta, que se define por la relación \(r_{\mathrm{pq}} =\frac{p}{q}\); mientras mayor es la diferencia entre \(p\) y \(q\) mayor es la asimetría, mayor es el sesgo; y en el caso especial cuando \(p=q\), la respuesta es simétrica.
  3. La curtosis(i.e. kurtosis) de la respuesta, que se describe por los valores absolutos de los parámetros \(p\) y \(q\).

La Figura 2 muestra varias formas de funciones que se pueden obtener con tan solo modificar los parámetros \(p\) y \(q\) de forma de la función beta.

funciones beta con distintos parámetros de forma
Figura 2. Diferentes formas de funciones que se pueden obtener con tan solo modificar los parámetros \(p\) y \(q\) de forma de la función beta, para cualquiera de los valores \(a\) y \(b\).

Observe que cada una de las filas tiene un mismo valor de \(p\) y cada una de las columnas un mismo valor de \(q\); de este modo, en la diagonal se tiene los PDF de la distribución beta para \(p = q\) que son simétricas y no tienen sesgo a ninguno de los lados. La única diferencia entre estos valores de la diagonal es que mientras mayor sea \(p = q\) la curtosis es mayor.

También se observa que si \(q < p\) (i.e. \(r_{\mathrm{pq}}<1\)) se tiene un sesgo hacia los valores inferiores (i.e. las gráficas ubicadas en el triángulo por encima de la diagonal); mientras que si \(q < p\) el sesgo es hacia los valores superiores (i.e. las gráficas ubicadas en el triángulo por debajo de la diagonal).

Asimismo, si \(r_{\mathrm{pq}} < 1\) y mientras menor lo es, mayor son las frecuencias hacia el lado de valores inferiores; y si \(r_{\mathrm{pq}} > 1\) y mientras mayor lo es, menor son las frecuencias hacia el lado de valores superiores.

Transformación de la función del primer tipo (estándar) a la general

La mayoría de los lenguajes de programación resuelven la función beta del primer tipo (i.e. función estándar), como lo es en el caso de Octave. Sin embargo, toda función de distribución en general puede expresarse en términos de su homóloga estándar, tras modificar su localización con \(a\) y su escala con \((b - a)\).

Para las función beta que por ahora interesa: la función de densidad de probabilidades acotada entre \(a\) y \(b\) es igual a la \((b-a)\)-enésima parte la misma función estándar de una variable transformada \[ u = \frac{x-a}{b-a}; \] es decir \begin{equation} f(x;a,b) =\frac{1}{b-a}\, f(u;0,1). \end{equation} Del mismo modo, para la función de distribución acumulada \begin{equation} F(x;a,b) =F(u;0,1). \end{equation} Para la función cuantíl (i.e. función de punto percentil, de la traducción directa del inglés de \textit{percent point function}) \begin{equation} F^{-1}(x;a,b) =a +(b-a)\; F^{-1}{(x;0,1)}. \end{equation} Finalmente, para la generación de número aleatorios, se tiene que \begin{equation} Y(a,b) =a +(b-a)\; Y(0,1). \end{equation}

Vea en este enlace más transformaciones para los casos de las funciones del punto porcentual, función de amenaza, función de amenaza acumulada, función de sobrevivencia, función de sobrevivencia inversa.

Con la evaluación de la función beta estándar con \(u\), el promedio y la desviación estándar de los valores de \(x\) son respectivamente \begin{equation} \bar{x} =a +(b-a)\, \bar{\beta}, \end{equation} \begin{equation} \sigma^2(x) =(b-a)^2\, \sigma^2_{\beta}; \end{equation} donde \(\bar{\beta}\) y \(\sigma^2_{\beta}\) son de forma respectiva: el promedio y la varianza de la distribución beta estándar con parámetros \(p\) y \(q\), dados por \begin{equation} \bar{\beta} =\frac{p}{p+q}, \end{equation} y \begin{equation} \sigma^2_{\beta} =\frac{pq}{(p+q+1)(p+q)^2}. \end{equation}

Estimación de los parámetros a partir de datos

Los parámetros de forma ahora ya no se pueden encontrar de forma independiente como en el caso de la función beta del primer tipo, ellos dependen de los dos valores extremos \(a\) y \(b\). Si \(a\) y \(b\) se prefijan y son constates, el sesgo y la localización del valor más probable ya no se podrían definir de forma independiente [Oksanen, 1997].

La obtención de los cuatro parámetros de esta función a partir de los datos muestrales puede ser problemática, tediosa y a veces no tiene solución. El procedimiento para obtener esos cuatro valores se describe en [Bury, 1999].

Referencias

Korn, G. A., and T. M. Korn (1968), Mathematical handbook for scientists and engineers: Definitions, theorems, and formulas, 2nd ed., Dover Publicatioins, New York.

Hahn, G. J., and S. S. Shapiro (1967), Statistical models in engineering, 1st ed., John Wiley & Sons, New York.

Pearson, K. (1968), Tables of the incomplete beta-function, Biometrila Trustees, 2nd ed., Cambridge University Press, Cambridge.

Bury, K. (1999), Statistical distributions in engineering, 1st ed., Cambridge University Press, Cambridge.

Oksanen, J. (1997), Why the beta-function cannot be used to estimate skewness of species responses, Jounral of Vegetation Science, 8, 147–152.