Polya's Distribution (Beta-Binomial) Parameter Estimation

This project deals with estimation of the parameters of the Polya’s distribution. The PMF of the observations $x_{1}, \dots, x_{m}$ is given by: $p (x_{1}, x_{2}, \dots, x_{m}) = \prod_{i = 1}^{m} (\frac{n (x_{i})!}{\prod_{k} n_{k} (x_{i})!} \frac{Γ (\sum_{k} α_{k})}{Γ (n (x_{i}) + \sum_{k} α_{k})} \prod_{k} \frac{Γ (n_{k} (x_{i}) + α_{k})}{Γ (α_{k})})$

For our problem, we focus on the beta binomial model, with $k \in 1, 2$ .

Defining parameter vector $θ$ .

In general form: $θ = [α_{1}, α_{2}, \dots, α_{k}]^{T}$

Beta binomial form: $θ = [α_{1}, α_{2}]^{T}$

Compute the FIM and CRLB.

For our problem, we are given the following assumptions:

$m = 20$
$n (x_{i}) = 20$ for $1 \leq i \leq m$
$k \in 1, 2$

Note: since $k \in 1, 2$ , then $\sum_{k} α_{k} = α_{1} + α_{2}$

\begin{aligned} p (x_{1}, \dots, x_{m}) & = \prod_{i = 1}^{m} (\frac{n (x_{i})!}{\prod_{k} n_{k} (x_{i})!} \frac{Γ (\sum_{k} α_{k})}{Γ (n (x_{i}) + \sum_{k} α_{k})} \prod_{k} \frac{Γ (n_{k} (x_{i}) + α_{k})}{Γ (α_{k})}) \\ \log (p (x_{1}, \dots, x_{m})) & = \log (\prod_{i = 1}^{m} (\frac{n (x_{i})!}{\prod_{k} n_{k} (x_{i})!} \frac{Γ (\sum_{k} α_{k})}{Γ (n (x_{i}) + \sum_{k} α_{k})} \prod_{k} \frac{Γ (n_{k} (x_{i}) + α_{k})}{Γ (α_{k})})) \\ = \sum_{i = 1}^{m} \log (\frac{n (x_{i})!}{\prod_{k} n_{k} (x_{i})!} \frac{Γ (\sum_{k} α_{k})}{Γ (n (x_{i}) + \sum_{k} α_{k})} \prod_{k} \frac{Γ (n_{k} (x_{i}) + α_{k})}{Γ (α_{k})}) \\ = \sum_{i = 1}^{m} \log (\frac{n (x_{i})!}{\prod_{k} n_{k} (x_{i})!}) + \log (\frac{Γ (\sum_{k} α_{k})}{Γ (n (x_{i}) + \sum_{k} α_{k})}) + \log (\prod_{k} \frac{Γ (n_{k} (x_{i}) + α_{k})}{Γ (α_{k})}) \\ = \sum_{i = 1}^{m} \log (\frac{n (x_{i})!}{\prod_{k} n_{k} (x_{i})!}) + \log (\frac{Γ (α_{1} + α_{2})}{Γ (20 + α_{1} + α_{2})}) + \log (\frac{Γ (n_{1} (x_{i}) + α_{1}) Γ (n_{2} (x_{i}) + α_{2})}{Γ (α_{1}) Γ (α_{2})}) \\ Note: we can drop the first term since it does not depend on α, equivalent to \frac{\partial \log p}{\partial θ} = 0 \\ = \sum_{i = 1}^{m} \log (\frac{Γ (α_{1} + α_{2})}{Γ (20 + α_{1} + α_{2})}) + \log (\frac{Γ (n_{1} (x_{i}) + α_{1}) Γ (n_{2} (x_{i}) + α_{2})}{Γ (α_{1}) Γ (α_{2})}) \\ = m * \log (\frac{Γ (α_{1} + α_{2})}{Γ (20 + α_{1} + α_{2})}) + \sum_{i = 1}^{m} \log (Γ (n_{1} (x_{i}) + α_{1}) Γ (n_{2} (x_{i}) + α_{2})) - \log (Γ (α_{1}) Γ (α_{2})) \\ = m * [\log (Γ (α_{1} + α_{2})) - \log (Γ (20 + α_{1} + α_{2}))] + \sum_{i = 1}^{m} \log (Γ (n_{1} (x_{i}) + α_{1})) + \log (Γ (n_{2} (x_{i}) + α_{2})) \\ - \log (Γ (α_{1})) - \log (Γ (α_{2})) \end{aligned}

We now find $\frac{\partial \log p}{\partial θ} = [\begin{matrix} \frac{\partial \log p}{\partial α_{1}} \frac{\partial \log p}{\partial α_{2}} \end{matrix}]$ from the above log likelihood function.

\begin{aligned} \frac{\partial \log p}{\partial α_{1}} & = m (ψ (α_{1} + α_{2}) - ψ (20 + α_{1} + α_{2})) + \sum_{i = 1}^{m} ψ (n_{1} (x_{i}) + α_{1}) - ψ (α_{1}) \\ = m (ψ (α_{1} + α_{2}) - ψ (20 + α_{1} + α_{2}) - ψ (α_{1})) + \sum_{i = 1}^{m} ψ (n_{1} (x_{i}) + α_{1}) \\ \frac{\partial \log p}{\partial α_{2}} & = m (ψ (α_{1} + α_{2}) - ψ (20 + α_{1} + α_{2})) + \sum_{i = 1}^{m} ψ (n_{1} (x_{i}) + α_{1}) - ψ (α_{2}) \\ = m (ψ (α_{1} + α_{2}) - ψ (20 + α_{1} + α_{2}) - ψ (α_{2})) + \sum_{i = 1}^{m} ψ (n_{1} (x_{i}) + α_{1}) \end{aligned}

We now find $\frac{\partial^{2} \log p}{\partial θ \partial θ^{T}} = [\begin{matrix} \frac{\partial^{2} \log p}{\partial α_{1} \partial α_{1}} & \frac{\partial^{2} \log p}{\partial α_{1} \partial α_{2}} \frac{\partial^{2} \log p}{\partial α_{2} \partial α_{1}} & \frac{\partial^{2} \log p}{\partial α_{2} \partial α_{2}} \end{matrix}]$ from the above first-order partial derivatives.

\begin{aligned} \frac{\partial^{2} \log p}{\partial α_{1} \partial α_{1}} & = m (ψ^{'} (α_{1} + α_{2}) - ψ^{'} (20 + α_{1} + α_{2}) - ψ^{'} (α_{1})) + \sum_{i = 1}^{m} ψ^{'} (n_{1} (x_{i}) + α_{1}) \\ \frac{\partial^{2} \log p}{\partial α_{1} \partial α_{2}} = \frac{\partial^{2} \log p}{\partial α_{2} \partial α_{1}} & = m (ψ^{'} (α_{1} + α_{2}) - ψ^{'} (20 + α_{1} + α_{2})) \\ \frac{\partial^{2} \log p}{\partial α_{2} \partial α_{2}} & = m (ψ^{'} (α_{1} + α_{2}) - ψ^{'} (20 + α_{1} + α_{2}) - ψ^{'} (α_{2})) + \sum_{i = 1}^{m} ψ^{'} (n_{2} (x_{i}) + α_{2}) \end{aligned}

We now find $F I M = - E [\frac{\partial^{2} \log p}{\partial θ \partial θ^{T}}]$ and $C R L B = F I M^{- 1}$ from the above second-order partial derivatives.

For simplicity and spacing, let $v = m (ψ^{'} (α_{1} + α_{2}) - ψ^{'} (20 + α_{1} + α_{2}))$ since it occurs in each partial derivative. $\begin{aligned} F I M & = - E [\begin{array}{c} \frac{\partial^{2} \log p}{\partial α_{1} \partial α_{1}} & \frac{\partial^{2} \log p}{\partial α_{1} \partial α_{2}} \frac{\partial^{2} \log p}{\partial α_{2} \partial α_{1}} & \frac{\partial^{2} \log p}{\partial α_{2} \partial α_{2}} \end{array}] \\ = - E [\begin{array}{c} v - m ψ^{'} (α_{1}) + \sum_{i = 1}^{m} ψ^{'} (n_{1} (x_{i}) + α_{1}) & v \\ v & v - m ψ^{'} (α_{2}) + \sum_{i = 1}^{m} ψ^{'} (n_{1} (x_{i}) + α_{2}) \end{array}] \\ = [\begin{array}{c} - E [v - m ψ^{'} (α_{1}) + \sum_{i = 1}^{m} ψ^{'} (n_{1} (x_{i}) + α_{1})] & - E [v] \\ - E [v] & - E [v - m ψ^{'} (α_{2}) + \sum_{i = 1}^{m} ψ^{'} (n_{2} (x_{i}) + α_{2})] \end{array}] \\ C R L B & = F I M^{- 1} \\ = {[\begin{array}{c} - E [v - m ψ^{'} (α_{1}) + \sum_{i = 1}^{m} ψ^{'} (n_{1} (x_{i}) + α_{1})] & - E [v] \\ - E [v] & - E [v - m ψ^{'} (α_{2}) + \sum_{i = 1}^{m} ψ^{'} (n_{2} (x_{i}) + α_{2})] \end{array}]}^{- 1} \end{aligned}$

Maximum Likelihood Estimation

Recall from the previous section that we derived the partial derivatives of the log likelihood function as follows: $\begin{aligned} \frac{\partial \log p}{\partial α_{1}} & = m (ψ (α_{1} + α_{2}) - ψ (20 + α_{1} + α_{2})) + \sum_{i = 1}^{m} ψ (n_{1} (x_{i}) + α_{1}) - ψ (α_{1}) \\ = m (ψ (α_{1} + α_{2}) - ψ (20 + α_{1} + α_{2}) - ψ (α_{1})) + \sum_{i = 1}^{m} ψ (n_{1} (x_{i}) + α_{1}) \\ \frac{\partial \log p}{\partial α_{2}} & = m (ψ (α_{1} + α_{2}) - ψ (20 + α_{1} + α_{2})) + \sum_{i = 1}^{m} ψ (n_{1} (x_{i}) + α_{1}) - ψ (α_{2}) \\ = m (ψ (α_{1} + α_{2}) - ψ (20 + α_{1} + α_{2}) - ψ (α_{2})) + \sum_{i = 1}^{m} ψ (n_{1} (x_{i}) + α_{1}) \end{aligned}$ We can then set each of the derivatives equal to 0 and solve for our $α_{k}$ parameter in order to find the Maximum Likelihood Estimator for each. $\begin{aligned} \frac{\partial \log p}{\partial α_{1}} & = m (ψ (α_{1} + α_{2}) - ψ (20 + α_{1} + α_{2}) - ψ (α_{1})) + \sum_{i = 1}^{m} ψ (n_{1} (x_{i}) + α_{1}) = 0 \\ \frac{\partial \log p}{\partial α_{2}} & = m (ψ (α_{1} + α_{2}) - ψ (20 + α_{1} + α_{2}) - ψ (α_{2})) + \sum_{i = 1}^{m} ψ (n_{1} (x_{i}) + α_{1}) = 0 \end{aligned}$

However, no closed form solution exists for this equation. As proposed in the project guidelines, we used the method of fixed point iteration proposed by Minka et al. in order to update each of the $α_{k}$ values: $α_{k}^{(t)} = α_{k}^{(t - 1)} \frac{\sum_{i} ψ (n_{i k} + α_{k}^{(t - 1)}) - ψ (α_{k}^{(t - 1)})}{\sum_{i} ψ (n_{i} + \sum_{k} α_{k}^{(t - 1)}) - ψ (\sum_{k} α_{k}^{(t - 1)})}$

Specifically, for our problem of $k \in 1, 2$ , we implement: $\begin{aligned} α_{1}^{(t)} & = α_{1}^{(t - 1)} \frac{\sum_{i} ψ (n_{i 1} + α_{1}^{(t - 1)}) - ψ (α_{1}^{(t - 1)})}{\sum_{i} ψ (n_{i} + α_{1}^{(t - 1)} + α_{2}^{(t - 1)}) - ψ (α_{1}^{(t - 1)} + α_{2}^{(t - 1)})} \\ α_{2}^{(t)} & = α_{2}^{(t - 1)} \frac{\sum_{i} ψ (n_{i 2} + α_{2}^{(t - 1)}) - ψ (α_{2}^{(t - 1)})}{\sum_{i} ψ (n_{i} + α_{1}^{(t - 1)} + α_{2}^{(t - 1)}) - ψ (α_{1}^{(t - 1)} + α_{2}^{(t - 1)})} \end{aligned}$

Method of Moments

For the beta-binomial distribution, via Wikipedia, the first moment ( $μ_{1}$ ) and second moment ( $μ_{2}$ ) based on $n_{1}$ are given as follows: $μ_{1} = \frac{n_{1} α_{1}}{α_{1} + α_{2}}$ $μ_{2} = \frac{n_{1} α_{1} (n_{1} (1 + α_{1}) + α_{2})}{(α_{1} + α_{2}) (α_{1} + α_{2} + 1)}$

For solving the first and second order moments, we set the following: $\overset{―}{x} = \frac{1}{N} \sum_{i = 1}^{N} x_{i}$ $\overset{―}{x^{2}} = \frac{1}{N} \sum_{i = 1}^{N} x_{i}^{2}$

\begin{aligned} \overset{―}{x} & = E [x] = μ_{1} = \frac{n_{1} α_{1}}{α_{1} + α_{2}} \\ \overset{―}{x} (α_{1} + α_{2}) & = n_{1} α_{1} \\ \overset{―}{x} α_{1} + \overset{―}{x} α_{2} & = n_{1} α_{1} \\ \overset{―}{x} α_{2} & = n_{1} α_{1} - \overset{―}{x} α_{1} \\ α_{2} & = \frac{n_{1} α_{1} - \overset{―}{x} α_{1}}{\overset{―}{x}} = α_{1} (\frac{n_{1}}{\overset{―}{x}} - 1) \end{aligned}

Let $v = \frac{n_{1}}{\overset{―}{x}} - 1$ , and $v + 1 = \frac{n_{1}}{\overset{―}{x}}$ , such that $α_{2} = α_{1} v$ .

\begin{aligned} \overset{―}{x^{2}} & = E [x^{2}] = μ_{2} = \frac{n_{1} α_{1} (n_{1} (1 + α_{1}) + α_{2})}{(α_{1} + α_{2}) (α_{1} + α_{2} + 1)} \\ = \frac{n_{1} α_{1} (n_{1} (1 + α_{1}) + α_{1} v)}{(α_{1} + α_{1} v) (α_{1} + α_{1} v + 1)} \\ = \frac{n_{1} α_{1} (α_{1} (n_{1} + v) + n_{1}}{α_{1} (1 + v) (α_{1} (1 + v) + 1)} \\ = \frac{n_{1} (α_{1} (n_{1} + v) + n_{1}}{α_{1} (1 + v)^{2} + (1 + v))} \\ = \frac{n_{1} (α_{1} (n_{1} + \frac{n_{1}}{\overset{―}{x}} - 1) + n_{1})}{α_{1} (\frac{n_{1}}{\overset{―}{x}})^{2} + (\frac{n_{1}}{\overset{―}{x}})} \\ = \frac{n_{1} (α_{1} (n_{1} + \frac{n_{1}}{\overset{―}{x}} - 1) + n_{1})}{n_{1} (\frac{α_{1} n_{1}}{{\overset{―}{x}}^{2}}) + (\frac{1}{\overset{―}{x}})} \\ = \frac{α_{1} (n_{1} \overset{―}{x} + n_{1} - \overset{―}{x}) + n_{1} \overset{―}{x}}{\frac{α_{1} n_{1}}{\overset{―}{x}} + 1} \\ \overset{―}{x^{2}} (\frac{α_{1} n_{1}}{\overset{―}{x}} + 1) & = α_{1} (n_{1} \overset{―}{x} + n_{1} - \overset{―}{x}) + n_{1} \overset{―}{x} \\ α_{1} \frac{\overset{―}{x^{2}} n_{1}}{\overset{―}{x}} + \overset{―}{x} & = α_{1} (n_{1} \overset{―}{x} + n_{1} - \overset{―}{x}) + n_{1} \overset{―}{x} \\ α_{1} (\frac{\overset{―}{x^{2}} n_{1}}{\overset{―}{x}} - n_{1} \overset{―}{x} - n_{1} + \overset{―}{x}) & = n_{1} \overset{―}{x} - \overset{―}{x^{2}} \\ {\hat{α_{1}}}_{m o m} & = \frac{n_{1} \overset{―}{x} - \overset{―}{x^{2}}}{n_{1} (\frac{\overset{―}{x^{2}}}{\overset{―}{x}} - \overset{―}{x} - 1) + \overset{―}{x}} \end{aligned}

We can now plug this back into our first order moment to solve for $β$ . $\begin{aligned} α_{2} & = α_{1} (\frac{n_{1}}{\overset{―}{x}} - 1) \\ = (\frac{n_{1} \overset{―}{x} - \overset{―}{x^{2}}}{n_{1} (\frac{\overset{―}{x^{2}}}{\overset{―}{x}} - \overset{―}{x} - 1) + \overset{―}{x}}) (\frac{n_{1}}{\overset{―}{x}} - 1) \\ = \frac{n_{1}^{2} - n_{1} \overset{―}{x} - \frac{n_{1} \overset{―}{x^{2}}}{\overset{―}{x}} + \overset{―}{x^{2}}}{n_{1} (\frac{\overset{―}{x^{2}}}{\overset{―}{x}} - \overset{―}{x} - 1) + \overset{―}{x}} \\ {\hat{α_{2}}}_{m o m} & = \frac{(n_{1} - \overset{―}{x}) (n_{1} - \frac{\overset{―}{x^{2}}}{\overset{―}{x}})}{n_{1} (\frac{\overset{―}{x^{2}}}{\overset{―}{x}} - \overset{―}{x} - 1) + \overset{―}{x}} \end{aligned}$

Polya's Distribution (Beta-Binomial) Parameter Estimation

Defining parameter vector $θ$ .

Compute the FIM and CRLB.

Maximum Likelihood Estimation

Method of Moments

More articles from Derek Helms

Disease Detection - Experiments in ML Challenges

The Basic Needs Student Success Survey (BNS3) Website

Defining parameter vector θ.

Compute the FIM and CRLB.

Maximum Likelihood Estimation

Method of Moments

More articles from Derek Helms

Disease Detection - Experiments in ML Challenges

The Basic Needs Student Success Survey (BNS3) Website

Defining parameter vector $θ$ .