Capítulo 1

Noções Básicas de Variáveis Aleatórias

“Statisticians, like artists, have the bad habit of falling in love with their models”

– George Box

1.1. Introdução

Na realização de um fenômeno aleatório, muitas vezes estamos interessados em uma ou mais quantidades que dependem do resultado do fenômeno. Por exemplo, ao descrever uma peça manufaturada, podemos empregar duas classificações: defeituosa ou não defeituosa. Para facilitar a análise quantitativa dessas classificações, podemos atribuir valores numéricos a cada uma delas; isto é, podemos atribuir o valor 0 às peças não defeituosas e 1 às defeituosas. Essa atribuição nos leva, em particular, ao conceito de variável aleatória.

Definição 1.1 (Variável Aleatória). Seja $X$ uma função qualquer. Dizemos que $X$ é uma variável aleatória em um espaço de probabilidade $(\Omega, F, P)$ se $X$ é uma função que associa a cada resultado $\omega$ do espaço amostral $\Omega$ a um número real. Assim, $X: \Omega \to \mathbb{R}$ é uma variável aleatória se:

\[\begin{align}\\ [X \leqslant x] = \{ \omega \in \Omega : X(\omega) \leqslant x \} \in F \\\\ \end{align}\]

para todo $x \in \mathbb{R}$, em que $F$ é a $\sigma$-álgebra do espaço de probabilidade.

Exemplo 1.1 (Variável Aleatória Constante). Se $X(\omega) = c$ para todo $\omega \in \Omega$, então,

\[\begin{align}\\ \{ \omega : X(\omega) \leqslant a \} = \begin{cases} \Omega, & \text{se } a \geqslant c \\ \emptyset, & \text{se } a < c \end{cases} \\\\ \end{align}\]

Isto é, $X$ é uma variável aleatória, chamada de variável aleatória constante.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Exemplo 1.2 (Função Indicadora). Dado $A \subseteq \Omega$, definimos:

\[\begin{align}\\ I_A(\omega) = \begin{cases} 1, & \text{se } \omega \in A \\ 0, & \text{se } \omega \notin A \end{cases} \\\\ \end{align}\]

Se $A \in F$ e $X = I_A$, então:

\[\begin{align}\\ \{ \omega : X(\omega) \leqslant a \} = \begin{cases} \Omega, & \text{se } a \geqslant 1 \\ A^c, & \text{se } 0 \leqslant a < 1 \\ \emptyset, & \text{se } a < 0 \end{cases} \\\\ \end{align}\]

Isto é, $X$ é uma variável aleatória, chamada de variável aleatória indicadora.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Exemplo 1.3. Suponha que lançamentos independentes de uma moeda (com probabilidade $\rho$ de sair cara) são realizados continuamente até que ocorra uma cara ou até que um total de $n$ lançamentos sejam realizados. Se definirmos $X$ como o número de vezes que a moeda é lançada, então $X$ é uma variável aleatória que pode assumir um dos valores $1, 2, 3, \ldots, n$ com as respectivas probabilidades:

\[\begin{align}\\ P(X=1) & = P(\{C\}) = \rho, \\\\ P(X=2) & = P(\{K, C\}) = (1-\rho)\rho, \\\\ &\hspace{3cm}\vdots \\\\ P(X=n) & = P(\{K, \ldots, K, C\}) = (1-\rho)^{n-1} \rho\\\\ \end{align}\]

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\\\ \end{align}\]

Observação 1.1 (Espaço de Probabilidade Induzido). Dado um espaço de probabilidade $(\Omega, F, P)$ e uma variável aleatória $X$, definimos, $B \in \mathcal{B}$, o espaço de probabilidade induzido por $X$ como $(\mathbb{R}, \mathcal{B}, P_X)$, em que $P_X(B) = P({ \omega : X(\omega) \in B })$, e $\mathcal{B}$ é a σ-álgebra de Borel (que corresponde à menor σ-álgebra que contém todos os intervalos da reta). Consequentemente, chamamos de lei da variável aleatória $X$ a medida de probabilidade $P_X$ em $\mathbb{R}$ induzida por $X$.

1.2. Função de Distribuição Acumulada

A função de distribuição, ou função de distribuição acumulada (FDA), constitui um dos conceitos fundamentais no estudo de variáveis aleatórias e na teoria das probabilidades. Para uma variável aleatória $X$, essa função descreve a probabilidade de que $X$ assuma valores menores ou iguais a um determinado número real $x$, oferecendo, assim, uma visão completa da distribuição de probabilidades associada a essa variável. Esse instrumento não apenas sintetiza a informação probabilística em torno de $X$, mas também permite calcular probabilidades de intervalos, identificar características da distribuição, e fundamenta diversas técnicas estatísticas, incluindo inferências e simulações.

Definição 1.2 (Função de Distribuição). Seja $X$ uma variável aleatória definida em um espaço de probabilidade $(\Omega, \mathcal{F}, P)$. A função de distribuição, ou função de distribuição acumulada (FDA), de $X$, denotada por $F_X$, é uma função real definida por:

\[\begin{align}\\ F_X(x) = P(X \in (-\infty, x]) = P(X \leqslant x) \tag{2.2} \\\\ \end{align}\]

que satisfaz as seguintes propriedades:

(I). $F_X(x)$ é contínua à direita, e não decrescente.
(II). Se $x \to -\infty$, então $F_X(x) \to 0$. E, se $x \to +\infty$, então $F_X(x) \to 1$.

Exemplo 1.4. Suponha o experimento em que duas moedas honestas (isto é, não viciadas) são lançadas simultaneamente. Seja $X$ a variável aleatória que contabiliza o número de caras obtidas nesses lançamentos. Assim, os possíveis valores de $X$ são $0$, $1$ ou $2$, correspondendo aos cenários em que nenhuma, uma ou ambas as moedas mostram cara, respectivamente. A FDA de $X$, que indica a probabilidade de observar no máximo $t$ caras, é dada por:

\[\begin{align}\\ F_X(t) = P(X \leqslant t) = \begin{cases} \dfrac{1}{4}, & \text{se } 0 \leqslant t < 1 \\\\ \dfrac{3}{4}, & \text{se } 1 \leqslant t < 2 \\\\ 1, & \text{se } t \geqslant 2 \end{cases} \\\\ \end{align}\]

Nesse caso, o salto observado em cada ponto da função de distribuição acumulada representa exatamente a probabilidade de $X$ assumir aquele valor específico. Por exemplo, o salto de $F_X(t)$ entre $t=0$ e $t=1$ indica a probabilidade de ocorrer exatamente uma cara, conforme ilustrado na Figura 1.1.

Figura 1.1. Gráfico da função de distribuição acumulada do experimento referente ao lançamento de duas moedas honestas.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Exemplo 1.5. Suponha que o tempo de vida útil (em anos) de um determinado componente eletrônico produzido por uma indústria siga uma variável aleatória discreta $X$, cujos possíveis valores são $\{1, 2, 3\}$. Esses valores correspondem, respectivamente, às situações em que o componente falha no primeiro ano, entre o segundo e o terceiro ano, ou ultrapassa três anos de funcionamento. Após análise de dados de qualidade, a empresa estima a seguinte distribuição de probabilidades:

\[\begin{align}\\ P(X = 1) &= 0.15\\\\ P(X = 2) &= 0.55\\\\ P(X = 3) &= 0.30\\\\ \end{align}\]

Assim, a FDA, denotada por $F_X(t)$, para $X$ é dada por:

\[\begin{align}\\ F_X(t) = P(X \leqslant t) = \begin{cases} 0, & t < 1 \\\\ 0.15, & 1 \leqslant t < 2 \\\\ 0.70, & 2 \leqslant t < 3 \\\\ 1, & t \geqslant 3. \end{cases}\\\\ \end{align}\]

Note que $F_X(t)$ apresenta saltos nos pontos $t = 1, 2, 3$, cujas magnitudes coincidem com as probabilidades de $X$ assumir cada valor. Por exemplo, $F_X(2) = 0.70$ indica que há $70\%$ de chance de o componente falhar até completar dois anos de uso. A Figura 1.2 ilustra esse comportamento de $F_X(t)$.

Figura 1.2. Gráfico da função de distribuição acumulada do experimento referente ao tempo de vida útil de um componente eletrônico.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

1.3. Tipos de Variáveis Aleatórias

Como discutido anteriormente, as variáveis aleatórias desempenham papel central na modelagem de fenômenos incertos ao associar valores numéricos aos resultados de experimentos aleatórios, contudo, elas apresentam estruturas distintas: algumas assumem valores pontuais e bem definidos, enquanto outras podem variar continuamente dentro de um intervalo. Essa diversidade fundamenta sua classificação em diferentes tipos conforme a natureza do conjunto de valores que podem assumir. De modo geral, são chamadas discretas aquelas cujo conjunto de valores é enumerável, finito ou infinito, como em contagens de eventos, e contínuas aquelas cujos valores formam um subconjunto não enumerável da reta real, usualmente intervalos, capazes de variar de forma infinitesimal. Existem ainda as variáveis mistas, que combinam componentes discretas e contínuas simultaneamente, surgindo em contextos nos quais aspectos qualitativos e quantitativos coexistem em um mesmo fenômeno.

Definição 1.3 (Variável Aleatória Discreta). SSeja $X$ uma variável aleatória qualquer. Dizemos que $X$ é uma variável aleatória discreta se assume valores em um conjunto enumerável $\{x_1, x_2, x_3, \ldots\} \subseteq \mathbb{Z}$, tal que $\{\omega : X(\omega) = x_i\}$ é um evento para todo $i$. Por simplicidade de notação, o evento $\{\omega : X(\omega) = x_i\}$ será denotado por $\{X = x_i\}$. Como $\{X = x_i\}$ é um evento, então pode-se falar da probabilidade deste evento que, neste caso, é descrita por:

\[\begin{align}\\ P(\{\omega : X(\omega) = x_i\}) = P(X = x_i) \tag{2.3} \\\\ \end{align}\]

Esta probabilidade, em particular, define uma função $P(X = x)$, chamada de função de probabilidade de $X$, que satisfaz as seguintes propriedades:

(P1) $0 \leqslant P(X = x) \leqslant 1, \quad \forall x \in \mathbb{Z}$.
(P2) $\displaystyle\sum_{x \in \mathbb{Z}} P(X = x) = 1$.

Exemplo 1.6. Seja a variável aleatória $X$ que descreve o número de pastilhas de semicondutores que necessitam ser analisadas, de modo a detectar uma grande partícula de contaminação. Suponha que a probabilidade de uma pastilha conter tal partícula seja 0,01 e que as pastilhas sejam independentes. Defina:

$p$ = pastilha em que uma grande partícula de contaminação está presente.
$a$ = pastilha em que uma grande partícula de contaminação está ausente.

Note que o espaço amostral do experimento é infinito, podendo ser representado como todas as sequências possíveis que comecem com um conjunto de caracteres de $a$’s e terminem com $p$. Isto é,

\[\begin{align}\\ \Omega = \{p, ap, aap, aaap, aaaap, \ldots\} \\\\ \end{align}\]

A partir deste espaço amostral, observe que a probabilidade de exatamente uma pastilha ser analisada é definida por:

\[\begin{align}\\ P(X = 1) = P(p) = 0.01 \\\\ \end{align}\]

Por outro lado, pela suposição de independência, a probabilidade de exatamente duas pastilhas serem analisadas é definida como:

\[\begin{align}\\ P(X = 2) = P(ap) = 0.99 \cdot 0.01 = 0.0099 \\\\ \end{align}\]

Seguindo este processo, obtém-se que a probabilidade de exatamente $x$ pastilhas serem analisadas é descrita pela equação:

\[\begin{align}\\ P(X = x) = P(aa\ldots ap) = 0.99^{(x-1)} \cdot 0.01, \quad x = 1, 2, 3, \ldots \\\\ \end{align}\]

Note que $P(X = x)$ definida desta forma descreve uma função de probabilidade para a variável aleatória discreta $X$. De fato, para $x = 1, 2, 3, \ldots$ tem-se que $0 \leqslant P(X = x) \leqslant 1$, isto é, a propriedade $(P1)$ é satisfeita. Para a segunda propriedade, tem-se que:

\[\begin{align}\\ \sum_{x \in \{1, 2, 3, \ldots\}} P(X = x) &= \sum_{x \in \{1, 2, 3, \ldots\}} 0.99^{(x-1)} \cdot 0.01\\\\ &= 0.01 \cdot \sum_{x \in \{1, 2, 3, \ldots\}} 0.99^{(x-1)}\\\\ \end{align}\]

Note que o termo $\sum_{x \in \{1, 2, 3, \ldots\}} 0.99^{(x-1)}$ define uma série geométrica infinita cuja soma é descrita por:

\[\begin{align}\\ \sum_{x \in \{1, 2, 3, \ldots\}} 0.99^{(x-1)} = \dfrac{1}{1 - 0.99} = \dfrac{1}{0.01} \\\\ \end{align}\]

Logo,

\[\begin{align}\\ \sum_{x \in \{1, 2, 3, \ldots\}} P(X = x) = 0.01 \cdot \sum_{x \in \{1, 2, 3, \ldots\}} 0.99^{(x-1)} = 0.01 \cdot \dfrac{1}{0.01} = 1 \\\\ \end{align}\]

Isto é, a propriedade $(P2)$ é satisfeita, e, portanto, $P(X = x)$ é uma função de probabilidade para $X$.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\\\ \end{align}\]

Definição 1.4 (Variável Aleatória Contínua). Seja $X$ uma variável aleatória qualquer. Dizemos que $X$ é uma variável aleatória contínua se existe uma função não-negativa $f_X(\cdot) \geqslant 0$ tal que:

\[\begin{align}\\ F_X(x) = \int_{\mathbb{R}} f_X(x) \, dx, \quad \forall x \in \mathbb{R} \tag{2.4} \\\\ \end{align}\]

Neste caso, a função $f_X(x)$ é chamada de função de densidade de probabilidade de $X$ se satisfaz:

(P1) $f_X(x) \geqslant 0, \, \forall x \in \mathbb{R}$
(P2) $\displaystyle \int_{\mathbb{R}} f_X(x) \, dx = 1$

Exemplo 1.7. Suponha que em um estudo arqueológico foi estabelecido um modelo teórico para descrever o comprimento de fósseis (em cm) de uma certa região pela seguinte equação:

\[\begin{align}\\ f(x) = \begin{cases} \dfrac{1}{40} \left(1 + \dfrac{x}{10}\right), & \text{se } 0 \leqslant x \leqslant 20 \\ 0, & \text{caso contrário} \end{cases} \\\\ \end{align}\]

Defina a variável aleatória contínua $X =$ {comprimento de fósseis}. A função $f(x)$ é uma função densidade de probabilidade para $X$? Para responder esta questão, note que,

Para $0 \leqslant x \leqslant 20$, $f(x) = \dfrac{1}{40} \left(1 + \dfrac{x}{10}\right) \geqslant 0$.
Para $x < 0$ ou $x > 20$, $f(x) = 0$.

Isto é, $f(x) \geqslant 0$ para todo $x$ e, portanto, (P1) está satisfeita. Para verificar (P2), note que,

\[\begin{align}\\ \int_0^{20} f(x) \, dx &= \int_0^{20} \dfrac{1}{40} \left(1 + \dfrac{x}{10}\right) \, dx \\\\ &= \dfrac{1}{40} \left[ \int_0^{20} 1 \, dx + \int_0^{20} \dfrac{x}{10} \, dx \right]\\\\ &= \dfrac{1}{40} \left[ 20 + \dfrac{1}{10} \cdot \dfrac{20^2}{2} \right]\\\\ &= 1\\\\ \end{align}\]

Logo, (P2) é satisfeita. Portanto, como ambas as condições são satisfeitas, a função $f(x)$ é, de fato, uma função densidade de probabilidade para a variável aleatória contínua $X$.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Observação 1.2. Na Definição 1.4, a expressão $F_X$ é chamada de função de distribuição da variável aleatória contínua $X$. A partir, desta função, pode-se obter a função densidade de probabilidade, $f_X$, por meio da seguinte relação:

\[\begin{align}\\ f_X(x) = \dfrac{d}{dx} F_X(x) \\\\ \end{align}\]

para todo $x \in \mathbb{R}$.

Exemplo 1.8. Seja $Z$ uma variável aleatória contínua com função de distribuição descrita pela expressão:

\[\begin{align}\\ F_Z(z) = 1 - e^{-10z} \\\\ \end{align}\]

Qual é a função densidade de probabilidade de $Z$? Para responder esta pergunta, iremos trabalhar com a relação expressa na Observação 1.2. Neste caso, calculando a derivada, obtemos que:

\[\begin{align}\\ f_Z(z) = \dfrac{d}{dz} \left( 1 - e^{-10z} \right) = 0 - (-10 e^{-10z}) = 10 e^{-10z} \\\\ \end{align}\]

Logo, a função densidade de probabilidade de $Z$ é dada por:

\[\begin{align}\\ f_Z(z) = \begin{cases} 10 e^{-10z}, & \text{se } z \geqslant 0 \\ 0, & \text{caso contrário} \end{cases} \\\\ \end{align}\]

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Exemplo 1.9. Seja $X$ uma variável aleatória contínua com função de distribuição descrita pela expressão:

\[\begin{align}\\ F_X(x; \alpha, \lambda) = 1 - \left[ 1 + \dfrac{x}{\lambda} \right]^{-\alpha} \\\\ \end{align}\]

Qual a função densidade de probabilidade de $X$? Para responder esta pergunta, iremos trabalhar com a relação expressa na Observação 1.2. Neste caso, calculando a derivada, obtemos que:

\[\begin{align}\\ f_X(x) = \dfrac{d}{dx} \left( 1 - \left[ 1 + \dfrac{x}{\lambda} \right]^{-\alpha} \right) = -\dfrac{d}{dx} \left[ 1 + \dfrac{x}{\lambda} \right]^{-\alpha} \\\\ \end{align}\]

Pela regra da cadeia para derivadas, tem-se que a função densidade de probabilidade de $X$ é descrita por:

\[\begin{align}\\ f_X(x) = \dfrac{\alpha}{\lambda} \left[ 1 + \dfrac{x}{\lambda} \right]^{-\alpha - 1} \\\\ \end{align}\]

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\\\ \end{align}\]

Observação 1.3. É importante destacar que, diferente do caso discreto, o tratamento de variáveis aleatórias contínuas é feito em termos de integrais. Por exemplo, podemos calcular a probabilidade em um intervalo $[a, b]$ de uma variável aleatória contínua $X$ da seguinte forma:

\[\begin{align}\\ P(a \leqslant x \leqslant b) = \int_a^b f_X(t) \, dt \\\\ \end{align}\]

Exemplo 1.10. Seja $X$ uma variável aleatória referente à tensão de vibração (em psi) em uma lâmina de turbina. Para descrever $X$, o artigo “Blade fatigue life assessment with application to VAWTS” propõe a função densidade de probabilidade descrita por:

\[\begin{align}\\ f_X(x; \theta) = \dfrac{x}{\theta^2} \exp\left\{-\dfrac{x^2}{2\theta^2}\right\} \\\\ \end{align}\]

Suponha que $\theta = 100$. Qual é a probabilidade da tensão de vibração estar entre 100 psi e 200 psi? Para encontrar a probabilidade de $X$ estar entre 100 psi e 200 psi, devemos calcular:

\[\begin{align}\\ P(100 \leqslant X \leqslant 200) = \int_{100}^{200} f_X(x; 100) \, dx \\\\ \end{align}\]

Então, substituindo $\theta$ na função densidade de probabilidade, tem-se que:

\[\begin{align}\\ f_X(x; 100) = \dfrac{x}{100^2} \exp\left\{-\dfrac{x^2}{2 \cdot 100^2}\right\} = \dfrac{x}{10000} \exp\left\{-\dfrac{x^2}{20000}\right\} \\\\ \end{align}\]

Portanto, a probabilidade de interesse é obtida por:

\[\begin{align}\\ P(100 \leqslant X \leqslant 200) = \int_{100}^{200} \dfrac{x}{10000} \exp\left\{-\dfrac{x^2}{20000}\right\} \, dx \\\\ \end{align}\]

Para resolver essa integral, podemos usar a substituição $u = x^2/20000$, de modo que $du = /x/10000 \, dx$ ou $dx = 10000 du/x$. Neste caso, os limites de integração mudam de $x = 100$ e $x = 200$ para $u = 100^2/20000 = 0.5$ e $u = 200^2/20000 = 2$. Logo,

\[\begin{align}\\ P(100 \leqslant X \leqslant 200) = \int_{0.5}^{2} e^{-u} \, du = \left[ -e^{-u} \right]_{0.5}^{2} = -e^{-2} + e^{-0.5} \approx 0.4712 \\\\ \end{align}\]

Portanto, a probabilidade da tensão de vibração estar entre 100 psi e 200 psi é de, aproximadamente, 47.12%.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\\\ \end{align}\]

Observação 1.4. Em certas situações, o cálculo das integrais para determinar a probabilidade de interesse pode ser um pouco massivo, ou até mesmo não apresentar solução analítica. Nestes casos, uma alternativa é fazer uso de softwares computacionais. No R, por exemplo, utiliza-se a função integrate que tem os seguintes argumentos:

f: objeto de classe function, que é a função a ser integrada.
lower: limite inferior da integral de interesse.
upper: limite superior da integral de interesse.
subdivisions: um valor numérico referente ao número de subintervalos para o cálculo da integral.

Exemplo 1.11. Considere $X$ como uma variável aleatória que representa o diâmetro de um fio, cujo valor alvo é 12.5 mm. Assume-se que $X$ segue a função densidade de probabilidade dada por

\[\begin{align}\\ f_X (x) = 20 e^{-20(x - 12.5)} \\\\ \end{align}\]

para $x \geqslant 12.5$ mm. Suponha-se que fios com diâmetro superior a 12.6 mm sejam descartados. O objetivo é calcular a probabilidade de descarte, ou seja, $P(X > 12.6)$. Para isso, é necessário integrar a função densidade no intervalo de 12.6 mm até o infinito, isto é,

\[\begin{align}\\ P(X > 12.6) = \int_{12.6}^{\infty} f_X(x) \, dx \\\\ \end{align}\]

Embora esta integral seja relativamente simples, sua resolução envolve técnicas de cálculo de integrais impróprias devido ao limite de integração. Então, para facilitar o cálculo dessa integral, pode-se trabalhar com a função integrate do ambiente R, que aproxima o valor de uma integral por métodos numéricos. O Código 1.1 ilustra o procedimento de solução, via integrate.

Código 1.1. Cálculo de $P(X > 12.6)$ usando a função integrate no ambiente R.

# ----------------------
# Vetores em Ambiente R
# ----------------------

# --- 1. Definição da função densidade de probabilidade ---

fx      <- function(x) 20 * exp(-20 * (x - 12.5))

# --- 2. Cálculo da probabilidade de descarte (integral da função densidade) ---

prob_c  <- integrate(fx, lower = 12.6, upper = Inf)$value
prob_c

[1] 0.1353353

Portanto, a probabilidade de descarte dos fios, ou seja, de que o diâmetro exceda 12.6 mm, é aproximadamente $0.1353$, o que corresponde a 13.53%. Esse valor indica que, em média, cerca de 13 em cada 100 fios produzidos apresentarão diâmetro acima do limite especificado, sendo assim rejeitados no processo de controle de qualidade.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\\\ \end{align}\]

1.4. Momentos de Variáveis Aleatórias

Sejam $X$ e $Y$ duas variáveis aleatórias, ambas simétricas em torno de zero, sendo que $X$ pode assumir valores ao longo do intervalo $[-1, 1]$, enquanto $Y$ assume exclusivamente os valores $\{-1, 1\}$, cada um com igual probabilidade. Ainda que ambas possuam média nula, percebe-se que os valores de $X$ tendem a se concentrar mais próximos da média, ao passo que $Y$ se limita a oscilar entre extremos fixos, denotando uma maior dispersão. Para compreender e quantificar de maneira precisa essa diferença de comportamento, é necessário introduzir o conceito de $k$-ésimo momento de uma variável aleatória.

Definição 1.5 ($k$-ésimo Momento). Seja $X$ uma variável aleatória e um número inteiro $k$. Define-se o k-ésimo momento de $X$ de acordo com as relações:

\[\begin{align}\\ E[X^k] = \begin{cases} \displaystyle\int_{-\infty}^{\infty} x^k f_X(x) \, dx & \quad \text{se $X$ é contínua}\\\\ \displaystyle\sum_{x = -\infty}^{\infty} x^k P(X = k) & \quad \text{se $X$ é discreta} \end{cases} \\\\ \end{align}\]

Em ambos os casos, quando $k = 1$, a expressão $E[X^k]$ corresponde à média da variável aleatória $X$. Além disso, se $X$ tem $k$-ésimo momento finito, então, define-se o k-ésimo momento central de $X$ pela expressão:

\[\begin{align}\\ \mu_k(X) = E\bigl[(X - E[X])^k\bigr]\\\\ \end{align}\]

Dessa expressão, obtém-se, para $k = 2$, a variância de $X$, denotada por $\text{Var}(X)$ e definida pela relação $\text{Var}(X) = E\left[(X - E[X])^2\right]$.

Exemplo 1.12. Considere um contexto industrial no qual o comprimento de um componente fabricado apresenta pequenas variações aleatórias, mas está sempre contido dentro de limites especificados por normas técnicas. Para modelar essa incerteza, supõe-se que o comprimento seja representado por uma variável aleatória $X$ com distribuição uniforme no intervalo $[a, b]$. Nesse caso, qualquer valor entre $a$ e $b$ possui a mesma probabilidade de ocorrência, caracterizando a ausência de preferência por valores específicos dentro desse intervalo. Para investigar a variabilidade de $X$ em torno de sua média, inicia-se determinando o valor esperado de $X$, conhecido por:

\[\begin{align}\\ E[X] = \dfrac{a + b}{2} \\\\ \end{align}\]

Esse valor representa o ponto médio do intervalo, sendo interpretado como o comprimento médio dos componentes produzidos. Em seguida, para avançar no cálculo da variância, obtém-se o segundo momento de $X$ em relação à origem, dado por:

\[\begin{align}\\ E[X^2] = \int_{a}^{b} x^2 \cdot \dfrac{1}{b - a} \, dx = \dfrac{1}{b - a} \cdot \left[ \dfrac{x^3}{3} \right]_{a}^{b} = \dfrac{1}{b - a} \cdot \left( \dfrac{b^3 - a^3}{3} \right) \\\\ \end{align}\]

Com essas informações, a variância de $X$ — que mede o grau de dispersão dos valores em torno de sua média — pode ser expressa como:

\[\begin{align}\\ \text{Var}(X) = \dfrac{1}{b - a} \cdot \left( \dfrac{b^3 - a^3}{3} \right) - \left(\dfrac{a + b}{2}\right)^2 = \dfrac{(b - a)^2}{12} \\\\ \end{align}\]

Dessa forma, conclui-se que a variância de uma variável aleatória uniforme definida em $[a, b]$ depende exclusivamente do quadrado da amplitude do intervalo $(b - a)$, dividido por 12.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\\\ \end{align}\]

Definição 1.6 (Função Geradora de Momentos). Seja $X$ uma variável aleatória qualquer. Define-se a função geradora de momentos (FGM) de $X$ de acordo com as relações:

\[\begin{align}\\ M_X(t) = E(e^{tX}) = \begin{cases} \displaystyle\sum_{x \ \in \ \mathbb{Z}} e^{tx} P(X = x) & \quad \text{se $X$ é discreta}\\\\ \displaystyle \int_{\mathbb{R}} e^{tx} f_X(x) \, dx & \quad \text{se $X$ é contínua} \end{cases} \\\\ \end{align}\]

Em ambos os dados, se $M_X(t)$ existir, então a média e a variância da variável aleatória $X$ são obtidas, respectivamente, pelas relações:

\[\begin{align}\\ E(X) &= M_X'(0)\\\\ \text{Var}(X) &= M_X''(0) - [M_X'(0)]^2 \\\\ \end{align}\]

Exemplo 1.13 (Distribuição de Bernoulli). Dizemos que uma variável aleatória discreta $X$ tem distribuição de Bernoulli, $X \sim \text{Bernoulli}(\rho)$, se sua função de probabilidade de $X$ é descrita por:

\[\begin{align}\\ P(X = x) = \rho^x (1 - \rho)^{1 - x} \\\\ \end{align}\]

em que o parâmetro $0 < \rho < 1$ representa a probabilidade de sucesso. Para esta distribuição, tem-se que a função geradora de momentos é dada por:

\[\begin{align}\\ M_X(t) = \sum_{x = 0}^{1} e^{tx} \rho^x (1 - \rho)^{1 - x} = (1 - \rho) + \rho e^t \\\\ \end{align}\]

de onde obtemos que a média e a variância são dadas por $E(X) = \rho$ e $\text{Var}(X) = \rho(1 - \rho)$.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Exemplo 1.14 (Distribuição de Poisson). Suponha que a variável aleatória $X$ represente o número de ocorrências do evento em um determinado intervalo de tempo. Sendo o parâmetro $\lambda$ a taxa de ocorrência, dizemos que $X$ segue a distribuição de Poisson com parâmetro $\lambda$, $X \sim \text{Poisson}(\lambda)$, se sua função de probabilidade for descrita por:

\[\begin{align}\\ P(X = x) = \dfrac{e^{-\lambda} \lambda^x}{x!} \\\\ \end{align}\]

com $\lambda > 0$. Para esta distribuição, tem-se que a função geradora de momentos, neste caso, é dada pela expressão:

\[\begin{align}\\ M_X(t) = \sum_{x = 0}^{\infty} e^{tx} \dfrac{e^{-\lambda} \lambda^x}{x!} = e^{\lambda(e^t - 1)} \\\\ \end{align}\]

de onde obtemos que a média e a variância são dadas, respectivamente, pelas expressões:

\[\begin{align}\\ E(X) = M_X'(0) = \lambda \quad \text{e} \quad \text{Var}(X) = M_X''(0) - [M_X'(0)]^2 = \lambda \\\\ \end{align}\]

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Exemplo 1.15 (Distribuição Exponencial). Dizemos que $X$ tem distribuição exponencial com parâmetro $\lambda > 0$, denotado por $X \sim \text{Exponencial}(\lambda)$, se sua função densidade de probabilidade for descrita por:

\[\begin{align}\\ f_X(x) = \lambda e^{-\lambda x} \\\\ \end{align}\]

com $x \geqslant 0$ e $\lambda > 0$. A função geradora de momentos dessa distribuição é, para $t > \lambda$, descrita pela expressão:

\[\begin{align}\\ M_X(t) = \lim_{a \to \infty} \int_0^a e^{tx} \lambda e^{-\lambda x} \, dx = \dfrac{\lambda}{\lambda - t} \\\\ \end{align}\]

A partir dessa equação, obtemos, então, que a média e a variância da distribuição exponencial são dadas, respectivamente, por:

\[\begin{align}\\ E(X) = M_X'(0) = \dfrac{\lambda}{(\lambda - t)^2} \bigg|_{t = 0} = \dfrac{1}{\lambda} \\\\ \end{align}\]

\[\begin{align}\\ \text{Var}(X) = M_X''(0) - [M_X'(0)]^2 = \dfrac{2\lambda}{(\lambda - t)^3} \bigg|_{t = 0} - \left(\dfrac{1}{\lambda}\right)^2 = \dfrac{1}{\lambda^2} \\\\ \end{align}\]

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Exemplo 1.16 (Distribuição Normal). Dizemos que $X$ tem distribuição normal com parâmetros $\mu \in \mathbb{R}$ e $\sigma^2 > 0$, denotado por $X \sim N(\mu, \sigma^2)$, se $X$ tem como função densidade de probabilidade:

\[\begin{align}\\ f_X(x) = \dfrac{1}{\sqrt{2\pi \sigma^2}} e^{-\dfrac{(x - \mu)^2}{2\sigma^2}} \\\\ \end{align}\]

para todo $x \in \mathbb{R}$. Um fato importante de destaque da distribuição Normal é que se $X$ é uma variável aleatória normalmente distribuída com parâmetros $\mu$ e $\sigma^2$, então $Y = aX + b$ é normalmente distribuída com parâmetros $a\mu + b$ e $a^2 \sigma^2$. De fato, suponha que $a > 0$ (a demonstração é análoga para o caso $a < 0$) e seja $F_Y$ a função de distribuição da variável $Y$. Então,

\[\begin{align}\\ F_Y(x) = P(Y \leqslant x) = P(aX + b \leqslant x) = P(X \leqslant \dfrac{x - b}{a}) = F_X\left(\dfrac{x - b}{a}\right) \\\\ \end{align}\]

sendo $F_X$ a função de distribuição de $X$. Pela definição de função densidade de probabilidade, obtém-se, com base em $F_Y$, que a função densidade de probabilidade da variável aleatória $Y$ é descrita por:

\[\begin{align}\\ f_Y(x) = \dfrac{1}{a} f_X\left(\dfrac{x - b}{a}\right) = \dfrac{1}{a \sqrt{2\pi \sigma^2}} e^{-\dfrac{(x - b - a\mu)}{2a^2 \sigma^2}} \\\\ \end{align}\]

isto é, $Y$ segue uma distribuição normal com parâmetros $a\mu + b$ e $a^2 \sigma^2$. Esse resultado nos traz uma das aplicações mais importantes da distribuição normal que é a transformação $Z$, obtida a partir de $X \sim N(\mu, \sigma^2)$ por meio da transformação de variáveis:

\[\begin{align}\\ Z = \dfrac{X - \mu}{\sigma} \\\\ \end{align}\]

em que $Z$, neste caso, segue uma distribuição normal com parâmetros $\mu = 0$ e $\sigma = 1$. De fato, note que a média de $Z$ é descrita pela seguinte expressão:

\[\begin{align}\\ E(Z) = \dfrac{1}{\sigma} \left(E(X) - E(\mu)\right) = 0 \\\\ \end{align}\]

já que a média da variável aleatória $X$ é dado por $E(X) = \mu$. Além disso, a variância de $Z$ é obtida como:

\[\begin{align}\\ \text{Var}(Z) = E(Z^2) - E(Z)^2 = 1 \\\\ \end{align}\]

uma vez que $E[(X - \mu)^2] = \sigma^2$ representa a variância da variável aleatória normal $X$. Todavia, para que este resultado seja válido, é necessário garantir que, de fato, $E(X) = \mu$ e $\text{Var}(X) = \sigma^2$. Neste caso, note que a variável aleatória $X = \mu + \sigma Z$ segue uma distribuição normal com parâmetros $\mu$ e $\sigma^2$ sempre que $Z \sim N(0,1)$. Pela definição de FGM, tem-se que a FGM de $X$ pode ser escrita como:

\[\begin{align}\\ M_X(t) = E[e^{t(\mu + \sigma Z)}] = e^{t\mu} \int_{-\infty}^{\infty} \dfrac{1}{\sqrt{2\pi}} e^{t\sigma z} e^{-\dfrac{z^2}{2}} \, dz = e^{t\mu + \dfrac{t^2 \sigma^2}{2}} \\\\ \end{align}\]

de onde obtém-se que $E(X) = \mu$ e $\text{Var}(X) = \sigma^2$, como queríamos verificar.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\\\ \end{align}\]

1.5. Conceitos de Convergência

O estudo da convergência de variáveis aleatórias ocupa papel central na teoria da probabilidade, sendo essencial para fundamentar resultados assintóticos e métodos inferenciais. De modo geral, analisar a convergência significa investigar de que forma uma sequência de variáveis aleatórias $(X_n)_{n \ \in \ \mathbb{N}}$ se aproxima de uma variável aleatória $X$, à medida que $n$ tende ao infinito, segundo distintos critérios de proximidade probabilística. Entre as formas mais importantes de convergência, destacam-se a convergência quase certa, a convergência em probabilidade e a convergência em distribuição, cada uma com propriedades e implicações específicas. Antes, porém, de estabelecer esses critérios, é necessário compreender as desigualdades fundamentais que permitem controlar a probabilidade de desvios entre $X_n$ e $X$.

Teorema 1.1 (Desigualdade de Markov). Seja $X \geqslant 0$ uma variável aleatória não-negativa, e seja $k > 0$. Então, é válido que:

\[\begin{align}\\ P(X \geqslant k) \leqslant \dfrac{E(X)}{k} \\\\ \end{align}\]

Essa desigualdade é conhecida como Desigualdade de Markov.

Demonstração. Será considerado apenas o caso contínuo, visto que o caso discreto é análogo. Neste caso, assuma $X \geqslant 0$ como uma variável aleatória contínua. Então, tem-se que o valor esperado de $X$ é descrito por:

\[\begin{align}\\ E(X) = \int_0^\infty x f_X(x) \, dx = \int_0^k x f_X(x) \, dx + \int_k^\infty x f_X(x) \, dx \\\\ \end{align}\]

Sendo $k \geqslant 0$ e, dado que $x \geqslant 0$ e $f_X(x) \geqslant 0$, tem-se que:

\[\begin{align}\\ E(X) = \int_0^k x f_X(x) \, dx + \int_k^\infty x f_X(x) \, dx \geqslant \int_k^\infty k f_X(x) \, dx = k \int_k^\infty f_X(x) \, dx = k \cdot P(X \geqslant k) \\\\ \end{align}\]

como queríamos demonstrar.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Exemplo 1.17. Suponha que o tempo de execução esperado do algoritmo QuickSort para ordenar um array de tamanho $n$ seja descrito por $E[X] = 2n \log(n)$ operações, onde $X$ é a variável aleatória referente ao tempo de execução. Para estabelecer um limite superior na probabilidade de que o tempo real de execução do algoritmo QuickSort exceda, por exemplo, $20n \log(n)$ operações, pode-se trabalhar com a desigualdade de Markov. Assim, ao aplicar essa desigualdade, obtemos:

\[\begin{align}\\ P(X \geqslant 20n \log(n)) \leqslant \frac{E[X]}{20n \log(n)} &\Rightarrow P(X \geqslant 20n \log(n)) \leqslant \frac{2n \log(n)}{20n \log(n)}\\\\ &\Rightarrow P(X \geqslant 20n \log(n)) \leqslant \frac{1}{10} \\\\ \end{align}\]

isto é, a probabilidade de que o tempo real de execução do QuickSort exceda $20n \log(n)$ operações é, no máximo, $1/10$, ou seja, 10%.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Teorema 1.2 (Desigualdade de Chebyshev). Seja $X$ uma variável aleatória com valor esperado definido por $E[X]$ e variância finita, $\text{Var}(X) < \infty$. Então, para uma dada constante $\epsilon > 0$, é válido que:

\[\begin{align}\\ P(|X - E[X]| > \epsilon) \leqslant \dfrac{\text{Var}(X)}{\epsilon^2} \\\\ \end{align}\]

Essa desigualdade é conhecida como Desigualdade de Chebyshev.

Demonstração. Seja $X$ uma variável aleatória. Note, a partir de $X$, que $(X - E[X])^2$ define uma variável aleatória não-negativa. Logo, pela desigualdade de Markov, tem-se que:

\[\begin{align}\\ P(|X - E[X]| \geqslant \epsilon) = P((X - E[X])^2 \geqslant \epsilon^2) \leqslant \dfrac{E[(X - E[X])^2]}{\epsilon^2} \\\\ \end{align}\]

Assim, como $\text{Var}(X) = E[(X - E[X])^2]$, conclui-se que:

\[\begin{align}\\ P(|X - E[X]| > \epsilon) \leqslant \dfrac{\text{Var}(X)}{\epsilon^2} \\\\ \end{align}\]

como queríamos demonstrar.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Exemplo 1.18. Suponha que em uma certa cidade, a média da temperatura ao longo de um mês seja de 20°C, com um desvio-padrão de 4°C. A administração da cidade deseja saber a probabilidade de que a temperatura de um dia específico seja inferior a 4°C ou superior a 36°C. Isto é, objetiva-se encontrar um limite superior para a probabilidade. Para determinar tal limite, pode-se trabalhar com a desigualdade de Chebyshev. Essa desigualdade afirma que, para uma variável aleatória $X$ com média $\mu = E[X]$ e desvio-padrão $\sigma = \sqrt{\text{Var}(X)} = \sqrt{E\left[(X - E[X])^2\right]}$, a probabilidade de que $X$ esteja a uma distância de $k$ desvios-padrão da média é limitada por:

\[\begin{align}\\ P(|X - \mu| \geqslant k\sigma) \leqslant \frac{1}{k^2} \\\\ \end{align}\]

Dado que a média da temperatura mensal é de 20°C, e o desvio-padrão é de 4°C, o objetivo é encontrar a probabilidade de que a temperatura em um dia específico esteja abaixo de 4°C ou acima de 36°C. Isso pode ser reformulado em termos da média:

\[\begin{align}\\ P(X < 4) + P(X > 36) \\\\ \end{align}\]

Para calcular essas probabilidades, observamos que a temperatura de 4°C está a uma distância de 16°C da média (20°C), e a temperatura de 36°C também está a 16°C acima da média. Portanto, temos:

\[\begin{align}\\ |X - 20| \geqslant 16 \\\\ \end{align}\]

A distância em relação ao desvio-padrão é:

\[\begin{align}\\ k = \frac{16}{4} = 4 \\\\ \end{align}\]

Aplicando a desigualdade de Chebyshev, obtemos:

\[\begin{align}\\ P(|X - 20| \geqslant 16) \leqslant \frac{1}{4^2} = \frac{1}{16} \\\\ \end{align}\]

Assim, concluímos que o limite superior para a probabilidade de que a temperatura em um dia específico seja inferior a 4°C ou superior a 36°C é, no máximo, $1/16$, o que corresponde a 6,25%. Essa análise fornece uma estimativa quantitativa da variabilidade das temperaturas em relação à média mensal.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Teorema 1.3 (Desigualdade de Jensen). Seja $X$ uma variável aleatória e seja $g: \mathbb{R}^n \to \mathbb{R}$ uma função convexa. Então,

\[\begin{align}\\ g(E[X]) \leqslant E[g(X)] \\\\ \end{align}\]

Essa desigualdade é conhecida como Desigualdade de Jensen.

Demonstração. Iremos considerar apenas o caso em que $X$ é uma variável aleatória discreta, visto que o caso contínuo é análogo. Então, dado que $X$ é finita, defina $\Omega_X = \{ x_1, \ldots, x_n \}$ e $p_X(x_i) = p_i$. Pela definição de função convexa, tem-se que:

\[\begin{align}\\ g(E[X]) = g\left(\sum_{i=1}^n p_i x_i\right) \leqslant \sum_{i=1}^n p_i g(x_i) = E[g(X)] \\\\ \end{align}\]

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Exemplo 1.19. Em sistemas de comunicação, sabe-se que o sinal transmitido $S$ pode ser afetado por ruído aleatório $N$, resultando em um sinal recebido $R = S + N$. Considere que $S$ é um valor fixo e $N$ é uma variável aleatória com média zero e variância $\sigma^2$. Suponha que o objetivo seja descrever o impacto do ruído no valor quadrático esperado do erro de recepção, considerando a função convexa $u(x) = x^2$. Para tal, utilizaremos a desigualdade de Jensen. Neste caso, sabendo que $R = S + N$ e considerando a função convexa $u(x) = x^2$, tem-se que:

\[\begin{align}\\ E[(R - S)^2] = E[N^2] \\\\ \end{align}\]

Como $E[N] = 0$, temos:

\[\begin{align}\\ E[N^2] = E[(R - S)^2] \\\\ \end{align}\]

Logo, aplicando a desigualdade de Jensen, dado que $N$ é a variável aleatória, tem-se que:

\[\begin{align}\\ E[(R - S)^2] \geqslant (E[R - S])^2 \\\\ \end{align}\]

Como $E[R] = E[S + N] = S + E[N] = S$, obtém-se que:

\[\begin{align}\\ E[R - S] = E[N] = 0 \\\\ \end{align}\]

Portanto, a desigualdade de Jensen se reduz a:

\[\begin{align}\\ E[(R - S)^2] \geqslant 0 \\\\ \end{align}\]

Entretanto, para descrever melhor o impacto do ruído, devemos analisar a variância. Sabemos que:

\[\begin{align}\\ E[N^2] = \text{Var}(N) = \sigma^2 \\\\ \end{align}\]

Logo, o valor quadrático esperado do erro de recepção é igual à variância do ruído. Portanto, a desigualdade de Jensen nos confirma que o erro quadrático esperado não pode ser inferior a zero, reforçando que o impacto do ruído no sinal recebido é mediado pela variância do ruído, ou seja, $E[(R - S)^2] = \sigma^2$.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Teorema 1.4 (Desigualdade de Cauchy-Schwartz). Se $X$ e $Y$ são variáveis aleatórias que têm o segundo momento finito, então,

\[\begin{align}\\ E[XY] \leqslant \sqrt{E[X^2]} \sqrt{E[Y^2]} \\\\ \end{align}\]

Essa desigualdade é conhecida como Desigualdade de Cauchy-Schwartz. Dessa desigualdade, se $E[XY]^2 = E[X^2] E[Y^2]$, então existe $c \geqslant 0$ tal que $P(Y = cX) = 1$, ou então $P(X = 0) = 1$.

Demonstração. Note que $|XY| \leqslant X^2 + Y^2$. Sejam $a = \sqrt{E[X^2]}$ e $b = \sqrt{E[Y^2]}$. Se $a = 0$ ou $b = 0$, o resultado é válido e não há o que demonstrar. Suponha, então, que $0 < a < +\infty$ e $0 < b < +\infty$ e, note que:

\[\begin{align}\\ 0 \leqslant E\left[\dfrac{X}{a} - \dfrac{Y}{b}\right]^2 = E\left[\dfrac{X^2}{a^2} - \dfrac{2XY}{ab} + \dfrac{Y^2}{b^2}\right] = 2 - \dfrac{2E[XY]}{ab} \\\\ \end{align}\]

Isto é,

\[\begin{align}\\ E[XY] \leqslant ab = \sqrt{E[X^2]} \sqrt{E[Y^2]} \\\\ \end{align}\]

Agora, se $E[XY] = ab = \sqrt{E[X^2]} \sqrt{E[Y^2]}$, então vale a igualdade na equação anterior, de onde tem-se que:

\[\begin{align}\\ E\left[\dfrac{X}{a} - \dfrac{Y}{b}\right]^2 = 0 \\\\ \end{align}\]

Logo,

\[\begin{align}\\P\left(\dfrac{X}{a} - \dfrac{Y}{b} = 0\right) = 1\\\\ \end{align}\]

E, portanto, $P(Y = cX) = 1$, com $c = b/a$, como queríamos demonstrar.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Exemplo 1.20. Sejam $X = \mathbb{I}_A$ e $Y = \mathbb{I}_B$ variáveis aleatórias de Bernoulli com parâmetro $p$, onde $A$ e $B$ são eventos independentes. Então, tem-se que:

\[\begin{align}\\ E[XY] = E[\mathbb{I}_A \mathbb{I}_B] = P(A \cap B) = P(A) P(B) = p^2 \\\\ \end{align}\]

Por outro lado, dado que $Z^2 = Z$ se $Z$ tiver distribuição de Bernoulli, tem-se que:

\[\begin{align}\\ \sqrt{E[X^2]} \sqrt{E[Y^2]} = \sqrt{E[X]} \sqrt{E[Y]} = p \\\\ \end{align}\]

Como $p^2 \leqslant p$, a desigualdade de Cauchy-Schwarz é satisfeita, valendo a igualdade nos casos extremos $p = 0$ e $p = 1$.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Com as desigualdades fundamentais devidamente estabelecidas — em especial as desigualdades de Markov e de Chebyshev —, torna-se possível avançar para o estudo das diferentes noções de convergência de variáveis aleatórias. AAssim, a seguir, apresentam-se as principais formas de convergência — a convergência quase certa, a convergência em probabilidade e a convergência em distribuição —, cada uma caracterizada por diferentes condições e intensidades de aproximação, bem como por distintas implicações teóricas e aplicações práticas.

Definição 1.7 (Convergência em Probabilidade). Sejam $X$ e $(X_n)_{n \ \in \ \mathbb{N}}$ variáveis aleatórias definidas em um mesmo espaço de probabilidade definido por $(\Omega, \mathcal{F}, P)$. Diz-se que a sequência $(X_n)_{n \ \in \ \mathbb{N}}$ converge em probabilidade para $X$, denotado por $X_n \xrightarrow{P} X$ se, para todo $\epsilon > 0$, é válido que:

\[\begin{align}\\ \lim_{n \to +\infty} P(|X_n(\omega) - X(\omega)| \geqslant \epsilon) = 0 \\\\ \end{align}\]

Exemplo 1.21. Sejam $X_1, X_2, \ldots$ variáveis aleatórias, tais que $X_n \sim \text{Bernoulli}(1/n)$. Tem-se, para $\epsilon < 1$, que:

\[\begin{align}\\ P(|X_n - 0| \geqslant \epsilon) = P(X_n = 1) = \dfrac{1}{n} \\\\ \end{align}\]

Isto é, $X_n$ converge em probabilidade para 0. De fato, como $X_n$ tem distribuição de Bernoulli, tem-se, para $\epsilon < 1$, que:

\[\begin{align}\\ P(|X_n - 0| \geqslant \epsilon) = P(X_n = 1) = \left( \frac{1}{n} \right)^1 \left(1 - \frac{1}{n}\right)^{(1 - 1)} = \frac{1}{n} \\\\ \end{align}\]

Logo,

\[\begin{align}\\ P(|X_n - 0| \geqslant \epsilon) = \frac{1}{n} \\\\ \end{align}\]

Tomando o limite para $n \to \infty$, tem-se que:

\[\begin{align}\\ \lim_{n \to \infty} P(|X_n - 0| \geqslant \epsilon) = \lim_{n \to \infty} \frac{1}{n} = 0 \\\\ \end{align}\]

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Exemplo 1.22. Suponha que $X_1, X_2, \ldots, X_n$ seja uma sequência de variáveis aleatórias tais que $X_n \sim \text{Exponencial}(1)$. Defina:

\[\begin{align}\\ Y_n = \frac{X_n}{\ln(n)} \\\\ \end{align}\]

Como $X_n \sim \text{Exponencial}(1)$, então, para $\lambda = 1$, tem-se que:

\[\begin{align}\\ f_{X_n}(x) = \lambda e^{-\lambda x} = e^{-x} \\\\ \end{align}\]

Agora, dado que $Y_n = \frac{X_n}{\ln(n)}$, tem-se que:

\[\begin{align}\\ P(|Y_n - 0| \geqslant \epsilon) = P\left(\frac{X_n}{\ln(n)} \geqslant \epsilon\right) = P(X_n \geqslant \epsilon \ln(n)) \\\\ \end{align}\]

Note que, para a distribuição exponencial, tem-se que:

\[\begin{align}\\ P(X \geqslant x) = 1 - P(X < x) = 1 - (1 - e^{-x}) = e^{-x} \\\\ \end{align}\]

Logo,

\[\begin{align}\\ P(X_n \geqslant \epsilon \ln(n)) = e^{-\epsilon \ln(n)} = e^{\ln(n^{-\epsilon})} = n^{-\epsilon} \\\\ \end{align}\]

Então, tomando o limite para $n \to \infty$, obtém-se que:

\[\begin{align}\\ \lim_{n \to \infty} P(|Y_n - 0| \geqslant \epsilon) = \lim_{n \to \infty} P(X_n \geqslant \epsilon \ln(n)) = \lim_{n \to \infty} n^{-\epsilon} = \lim_{n \to \infty} \frac{1}{n^{\epsilon}} = 0 \\\\ \end{align}\]

Portanto,

\[\begin{align}\\ Y_n = \frac{X_n}{\ln(n)} \xrightarrow{P} 0 \\\\ \end{align}\]

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\\\ \end{align}\]

Definição 1.8 (Convergência Quase Certa). Sejam $X$ e $(X_n)_{n \in \mathbb{N}}$ variáveis aleatórias definidas em um mesmo espaço de probabilidade definido por $(\Omega, \mathcal{F}, P)$. Diz-se que a sequência $(X_n)_{n \in \mathbb{N}}$ converge quase certamente para $X$, denotado por $X_n \xrightarrow{(q.c.)} X$ se, para todo $\epsilon > 0$, é válido que:

\[\begin{align}\\ P\left(\lim_{n \to +\infty} |X_n(\omega) - X(\omega)| \geqslant \epsilon\right) = 0 \\\\ \end{align}\]

Exemplo 1.23. Seja $U \sim U(0,1)$ (isto é, $U$ é uma variável uniforme definida no intervalo $(0,1)$) e $X_1, \ldots, X_n$ uma sequência de variáveis aleatórias tal que $X_n = U + U^n$. Sabendo que $U \sim U(0,1)$, temos que $0 < U < 1$, e isso implica que, à medida que $n \to \infty$, $U^n$ tende a 0. Logo, $X_n$ se aproxima de $U$ quando $n \to \infty$, pois $U^n \to 0$ quando $n \to \infty$. Isso significa dizer que, para qualquer $\epsilon > 0$, existe $N$ tal que para todo $n > N$, isto é:

\[\begin{align}\\ |X_n - U| = |U^n| < \epsilon \\\\ \end{align}\]

Logo,

\[\begin{align}\\ P\left(\lim_{n \to \infty} |X_n - U| \geqslant \epsilon\right) &= 1 - P\left(\lim_{n \to \infty} |X_n - U| < \epsilon\right) \\\\ &= 1 - P\left(\lim_{n \to \infty} |U^n| < \epsilon\right) \\\\ &= 1 - 1 \\\\ &= 0 \\\\ \end{align}\]

Portanto, $X_n$ converge quase certamente para $U$.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Definição 1.9 (Convergência em Distribuição). Sejam $X$ e $(X_n)_{n \in \mathbb{N}}$ variáveis aleatórias definidas em um mesmo espaço de probabilidade definido por $(\Omega, \mathcal{F}, P)$ tal que $F_X$ e $(F_{X_n})_{n \geqslant 1}$ sejam suas respectivas funções de distribuição. Dizemos que a sequência $(X_n)_{n \geqslant 1}$ converge em distribuição para $X$, denotado por $X_n \xrightarrow{D} X$, se:

\[\begin{align}\\ \lim_{n \to +\infty} F_{X_n}(x) = F_X(x) \\\\ \end{align}\]

para todo ponto $x \in \mathbb{R}$ de continuidade de $F_X$.

Exemplo 1.24. Considere que $X_i \sim \text{Geométrica}(p_i)$ com função de distribuição acumulada dada por:

\[\begin{align}\\ F_{X_i}(x) = 1 - (1 - p_i)^{|x|} \\\\ \end{align}\]

e assuma que $p_i \to \lambda$ quando $i \to \infty$, com $\lambda > 0$. Pode-se afirmar que $X_i$ converge em distribuição para uma distribuição exponencial com parâmetro $\lambda$? Para responder essa questão, defina, inicialmente, $Y_i = X_i/i$. Verifiquemos o que acontece quando $i \to +\infty$. Observe que a função de distribuição acumulada de $Y_i$ é dada por:

\[\begin{align}\\ F_{Y_i}(y) = P\left(\frac{X_i}{i} \leqslant y\right) = P(X_i \leqslant yi) = 1 - (1 - p_i)^{\lfloor |y| i \rfloor} \\\\ \end{align}\]

Agora, dado que $ip_i \to \lambda$, tem-se, para $i$ suficientemente grande, que $p_i \approx \frac{\lambda}{i}$. Assim,

\[\begin{align}\\ F_{Y_i}(y) = 1 - \left(1 - \frac{\lambda}{i}\right)^{\lfloor |y| i \rfloor} \\\\ \end{align}\]

Usando a relação:

\[\begin{align}\\ \lim_{k \to \infty} \left(1 - \frac{x}{k}\right)^k \approx e^{-x} \\\\ \end{align}\]

tem-se, para $i \to \infty$:

\[\begin{align}\\ \lim_{i \to \infty} F_{Y_i}(y) &= \lim_{i \to \infty} \left\{1 - \left(1 - \frac{\lambda}{i}\right)^{\lfloor |y| i \rfloor}\right\}\\\\ &= 1 - \lim_{i \to \infty} \left(1 - \frac{\lambda}{i}\right)^{\lfloor |y| i \rfloor}\\\\ &= 1 - e^{-\lambda |y|} \\\\ \end{align}\]

Ou seja, $Y_i$ converge em distribuição para a distribuição acumulada exponencial. Como $Y_i = \frac{X_i}{i}$, então $X_i$ converge, também, em distribuição para a distribuição exponencial com parâmetro $\lambda$.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Teorema 1.5 (Lei Fraca dos Grandes Números). Sejam $X_1, X_2, \ldots$ variáveis aleatórias independentes e identicamente distribuídas em $(\Omega, \mathcal{F}, P)$, e $S_1, S_2, \ldots$ suas somas parciais dadas por $S_n = X_1 + \ldots + X_n$. Suponha que $E[X_n] = \mu$ e que existe $M$ tal que $Var(X_n) \leqslant M$, então, a lei fraca dos grandes números diz, para um número $\epsilon > 0$, que:

\[\begin{align}\\ \lim_{n \to \infty} P\left(\left| \dfrac{S_n}{n} - \mu \right| \geqslant \epsilon\right) = 0 \\\\ \end{align}\]

isto é, $\dfrac{S_n}{n}$ converge em probabilidade para $\mu$.

Demonstração. Pela Desigualdade de Chebyshev, tem-se que:

\[\begin{align}\\ P\left(\left| \dfrac{S_n}{n} - \mu \right| \geqslant \epsilon\right) \leqslant \dfrac{Var(S_n/n)}{\epsilon^2} = \dfrac{Var(S_n)}{\epsilon^2 n^2} = \dfrac{\sum_{j=1}^n Var(X_i)}{\epsilon^2 n^2} \leqslant \dfrac{M}{\epsilon^2 n} \to 0 \\\\ \end{align}\]

isto é, $\dfrac{S_n}{n}$ converge em probabilidade para $\mu$.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Exemplo 1.25. Consideremos o experimento de lançar uma moeda justa. Defina uma variável aleatória $X_i$ que representa o resultado do $i$-ésimo lançamento, em que:

\[\begin{align}\\ X_i = \begin{cases} 1, & \text{se o resultado é ``cara''} \\ 0, & \text{se o resultado é ``coroa''} \end{cases} \\\\ \end{align}\]

O valor esperado dessa variável, neste caso, é dado por:

\[\begin{align}\\ E[X_i] = P(X_i = 1) \cdot 1 + P(X_i = 0) \cdot 0 = \frac{1}{2} \cdot 1 + \frac{1}{2} \cdot 0 = \frac{1}{2} \\\\ \end{align}\]

Agora, ao realizarmos $n$ lançamentos da moeda, podemos calcular a média amostral dos resultados, expressa por:

\[\begin{align}\\ \bar{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i \\\\ \end{align}\]

De acordo com a lei fraca dos grandes números, à medida que o número de lançamentos $n$ se torna muito grande, a média amostral $\bar{X}_n$ converge em probabilidade para o valor esperado $E[X_i]$. Em termos formais, para qualquer $\epsilon > 0$, temos:

\[\begin{align}\\ P\left(|\bar{X}_n - E[X_i]| \geqslant \epsilon\right) \to 0 \quad \text{quando} \quad n \to \infty. \\\\ \end{align}\]

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Exemplo 1.26. Suponha uma distribuição com média desconhecida e $\sigma^2 = 1$. Qual deve ser o tamanho da amostra para que, com pelo menos 95% de probabilidade, a média $\bar{X}_n$ não desvie de até 0,5 unidades da média populacional? Para responder essa questão, note que:

\[\begin{align}\\ P\left( |\bar{X}_n - \mu| < \epsilon \right) \geqslant 1 - \dfrac{\sigma^2}{n\epsilon^2} = 1 - \dfrac{1}{n(0,5)^2} \\\\ \end{align}\]

Assim,

\[\begin{align}\\ 1 - \frac{1}{n(0.5)^2} = 0.95 \Rightarrow \frac{1}{n(0.5)^2} = 0.05 \Rightarrow \frac{1}{0.05(0.5)^2} = n \Rightarrow n = 80 \\\\ \end{align}\]

Portanto, para $n \geqslant 80$, teremos que

\[\begin{align}\\ P\left( |\bar{X}_n - \mu| < 0.5 \right) \geqslant 0.95 \\\\ \end{align}\]

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Teorema 1.6 (Lei Forte dos Grandes Números). Sejam $X_1, X_2, \ldots$ variáveis aleatórias independentes e identicamente distribuídas em $(\Omega, \mathcal{F}, P)$, e $S_1, S_2, \ldots$ suas somas parciais dadas por $S_n = X_1 + \ldots + X_n$. Suponha que $E[X_n] = \mu$ e que existe $M$ tal que $E[X_n^4] \leqslant M$, então, a lei forte dos grandes números diz, para um número $\epsilon > 0$, que:

\[\begin{align}\\ P\left(\lim_{n \to \infty} \left| \dfrac{S_n}{n} - \mu \right| \geqslant \epsilon\right) = 0 \\\\ \end{align}\]

isto é, $\dfrac{S_n}{n}$ converge quase certamente para $\mu$.

Demonstração. Iremos considerar o caso em que $E[X_n] = \mu = 0$, visto que quando $\mu \neq 0$ é análogo. Neste caso, observe que:

\[\begin{align}\\ S_n^4 &= (X_1 + \ldots + X_n)^4 \\\\ &= \sum_r X_r^4 + \dfrac{4!}{2!2!} \sum_{r \ < \ j} X_r^2 X_j^2 + \dfrac{4!}{3!} \sum_{r \neq k} X_r^3 X_k \\\\ &+ \dfrac{4!}{2!} \sum_{j \ < \ k, r \neq j, k} X_r^2 X_j X_k + 4! \sum_{r \ < \ j \ < \ k \ < \ l} X_r X_j X_k X_l \\\\ \end{align}\]

Pela propriedade de independência de $X_n$ e como $E[X_n] = \mu = 0$ e $E[X_n^4] \leqslant M$ para todo $k$, tem-se que $E[X_r^2 X_j^2] \leqslant 2M$ (pois, $x^2 z^2 \leqslant x^4 + z^4$). Logo,

\[\begin{align}\\ E[S_n^4] \leqslant nM + 12 \binom{n}{2} M = (6n^2 - 5n) M \leqslant 6n^2 M \\\\ \end{align}\]

Então, pela Desigualdade de Markov, tem-se que:

\[\begin{align}\\ P\left(\left| \dfrac{S_n}{n} \right| \geqslant \epsilon\right) \leqslant \dfrac{E[S_n^4]}{\epsilon^4 n^4} \leqslant \dfrac{6M}{\epsilon^4 n^2} \\\\ \end{align}\]

Por fim, o resultado segue devido aos conceitos de convergência.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Exemplo 1.27. Considere uma sequência de variáveis aleatórias independentes e identicamente distribuídas (iid) $X_1, X_2, \ldots$, onde cada $X_i$ possui uma média populacional $\mu = E[X_i]$ e uma variância finita $\sigma^2 = \text{Var}(X_i) < \infty$. A Lei Forte dos Grandes Números estabelece que, conforme o número de observações aumenta, a média amostral $\bar{X}_n$, definida como:

\[\begin{align}\\ \bar{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i \\\\ \end{align}\]

converge quase certamente para a média populacional $\mu$. Matematicamente, isso pode ser expresso como:

\[\begin{align}\\ P\left(\lim_{n \to \infty} \bar{X}_n = \mu\right) = 1 \\\\ \end{align}\]

Para ilustrar essa afirmação, consideremos o exemplo de um dado justo. Cada lançamento do dado pode ser modelado como uma variável aleatória $X_i$ que assume valores inteiros de 1 a 6, com probabilidade igual de $\frac{1}{6}$ para cada face. Assim, a média esperada $\mu$ para esse sistema é:

\[\begin{align}\\ \mu = E[X_i] = \frac{1 + 2 + 3 + 4 + 5 + 6}{6} = 3,5 \\\\ \end{align}\]

Ao realizar lançamentos sucessivos do dado, podemos calcular a média amostral após $n$ lançamentos. Neste caso, a Lei Forte dos Grandes Números garante que, conforme $n$ tende ao infinito, a média amostral $\bar{X}_n$ se aproxima de 3,5 com probabilidade 1. Ou seja, para qualquer $\epsilon > 0$:

\[\begin{align}\\ P\left(|\bar{X}_n - \mu| \geq \epsilon\ \text{infinitamente}\right) = 0 \\\\ \end{align}\]

Isso implica que, embora cada lançamento individual $X_i$ possa variar significativamente em torno da média esperada, a média dos resultados dos lançamentos tendem a estabilizar-se em torno de $\mu$ à medida que o número de lançamentos se torna muito grande. \[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Seja, agora, $(X_n)_{n \ \in \ \mathbb{N}}$ uma sequência independente e identicamente distribuída de variáveis aleatórias. Pela Lei dos Grandes Números, sabemos que a média observada,

\[\begin{align}\\ \dfrac{S_n}{n} = \dfrac{X_1 + \ldots + X_n}{n} \\\\ \end{align}\]

se aproxima de sua média $E\left[S_n/n\right] = \mu$ para valores grandes de $n$, isto é, $S_n/n \to \mu$. Todavia, não é razoável esperar que $S_n/n$ seja exatamente igual a $\mu$. Então a primeira pergunta que surge é sobre a flutuação da média observada em torno de sua média $\mu$. Tipicamente, essa diferença $S_n/n - \mu$ ocorre em qual escala? Nessa escala, podemos dizer como se distribui essa flutuação? Para responder a essa questão, note que $E[S_n] = nE[X_n] = n\mu$ e, denotando $\sigma^2 = \text{Var}(X_n)$, tem-se que:

\[\begin{align}\\ \text{Var}(S_n) = n \text{Var}(X_n) = n \sigma^2 \\\\ \end{align}\]

Logo, o desvio-padrão (DP) de $S_n$ é dado por:

\[\begin{align}\\ \text{DP}(S_n) = \sqrt{\text{Var}(S_n)} = \sigma \sqrt{n} \\\\ \end{align}\]

ou seja, o valor esperado da média observada é $\mu$ e seu desvio-padrão é $\sigma/\sqrt{n}$. Isso é uma indicação de que tipicamente as flutuações assumem valores da ordem de $\sigma/\sqrt{n}$. Suponhamos que esse argumento está correto. Então, para entender qual poderia ser o comportamento estatístico das flutuações nessa escala, escreva:

\[\begin{align}\\ \dfrac{S_n}{n} = \mu + \dfrac{\sigma}{\sqrt{n}} Y_n \\\\ \end{align}\]

tal que $E[Y_n] = 0$ e $\text{Var}(Y_n) = 1$. Será que a distribuição de $Y_n$ se aproxima de alguma distribuição que não depende de $n$? Observe que, se tivermos que $X_n \sim \mathcal{N}(\mu, \sigma^2)$, então $S_n \sim \mathcal{N}(n\mu, n\sigma^2)$ e, portanto, $Y_n \sim \mathcal{N}(0, 1)$. Isto é, pelo menos neste caso, $Y_n$ converge em distribuição para $\mathcal{N}(0, 1)$. Essa ideia nos leva ao Teorema do Limite Central.

Teorema 1.7 (Limite Central). Seja $(X_n)_{n \ \in \ \mathbb{N}}$ uma sequência independente e identicamente distribuída de variáveis aleatórias com média $\mu$ e segundo momento, $E[X_n^2]$, finito. Então, sendo $S_n = X_1 + \ldots + X_n$, tem-se que:

\[\begin{align}\\ \dfrac{S_n - E[S_n]}{\sqrt{\text{Var}(S_n)}} \xrightarrow{D} \mathcal{N}(0, 1) \tag{2.33} \\\\ \end{align}\]

Isto é,

\[\begin{align}\\ \dfrac{S_n}{n} \approx \mu + \dfrac{\sigma}{\sqrt{n}} Z \tag{2.34} \\\\ \end{align}\] em que $Z \sim \mathcal{N}(0, 1)$.

Demonstração. Defina:

\[\begin{align}\\ Z = \dfrac{S_n - E[S_n]}{\sqrt{\text{Var}(S_n)}} = \dfrac{\bar{S}_n - \mu}{\sigma / \sqrt{n}} \\\\ \end{align}\]

Então, note que:

\[\begin{align}\\ \bar{S}_n - \mu = \dfrac{1}{n} \sum_{i=1}^n X_i - \mu = \dfrac{1}{n} \sum_{i=1}^n (X_i - \mu) \\\\ \end{align}\]

Logo, a função geradora de momentos de $Z$ pode ser escrita como:

\[\begin{align}\\ M_Z(t) = E\left[\exp\left(t \dfrac{1}{\sqrt{n}} \sum_{i=1}^n \dfrac{(X_i - \mu)}{\sigma}\right)\right] \\\\ \end{align}\]

Agora, defina a variável aleatória $Y_i$ da seguinte forma:

\[\begin{align}\\ Y_i = \dfrac{(X_i - \mu)}{\sigma} \\\\ \end{align}\]

Note que $Y_i$, devido à sua construção, também é independente e identicamente distribuída para todos os $i$’s. Logo, para $Y = (Y_1, \ldots, Y_n)$, podemos reescrever $M_Z(t)$ como:

\[\begin{align}\\ M_Z(t) = E\left[\exp\left(t \dfrac{1}{\sqrt{n}} \sum_{i=1}^n Y_i\right)\right] = E\left[\prod_{i=1}^n \exp\left(\dfrac{t Y_i}{\sqrt{n}}\right)\right] = \prod_{i=1}^n M_{Y_i}\left(\dfrac{t}{\sqrt{n}}\right) = \left[M_Y\left(\dfrac{t}{\sqrt{n}}\right)\right]^n \\\\ \end{align}\]

Por outro lado, por meio da expansão em Taylor da função exponencial, podemos construir a seguinte relação:

\[\begin{align}\\ \left[M_Y\left(\dfrac{t}{\sqrt{n}}\right)\right]^n = \left[\sum_{k=0}^{\infty} \dfrac{E[Y^k]}{k!}\left(\dfrac{t}{\sqrt{n}}\right)^k\right]^n \\\\ \end{align}\]

Agora, note que:

\[\begin{align}\\ E[Y] = \dfrac{1}{\sigma} E[X - \mu] = \dfrac{1}{\sigma} \left(E[X] - \mu\right) = 0 \\\\ \end{align}\] \[\begin{align}\\ E[Y^2] = \dfrac{1}{\sigma^2} E[(X - \mu)^2] = \dfrac{1}{\sigma^2} \text{Var}(X) = 1 \\\\ \end{align}\]

Então,

\[\begin{align}\\ M_Z(t) = \left[\sum_{k=0}^{\infty} \dfrac{E[Y^k]}{k!}\left(\dfrac{t}{\sqrt{n}}\right)^k\right]^n = \left[1 + \dfrac{t^2}{2n} + \dfrac{E[Y^3]}{3!}\left(\dfrac{t}{\sqrt{n}}\right)^3 + \ldots\right]^n \\\\ \end{align}\]

Assim, se tomarmos o limite de $M_Z(t)$ quando $n \to \infty$, tem-se que:

\[\begin{align}\\ \lim_{n \to \infty} M_Z(t) = \lim_{n \to \infty} \left[1 + \dfrac{t^2}{2n} + \underbrace{\left(\dfrac{E[Y^3]}{3!}\left(\dfrac{t}{\sqrt{n}}\right)^3 + \ldots\right)}_{\to 0 \text{ quando } n \to \infty}\right]^n = \lim_{n \to \infty} \left(1 + \dfrac{t^2}{2n}\right)^n = e^{-\frac{t^2}{2}} \\\\ \end{align}\]

Agora, como $e^{-\frac{t^2}{2}}$ é, também, a função geradora de uma variável aleatória $X$ com distribuição normal padrão, $\mathcal{N}(0, 1)$, concluímos que:

\[\begin{align}\\ \dfrac{S_n - E[S_n]}{\sqrt{\text{Var}(S_n)}} \xrightarrow{D} \mathcal{N}(0, 1) \\\\ \end{align}\]

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Considerando que o Teorema do Limite Central constitui um dos pilares fundamentais no estudo de variáveis aleatórias, será apresentada, a seguir, uma ilustração prática desse teorema por meio de uma abordagem computacional. Para tanto, opta-se pela utilização da distribuição exponencial como base do experimento. O procedimento será implementado no ambiente R, empregando-se um laço de repetição do tipo for com elevado número de iterações, a fim de assegurar a convergência adequada dos resultados. O experimento seguirá as etapas descritas abaixo:

1ª Etapa: Selecionar tamanhos amostrais $n = 5, 10, 30, 50, 75, 100$.
2ª Etapa: Definir uma semente com a função set.seed para garantir a reprodutibilidade dos resultados.
3ª Etapa: Estabelecer o número de execuções do laço de repetição for.
4ª Etapa: Fixar o parâmetro da distribuição exponencial em $\lambda = 2$.
5ª Etapa: Calcular os parâmetros, média e variância, da variável $\bar{S}_n = \dfrac{S_n}{n}$.
6ª Etapa: Construir os gráficos resultantes do procedimento, assegurando que a curva da distribuição normal seja sobreposta ao histograma da distribuição empírica de $\bar{S}_n = \dfrac{S_n}{n}$ para efeito comparativo.

O Código 1.2 apresenta a implementação computacional descrita acima, ilustrando empiricamente o Teorema do Limite Central no contexto da distribuição exponencial, por meio do ambiente R. A Figura 1.3 ilustra os gráficos resultantes desse procedimento, evidenciando a aproximação das distribuições amostrais das médias à distribuição normal teórica, à medida que o tamanho amostral aumenta.

Código 1.2. Ilustração do Teorema do Limite Central para a distribuição exponencial no ambiente R.

# ------------------------------------------
# Ilustração TLC - Distribuição Exponencial
# ------------------------------------------

# --- 1. Carregamento de pacotes ---

library(ggplot2)
library(dplyr)
library(patchwork)

# --- 2. Definição da semente (Reprodutibilidade) ---

set.seed(123)

# --- 3. Parâmetros da distribuição exponencial ---

lambda      <- 2

# --- 4. Tamanhos amostrais a serem considerados ---

n_values    <- c(5, 10, 30, 50, 75, 100)

# --- 5. Número de simulações ---

B           <- 1000

# --- 6. Simulação das médias amostrais ---

df_means    <- data.frame()

for (n in n_values) 
{
  # Geração de B médias amostrais de tamanho n
  
  means     <- replicate(B, mean(rexp(n, lambda)))
  
  # Criação de data.frame temporário
  
  temp_df   <- data.frame(sample_mean = means,
                          n = as.character(n))
  
  # Empilhamento no data.frame final
  
  df_means  <- rbind(df_means, temp_df)
}

# --- 7. Parâmetros teóricos da distribuição normal via TLC ---

df_params   <- data.frame(n = n_values,
                          mean = 1 / lambda,
                          sd = sqrt((1 / lambda^2) / n_values))

# --- 8. Histogramas com curva normal teórica ---

plot_tlc    <- function(n) 
{
  # Filtra as médias simuladas para n específico
  
  data_n    <- df_means %>% filter(n == as.character(n))
  
  # Parâmetros teóricos
  
  mean_n    <- df_params$mean[df_params$n == n]
  sd_n      <- df_params$sd[df_params$n == n]
  
  # Cria histograma com densidade
  
  p         <- ggplot(data_n, aes(x = sample_mean)) +
                geom_histogram(aes(y = ..density..),
                               bins = 30, 
                               color = "black", 
                               fill = "lightblue") +
                stat_function(fun = dnorm,
                              args = list(mean = mean_n, sd = sd_n),
                              color = "darkred", size = 1) +
                labs(title = paste("Tamanho Amostral:", n),
                     x = expression(bar(S)[n] == S[n]/n),
                     y = "Densidade") +
                theme_minimal() +
                theme(axis.title.x = element_text(size = 10, margin = margin(t = 10)),
                      axis.title.y = element_text(size = 10, margin = margin(r = 10)),
                      plot.title = element_text(size = 10, margin = margin(b = 10)))
  return(p)
}

# --- 9. Plotagem dos gráficos para todos os n ---

# Lista de gráficos

plots       <- lapply(n_values, plot_tlc)

# Organização em grade (2 linhas x 3 colunas)

(plots[[1]] | plots[[2]] | plots[[3]]) /
(plots[[4]] | plots[[5]] | plots[[6]])

Figura 1.3. Distribuições amostrais das médias de variáveis exponenciais para diferentes tamanhos amostrais $n$. A sobreposição da curva normal teórica ilustra a convergência prevista pelo Teorema do Limite Central à medida que $n$ aumenta.

1.6. Variáveis Aleatórias Multidimensionais

Suponha que o interesse agora seja estudar o comportamento conjunto de duas variáveis aleatórias, ambas com distribuição $\text{Bernoulli}(1/2)$. A forma mais natural para este estudo seria lançar uma moeda duas vezes e considerar o par $\mathbf{X} = (Z, W)$; outra forma de fazê-lo seria, por exemplo, lançar a moeda apenas uma vez e anotar o resultado, $\mathbf{Y} = (Z, Z)$. Note que, em ambos os casos, produziu-se um par de variáveis aleatórias distribuídas como $\text{Bernoulli}(1/2)$, todavia, o comportamento conjunto dessas variáveis aleatórias é bem diferente nos dois casos.

Diante dessa distinção, o objetivo desta seção é estudar as principais propriedades da combinação de múltiplas variáveis aleatórias, levando em consideração seu comportamento conjunto. Esta combinação, em particular, recebe o nome de vetores aleatórios. Antes, porém, de apresentar a definição formal de vetores aleatórios, convém introduzir algumas notações vetoriais que servirão de base para representar, manipular e interpretar tais objetos de forma mais clara ao longo do texto.

$\mathbf{X} : \Omega \to \mathbb{R}^d$: representa uma função associa a cada $\omega \in \Omega$ uma d-upla, ou seja, um vetor $X(\omega) = (X_1(\omega), X_2(\omega), \ldots, X_d(\omega))$.
$\mathbf{x} \in \mathbb{R}^d$: representa uma d-upla de números reais, expressa como $\mathbf{x} = (x_1, x_2, \ldots, x_d)$.
$\mathbf{x} \leqslant \mathbf{y}$: denota a desigualdade componente a componente, ou seja, $x_i \leqslant y_i$ para $i = 1, \ldots, d$.
$\{ \mathbf{x} \in \mathbb{R}^d : a \leqslant x_i \leqslant b, \, i = 1, \ldots, d \}$: denota o conjunto $[a, b]$ tal que $a \leqslant b$.

Definição 1.10 (Vetor Aleatório). Dizemos que um vetor $\mathbf{X} = (X_1, X_2, \ldots, X_d)$ é um vetor aleatório se for uma função $X : \Omega \to \mathbb{R}^d$ tal que cada componente $X_i$ (para $i = 1, 2, \ldots, d$) é uma variável aleatória definida em um espaço de probabilidade $(\Omega, \mathcal{F}, P)$.

Exemplo 1.28. São exemplos de vetores aleatórios:

(I.) Características Físicas: Considere um grupo de $n$ indivíduos. Definimos $X_{1i}: \Omega \to \mathbb{R}$ como a altura e $X_{2i}: \Omega \to \mathbb{R}$ como o peso do $i$-ésimo indivíduo, para $i = 1, 2, \ldots, n$. Neste caso, pode-se definir o vetor aleatório $\mathbf{X}_i = (X_{1i}, X_{2i})$ que representa as características físicas $i$-ésimo indivíduo.
(II.) Qualidade do Ar: Considere a medição da qualidade do ar em $n$ locais diferentes em uma cidade. Definimos $X_{1i} : \Omega \to \mathbb{R}$ como o nível de partículas em suspensão e $X_{2i} : \Omega \to \mathbb{R}$ como o nível de dióxido de carbono no $i$-ésimo local. Neste caso, pode-se definir o vetor aleatório $\mathbf{X}_i = (X_{1i}, X_{2i})$ que representa a qualidade do ar no $i$-ésimo local.
(III.) Estudos de Saúde e Biomarcadores: Considere o vetor aleatório $\mathbf{Y} = (Y_1, Y_2, Y_3)$, onde $Y_1$ é a pressão arterial de um paciente, $Y_2$ é seu nível de glicose no sangue, e $Y_3$ é sua frequência cardíaca. Esses biomarcadores frequentemente apresentam interdependência, e o estudo conjunto de $\mathbf{Y}$ pode fornecer informações importantes sobre o estado de saúde do paciente e potenciais riscos para doenças.
(IV.) Engenharia e Controle de Qualidade: Em um processo de manufatura, podemos definir um vetor aleatório $\mathbf{Q} = (Q_1, Q_2, Q_3)$, onde $Q_1$ representa a dimensão de um componente, $Q_2$ sua resistência, e $Q_3$ sua durabilidade. Analisar conjuntamente essas variáveis permite entender o desempenho geral do componente e identificar possíveis falhas no processo de produção.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\\\ \end{align}\]

Observação 1.5. Seja $\mathbf{X} = (X_1, X_2, \ldots, X_d)$ um vetor aleatório definido em um espaço de probabilidade $(\Omega, \mathcal{F}, P)$. Pode-se, então, construir o espaço de probabilidade induzido por $\mathbf{X}$ da seguinte forma:

Espaço amostral: O espaço amostral associado ao vetor aleatório $\mathbf{X}$ é $\mathbb{R}^d$, representando todos os possíveis valores que o vetor pode assumir em um espaço $d$-dimensional.
$\mathbf{\sigma}$-álgebra: A $\sigma$-álgebra correspondente é $\mathcal{B}^d$, a $\sigma$-álgebra de Borel em $\mathbb{R}^d$. Essa $\sigma$-álgebra é a menor coleção de subconjuntos que contém todos os conjuntos do tipo $\{ \mathbf{x} \in \mathbb{R}^d : \mathbf{x} \leqslant \mathbf{t} \}$, onde $\mathbf{t} \in \mathbb{R}^d$.
Medida de probabilidade: A medida de probabilidade induzida $P_{\mathbf{X}} : \mathcal{B}^d \to [0, 1]$ é definida, para cada conjunto Boreliano $B \in \mathcal{B}^d$, como:

\[\begin{align}\\ P_{\mathbf{X}}(B) = P(\{ \omega \in \Omega : \mathbf{X}(\omega) \in B \}) \\\\ \end{align}\]

Portanto, o espaço de probabilidade $(\mathbb{R}^d, \mathcal{B}^d, P_{\mathbf{X}})$, construído desta forma, caracteriza completamente a distribuição conjunta das variáveis aleatórias $X_1, X_2, \ldots, X_d$.

Assim como no caso das variáveis aleatórias univariadas, a classificação de vetores aleatórios baseia-se no estudo de suas distribuições de probabilidade, nas relações de dependência entre os componentes e em certas características estruturais. Considerando que um vetor aleatório corresponde a um conjunto finito de variáveis aleatórias analisadas simultaneamente, sua classificação pode ser estabelecida conforme a natureza dessas variáveis.

Definição 1.11 (Vetor Aleatório Discreto). Seja $X=(X_1,\ldots,X_d)$ um vetor aleatório qualquer. Dizemos que $X$ é um discreto se seu conjunto de possíveis valores é enumerável, tal que $\{\omega : \mathbf{X}(\omega) = \mathbf{x}\}$ é um evento aleatório. Por simplicidade de notação, o evento $\{\omega : \mathbf{X}(\omega) = \mathbf{x}\}$ será denotado por $\{\mathbf{X} = \mathbf{x}\}$. A partir deste evento, pode-se definir a probabilidade:

\[\begin{align}\\ P(\omega: \mathbf{X}(\omega) = \mathbf{x}) = P(\mathbf{X} = \mathbf{x}) = P(X_1 = x_1, \ldots, X_d = x_d) \\\\ \end{align}\]

que representa a função de probabilidade conjunta de $\mathbf{X}$ e satisfaz as seguintes propriedades:

$(P1) \quad 0 \leqslant P(\mathbf{X} = \mathbf{x}) \leqslant 1$, para todo $x \in \mathbb{Z}^d$.
$(P2) \quad \displaystyle\sum_{x_1} \ldots \displaystyle\sum_{x_d} P(\mathbf{X} = \mathbf{x}) = 1$.

Exemplo 1.29. Seja $X$ o número na face voltada para baixo do primeiro tetraedro e $Y$ o maior dos números voltados para baixo no experimento de lançar dois tetraedros. Neste caso, os valores que o vetor aleatório $(X, Y)$ pode assumir são:

\[\begin{align}\\ \{(1, 1), (1, 2), (1, 3), (1, 4), (2, 2), (2, 3), (2, 4), (3, 3), (3, 4), (4, 4)\} \\\\ \end{align}\]

Portanto, $X$ e $Y$ são discretos conjuntamente. Neste caso, de acordo com a Definição 1.11, tem-se que:

$P(X = x, Y = y)$	$y=1$	$y=2$	$y=3$	$y=4$
$x = 1$	$1/16$	$1/16$	$1/16$	$1/16$
$x = 2$	$0$	$2/16$	$1/16$	$1/16$
$x = 3$	$0$	$0$	$3/16$	$1/16$
$x = 4$	$0$	$0$	$0$	$4/16$

Para representar esta função de probabilidade conjunta, é necessário o uso de gráficos tridimensionais. Para isto, será utilizado o pacote plotly do R, cuja rotina é expressa no Código 1.3. O gráfico gerado está ilustrado na Figura 1.4.

Código 1.3. Geração do gráfico tridimensional da função de probabilidade conjunta de $(X, Y)$ no ambiente R utilizando o pacote plotly.

# ---------------------------------------------------------
# Gráfico 3D da Função de Probabilidade Conjunta de (X, Y)
# ---------------------------------------------------------

# --- 1. Pacote necessário --- 

library(plotly)

# --- 2. Definição dos valores das variáveis aleatórias --- 

X <- c(1, 2, 3, 4)
Y <- c(1, 2, 3, 4)

# --- 3. Definição da matriz de probabilidades conjuntas P(X, Y) --- 

Z <- matrix(c(1/16, 1/16, 1/16, 1/16,
              0,    2/16, 1/16, 1/16,
              0,    0,    3/16, 1/16,
              0,    0,    0,    4/16),
            nrow = 4,
            byrow = TRUE)

# --- 4. Construção do data frame com (X, Y) e P(X, Y) --- 

points    <- expand.grid(X = X, Y = Y)
points$Z  <- c(Z)

# --- 5. Criação do gráfico 3D de pontos --- 

fig <- plot_ly(data = points,
               x = ~X,
               y = ~Y,
               z = ~Z,
               type = "scatter3d",
               mode = "markers",
               marker = list(size = 5,
                             color = ~Z,
                             colorscale = "Blues",
                             showscale = TRUE,
                             opacity = 0.8),
               showlegend = FALSE) %>%
                  layout(title = "",
                         scene = list(xaxis = list(title = "X"),
                                      yaxis = list(title = "Y"),
                                      zaxis = list(title = "P(X, Y)")))

# --- 6. Adição das barras verticais representando as probabilidades --- 

for (i in 1:nrow(points)) 
{
  fig <- fig %>%
          add_trace(x = c(points$X[i], points$X[i]),
                    y = c(points$Y[i], points$Y[i]),
                    z = c(0, points$Z[i]),
                    type = "scatter3d",
                    mode = "lines",
                    line = list(color = "skyblue", width = 2),
                    showlegend = FALSE)
}

# --- 7. Exibição do gráfico --- 

fig

Figura 1.4. Gráfico tridimensional que representa a função de probabilidade conjunta de $(X, Y)$ referente ao lançamento de dois tetraedros, evidenciando os valores assumidos pelo vetor aleatório e suas respectivas probabilidades.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\\\ \end{align}\]

Definição 1.12 (Vetor Aleatório Contínuo). Dado $X=(X_1,\ldots,X_d)$ um vetor aleatório qualquer, dizemos que $X$ é contínuo se existe uma função $f:\mathbb{R}^d \to \mathbb{R}^+$, denominada função densidade conjunta, tal que:

\[\begin{align}\\ F_{X_1,\ldots,X_d} (x_1, \ldots, x_d) = \int_{-\infty}^{x_d} \ldots \int_{-\infty}^{x_1} f(y) \, dy_1 \, dy_2 \ldots dy_d \\\\ \end{align}\]

desde que $f$ satisfaça as seguintes condições:

$(P1) \quad f_{X_1,\ldots,X_d} (x_1, \ldots, x_d) \geqslant 0, \quad \forall x \in \mathbb{R}^d$
$(P2) \quad \int_{-\infty}^{\infty} \ldots \int_{-\infty}^{\infty} f_{X_1,\ldots,X_d} (x_1, \ldots, x_d) \, dx_1 \ldots dx_d = 1$

Exemplo 1.30. Suponha que a função de densidade conjunta de $X$ e $Y$ é dada por:

\[\begin{align}\\ f(x, y) = \begin{cases} 2e^{-x} e^{-2y}, & 0 < x < \infty, \, 0 < y < \infty \\ 0, & \text{caso contrário} \end{cases} \\\\ \end{align}\]

Para representar esta função de probabilidade conjunta, é necessário o uso de gráficos tridimensionais. Para isto, será utilizado o pacote plotly do R, cuja rotina é expressa no Código 1.4. O gráfico gerado está ilustrado na Figura 1.5.

Código 1.4. Geração do gráfico tridimensional da função densidade conjunta de $(X, Y)$ no ambiente R utilizando o pacote plotly.

# ---------------------------------------------------
# Gráfico 3D da Função de Densidade Conjunta f(x, y)
# ---------------------------------------------------

# --- 1. Carregamento dos pacotes necessários --- 

library(plotly)

# --- 2. Definição da função de densidade conjunta --- 

f_xy <- function(x, y) 
{
  2 * exp(-x) * exp(-2 * y)
}

# --- 3. Construção da grade de valores para x e y --- 

x_vals <- seq(0, 2, length.out = 100)
y_vals <- seq(0, 2, length.out = 100)

# --- 4. Cálculo dos valores da função f(x, y) sobre a grade --- 

z_vals <- outer(x_vals, y_vals, f_xy)

# --- 5. Construção do gráfico 3D de superfície --- 

fig    <- plot_ly() %>%
            add_surface(x = x_vals, y = y_vals, z = z_vals) %>%
              layout(title = "",
                     scene = list(xaxis = list(title = "X"),
                                  yaxis = list(title = "Y"),
                                  zaxis = list(title = "f(x, y)")))

# --- 6. Exibição do gráfico --- 

fig

Figura 1.5. Gráfico tridimensional que representa a superfície referente a função densidade conjunta de $(X, Y)$.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Observação 1.6. No caso univariado, para a variável aleatória $X$ contínua com função densidade de probabilidade $f_X (x)$, o cálculo da probabilidade $P(a<X<b)$ era baseado na área sob $f_X (x)$ no intervalo $(a,b)$, isto é,

\[\begin{align}\\ P(a<X<b) = \int_a^b f_X (x) \, dx. \\\\ \end{align}\]

Porém, em dimensões superiores, como, por exemplo, em um vetor aleatório $X=(X_1,X_2)$ contínuo com função densidade de probabilidade conjunta $f_{X_1,X_2} (x_1,x_2)$ definida em uma região $R$ no plano $x_1 x_2$, o cálculo da probabilidade $P[(X_1,X_2) \in R]$ será definido pela probabilidade de que $(X_1,X_2)$ caia na região $R$, que é dada pelo volume sob $f_{X_1,X_2} (x_1,x_2)$ na região $R$, isto é:

\[\begin{align}\\ P[(X_1,X_2) \in R] = \int \int_R f_{X_1,X_2} (x_1,x_2) \, dx_1 \, dx_2. \\\\ \end{align}\]

Exemplo 1.31. Considere a função bivariada $f(x,y) = k(x+y)$, com $0 \leq x, y \leq 1$. Qual o valor de $k$ para que $f(x,y)$ seja uma função densidade de probabilidade conjunta? Neste caso, se $k$ for positivo, então $f(x,y) \geq 0$. Assim, temos que:

\[\begin{align}\\ \int_0^1 \int_0^1 k(x+y) \, dx \, dy = 1 \Rightarrow k \int_0^1 \left( \frac{1}{2} + y \right) \, dy = 1 \Rightarrow k = 1 \\\\ \end{align}\]

Portanto, $f(x,y) = k(x+y)$ será uma função densidade conjunta se $k = 1$. Com isso, podemos, por exemplo, calcular a probabilidade:

\[\begin{align}\\ P(0 < X < \frac{1}{2}, 0 < Y < \frac{1}{2}) = \int_0^{1/2} \int_0^{1/2} (x+y) \, dx \, dy = \frac{1}{8} \\\\ \end{align}\]

que corresponde ao volume da superfície $z = x+y$ na região $\{(x,y) \mid 0 < x < \frac{1}{2}, 0 < y < \frac{1}{2}\}$.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

1.6.1. Função de Distribuição Conjunta

A função de distribuição acumulada, que conhecemos para variáveis aleatórias unidimensionais, também se estende ao contexto de vetores aleatórios, tanto para o caso de vetores aleatórios discretos quanto contínuos, sendo chamada de função de distribuição conjunta. Essa função, em particular, nos ajuda a determinar a probabilidade de eventos simultâneos.

Definição 1.13 (Função de Distribuição Conjunta - Caso Discreto) Seja $\mathbf{X} = (X_1, X_2, \ldots, X_d)$ um vetor aleatório discreto que contém $d$ variáveis aleatórias discretas. A função de distribuição conjunta, neste caso, é uma função $F_{\mathbf{X}}: \mathbb{R}^d \to \mathbb{R}$ definida por:

\[\begin{align}\\ F_X(x_1, x_2, \ldots, x_d) &= P(X_1 \leqslant x_1, X_2 \leqslant x_2, \ldots, X_d \leqslant x_d) \\\\ &= \sum_{x_1' \leqslant x_1} \sum_{x_2' \leqslant x_2} \cdots \sum_{x_d' \leqslant x_d} P(X_1 = x_1', X_2 = x_2', \ldots, X_d = x_d') \\\\ \end{align}\]

que satisfaz as seguintes propriedades:

(I). $F_X$ é não-decrescente e contínua em cada uma de suas coordenadas.
(II). Se $x_j$ é tal que, para algum $j$, $x_j \to -\infty$, então $F_{\mathbf{X}} \to 0$. Por outro lado, se $x_j$ é tal que, para todo $j$, $x_j \to +\infty$, então $F_{\mathbf{X}} \to 1$.

Exemplo 1.32. Considere o experimento referente ao lançamento de duas moedas honestas, em que C representa a face cara e K a face coroa. Defina as seguintes variáveis aleatórias:

$X_1 =$ {número de caras}.
$X_2 =$ {$1$ se os resultados forem iguais, $0$ se forem diferentes}.

Neste caso, o espaço amostral, $\Omega$, é formado por todos os quatro pares de resultados possíveis e a função de probabilidade $P$ atribui igual probabilidade aos elementos de $\Omega$. Isto é,

Eventos	Probabilidade	$X_1$	$X_2$
(C, C)	$1/4$	$2$	$1$
(C, K)	$1/4$	$1$	$0$
(K, C)	$1/4$	$1$	$0$
(K, K)	$1/4$	$0$	$1$

Agora, seja $X = (X_1, X_2)$ o vetor aleatório de interesse. Então, coletando os valores comuns dos pares $(X_1, X_2)$, tem-se que a função de probabilidade conjunta, $P(X_1 = x_1, X_2 = x_2)$, é descrita, por meio de uma tabela de dupla entrada, da seguinte forma:

$P(X_1=x_1, X_2=x_2)$	$x_2=0$	$x_2=1$
$x_1 = 0$	0	$1/4$
$x_1 = 1$	$1/2$	0
$x_1 = 2$	0	$1/4$

Com base nestas probabilidades, tem-se que a função de distribuição conjunta, $P(X_1 \leqslant x_1, X_2 \leqslant x_2)$, é, também, descrita por uma tabela de dupla entrada. Isto é,

$P(X_1 \leqslant x_1, X_2 \leqslant x_2)$	$0\leqslant x_2 < 1$	$1\leqslant x_2$
$x_1 < 0$	0	0
$0\leqslant x_1 < 1$	0	1/4
$1\leqslant x_1 < 2$	2/4	3/4
$2\leqslant x_1$	2/4	1

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\\\ \end{align}\]

Definição 1.14 (Função de Distribuição Conjunta - Caso Contínuo) Seja $\mathbf{X} = (X_1, X_2, \ldots, X_d)$ um vetor aleatório discreto que contém $d$ variáveis aleatórias discretas. A função de distribuição conjunta, neste caso, é uma função $F_{\mathbf{X}}: \mathbb{R}^d \to \mathbb{R}$ definida por:

\[\begin{align}\\ F_X(x_1, x_2, \ldots, x_d) = \int_{x_1' \leqslant x_1} \int_{x_2' \leqslant x_2} \cdots \int_{x_d' \leqslant x_d} f(x_1, x_2, \ldots, x_d)dx_1\ldots dx_d \\\\ \end{align}\]

que satisfaz as seguintes propriedades:

(I). $F_X$ é não-decrescente e contínua em cada uma de suas coordenadas.
(II). Se $x_j$ é tal que, para algum $j$, $x_j \to -\infty$, então $F_{\mathbf{X}} \to 0$. Por outro lado, se $x_j$ é tal que, para todo $j$, $x_j \to +\infty$, então $F_{\mathbf{X}} \to 1$.

Exemplo 1.33. A densidade conjunta de $X$ e $Y$ é dada por

\[\begin{align}\\ f(x, y) = \begin{cases} e^{-x-y} & \quad 0 < x < \infty, \, 0 < y < \infty \\ 0 & \quad \text{caso contrário} \end{cases} \\\\ \end{align}\]

Com base nesta função, suponha que nosso objetivo seja determinar a função de densidade da variável aleatória $\frac{X}{Y}$. Para isso, comecemos calculando a função de distribuição de ${X}/{Y}$. Note, para $a > 0$, que:

\[\begin{align}\\ F_{\frac{X}{Y}}(a) &= P\left\{\frac{X}{Y} \leq a\right\} \\\\ &= \int_0^\infty \int_0^{ay} e^{-(x+y)} \, dx \, dy \\\\ &= \int_0^\infty \left(1 - e^{-ay}\right)e^{-y} \, dy \\\\ &= \int_0^\infty \left(-e^{-y} + e^{-(a+1)y}\right) \frac{1}{a + 1} \Bigg|_0^\infty \\\\ &= 1 - \frac{1}{a + 1}\\\\ \end{align}\]

Observe que, de modo análogo ao caso univariado, no contexto multidimensional a função densidade pode ser obtida a partir da diferenciação da função de distribuição conjunta. Ou seja, para variáveis aleatórias contínuas $X_1, X_2, \ldots, X_n$, tem-se:

\[\begin{align}\\ f(x_1, x_2, \ldots, x_n) = \frac{\partial^n F(x_1, x_2, \ldots, x_n)}{\partial x_1 \partial x_2 \cdots \partial x_n} \\\\ \end{align}\]

Logo, derivando a função de distribuição $F_{\frac{X}{Y}}(a)$ em relação a $a$, obtém-se a função de densidade de ${X}/{Y}$:

\[\begin{align}\\ f_{\frac{X}{Y}}(a) = \frac{1}{(a + 1)^2}, \quad 0 < a < \infty \\\\ \end{align}\]

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

1.6.2. Distribuição Marginal

Em algumas situações, pode ser do nosso interesse avaliar o comportamento individual de cada coordenada $X_j$ do vetor aleatório, em vez de considerar o vetor como um todo. Nesses casos, trabalha-se com a função de distribuição associada a cada $X_j$. Essa função, em particular, é conhecida como função de distribuição marginal e pode ser, também, definida tanto para o caso discreto quanto para o caso contínuo.

Definição 1.15 (Função de Distribuição Marginal - Caso Discreto). Seja $X = (X_1, \ldots, X_d)$ um vetor aleatório. A função de distribuição da coordenada $X_j$ é denominada função de distribuição marginal e é dada por:

\[\begin{align}\\ F_{X_j}(x_j) = \lim_{\substack{x_i \to \infty \\ i \neq j}} F_X(x_1, \ldots, x_d) = P(X\leqslant x_j) \\\\ \end{align}\]

em que o limite é aplicado a todas as coordenadas do vetor $X$, exceto a coordenada $j$. Como consequência dessa definição, se $X_1, \ldots, X_d$ são variáveis aleatórias discretas com função de probabilidade conjunta descrita por $P(X_1 = x_1, \ldots, X_d = x_d)$, então a função de probabilidade marginal da variável $X_i$, para $i = 1, \ldots, d$, é obtida somando as demais variáveis, isto é:

\[\begin{align}\\ P(X_i = x_i) = \sum_{x_j, j\neq i} P(X_1 = x_1, \ldots X_i = x_i, \ldots , X_d = x_d) \\\\ \end{align}\]

em que o valor $x_i$ é fixo, e a soma percorre todos os valores possíveis dos outros $x_j$.

Exemplo 1.34. Suponha que um estudo foi conduzido com o objetivo entender melhor as vendas dos produtos de uma loja de eletrônicos para otimizar o estoque, planejar campanhas de marketing e melhorar a experiência do cliente. Para este objetivo, dados sobre as vendas mensais de smartphones e tablets foram coletados. Após um mês de vendas, os dados foram compilados em uma tabela que representa a distribuição conjunta do número de vendas de smartphones ($X$) e o número de vendas de tablets ($Y$) em um determinado mês, isto é,

$P(X = x, Y = y)$	$y=0$	$y=1$	$y=2$
$x=0$	0.05	0.10	0.05
$x=1$	0.10	0.25	0.10
$x=2$	0.05	0.15	0.15

De acordo com a tabela acima, obtemos que a função de probabilidade marginal de $X$ corresponde as seguintes probabilidades:

$P(X=0) = \sum_{j} P(X=0, Y=y_j) = 0.05+0.10+0.05 = 0.20$
$P(X=1) = \sum_{j} P(X=1, Y=y_j) = 0.10+0.25+0.10 = 0.45$
$P(X=2) = \sum_{j} P(X=2, Y=y_j) = 0.05+0.15+0.15 = 0.35$

Por outro lado, temos que a função de probabilidade marginal de $Y$ corresponde as seguintes probabilidades:

$P(Y=0) = \sum_{j} P(X=x_j, Y=0) = 0.05+0.10+0.05 = 0.20$
$P(Y=1) = \sum_{j} P(X=x_j, Y=1) = 0.10+0.15+0.15 = 0.50$
$P(Y=2) = \sum_{j} P(X=x_j, Y=2) = 0.05+0.10+0.15 = 0.30$

É importanto destacar que também podemos representar essas probabilidades marginais em uma tabela. Neste caso, adicionamos uma linha e uma coluna extra a tabela de probabilidade conjuta inicial, isto é,

$P(X = x, Y = y)$	$y=0$	$y=1$	$y=2$	$P(X = x)$
$x=0$	0.05	0.10	0.05	0.20
$x=1$	0.10	0.25	0.10	0.45
$x=2$	0.05	0.15	0.15	0.35
$P(Y = y)$	0.20	0.50	0.30	1.00

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Definição 1.16 (Função de Distribuição Marginal - Caso Contínuo).Se $X_1, X_2, \ldots, X_d$ são variáveis aleatórias contínuas com função de probabilidade conjunta descrita por $f_{(X_1, \ldots, X_d)}(x)$, então, a função de probabilidade marginal da variável $X_i$ para $i=1, \ldots, d$ é obtida integrando as demais variáveis, isto é:

\[\begin{align}\\ f_{X_i}(x_i) = \int_{-\infty}^{\infty} \ldots \int_{-\infty}^{\infty} f(x_1, \ldots, x_{i-1}, x_i, x_{i+1}, \ldots, x_d) \, dx_1 \ldots dx_{i-1} dx_{i+1} \ldots dx_d \\\\ \end{align}\]

em que a integração é realizada $(d-1)$ vezes, abrangendo todas as variáveis exceto $x_i$.

Exemplo 1.35. Considere a função densidade de probabilidade conjunta definida por:

\[\begin{align}\\ f(x,y) = (x+y) I_{(0,1)}(x) I_{(0,1)}(y) \\\\ \end{align}\]

onde $I_{(0,1)}(\cdot)$ denota a função indicadora do intervalo $(0, 1)$. Suponha que o objetivo, neste caso, seja determinar as funções densidade de probabilidade marginais das variáveis aleatórias $X$ e $Y$. Então, aplicando a definição de função densidade marginal, obtém-se:

\[\begin{align}\\ f_X(x) = \int_0^1 (x+y) \, dy = \left( x + \frac{1}{2} \right) I_{(0,1)}(x) \\\\ \end{align}\]

e, de forma análoga,

\[\begin{align}\\ f_Y(y) = \int_0^1 (x+y) \, dx = \left( y + \frac{1}{2} \right) I_{(0,1)}(y) \\\\ \end{align}\]

isto é, as funções densidade marginais refletem a soma de uma componente linear em cada variável e um termo constante proveniente da integração da outra variável sobre seu suporte.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

1.6.3. Distribuição Condicional

Na teoria das probabilidades, o conceito de probabilidade condicional surge do interesse em determinar a probabilidade de ocorrência de um evento, dado que outro evento já ocorreu. Esse conceito pode ser estendido de forma natural ao contexto de vetores aleatórias. De fato, sejam $X$ e $Y$ duas variáveis aleatórias definidas no espaço de probabilidade $(\Omega, \mathcal{F}, P)$ e sejam $B_1, B_2 \in \mathcal{B}$, onde $\mathcal{B}$ denota a σ-álgebra de Borel, com $P(Y \in B_2) > 0$. Nesse caso, definimos a distribuição condicional de $X$ dado que $Y \in B_2$ pela expressão:

\[\begin{align}\\ P(X \in B_1 \mid Y \in B_2) = \frac{P([X \in B_1] \cap [Y \in B_2])}{P(Y \in B_2)} \\\\ \end{align}\]

Se $P(Y \in B_2) = 0$, então, definimos $P(X \in B_1 \mid Y \in B_2) = P(X \in B_1)$. Baseando-se nesta definição, pode-se trabalhar com o condicionamento de variáveis aleatórias de natureza discreta quanto contínua. Comecemos pelo primeiro caso, as variáveis aleatórias discretas. Neste caso, seja $Y$ uma variável aleatória discreta e $y \in \mathbb{R}$ tal que $P(Y = y) > 0$. Então, sendo $X$ uma variável aleatória discreta e $B \in \mathcal{B}$, temos que:

\[\begin{align}\\ P(X \in B \mid Y = y) = \frac{P([X \in B] \cap [Y = y])}{P(Y = y)} \\\\ \end{align}\]

que, com um pouco de manipulação algébrica, nos resulta em:

\[\begin{align}\\ P(X \in B) = \sum_y P(Y = y) P(X \in B \mid Y = y) \\\\ \end{align}\]

Agora, tomando $B = (-\infty, x]$, $x \in \mathbb{R}$, podemos obter a função de distribuição condicional de $X$ dado $Y = y$ da seguinte forma:

\[\begin{align}\\ F_{X \mid Y}(x \mid Y = y) = \frac{P([X \leqslant x] \cap [Y = y])}{P(Y = y)} \\\\ \end{align}\]

E, como consequência, temos:

\[\begin{align}\\ F_X = \sum_y P(Y = y) F_{X \mid Y}(x \mid Y = y) \\\\ \end{align}\]

A equação acima é similar à regra do produto de probabilidades, só que aplicada para o contexto de variáveis aleatórias. Desta equação, tem-se que a função de probabilidade condicional é definida de acordo com a seguinte equação:

\[\begin{align}\\ P(X = x \mid Y = y) = \frac{P(X=x, Y=y)}{P(Y=y)} \\\\ \end{align}\]

isto é, a função de probabilidade condicional, $P(X=x\mid Y=y)$, é a razão entre a função de probabilidade conjunta, $P(X=x,Y=y)$, e a função de probabilidade marginal, $P(Y=y)$. Este conceito, naturalmente, pode ser expandido para o caso de $n$ variáveis discretas.

Exemplo 1.36. Sejam $X$ e $Y$ variáveis aleatórias independentes, ambas com distribuição de Poisson e parâmetros $\lambda_1$ e $\lambda_2$, respectivamente. Suponha que o objetivo seje determinar a distribuição condicional de $X$ dado que $X + Y = n$. Neste caso, tem-se, por definição, que a função de probabilidade condicional de $X$, dado que $X + Y = n$, é expressa por:

\[\begin{align}\\ P\{X = k \mid X + Y = n\} &= \frac{P\{X = k, X + Y = n\}}{P\{X + Y = n\}}\\\\ &= \frac{P\{X = k, Y = n - k\}}{P\{X + Y = n\}}\\\\ &= \frac{P\{X = k\} P\{Y = n - k\}}{P\{X + Y = n\}}\\\\ \end{align}\]

em que a última igualdade decorre da suposição de independência de $X$ e $Y$. Lembrando que $X + Y$ tem uma distribuição de Poisson com parâmetro $\lambda_1 + \lambda_2$, temos:

\[\begin{align}\\ P\{X = k \mid X + Y = n\} &= \frac{e^{-\lambda_1} \lambda_1^k}{k!} \frac{e^{-\lambda_2} \lambda_2^{n-k}}{(n-k)!}\left[\frac{e^{-(\lambda_1 + \lambda_2)} (\lambda_1 + \lambda_2)^n}{n!}\right]^{-1}\\\\ &= \frac{n!}{(n - k)! k!} \frac{\lambda_1^k \lambda_2^{n-k}}{(\lambda_1 + \lambda_2)^n}\\\\ &= \binom{n}{k} \left(\frac{\lambda_1}{\lambda_1 + \lambda_2}\right)^k \left(\frac{\lambda_2}{\lambda_1 + \lambda_2}\right)^{n-k}\\\\ \end{align}\]

Em outras palavras, a distribuição condicional de $X$ dado que $X + Y = n$ é uma distribuição binomial com parâmetros $n$ e $\lambda_1/(\lambda_1 + \lambda_2)$.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Para o caso contínuo, por outro lado, sendo $Y$ uma variável aleatória contínua, a probabilidade condicional é interpretada como o limite das probabilidades condicionadas ao evento $[y - \epsilon \leqslant Y \leqslant y + \epsilon]$, quando $\epsilon \to 0$. Mais precisamente, para uma variável aleatória $X$ qualquer e para um conjunto mensurável $B \in \mathcal{B}$, sendo $\mathcal{B}$ a σ-álgebra de Borel, define-se a probabilidade condicional de $X \in B$ dado $Y = y$ como:

\[\begin{align}\\ P(X \in B \mid Y = y) = \lim_{\epsilon \to 0} P(X \in B \mid y - \epsilon \leqslant Y \leqslant y + \epsilon) \\\\ \end{align}\]

Se $X$ e $Y$ são ambas variáveis aleatórias contínuas, pode-se recorrer à interpretação acima para definir a função densidade condicional de $X$ dado $Y$ da seguinte forma:

\[\begin{align}\\ f_{(X \mid Y)}(x \mid y) = \frac{f_{(X,Y)}(x,y)}{f_Y(y)} \\\\ \end{align}\]

cuja expressão consiste, essencialmente, na razão entre a função densidade conjunta e a densidade marginal. A função de distribuição condicional, nesse contexto, é definida de maneira análoga. Além disso, o relacionamento entre a função densidade e a função de distribuição também se preserva com o condicionamento. Isto é,

\[\begin{align}\\ F_{(X \mid Y)}(x \mid y) = \int_{-\infty}^x f_{(X \mid Y)}(z \mid y) \, dz \\\\ \end{align}\]

Como consequência, as seguintes equações também são válidas:

\[\begin{align}\\ F_{(X,Y)}(x,y) = \int_{-\infty}^y f_Y(z) F_{(X \mid Y)}(x \mid z) \, dz \\\\ \end{align}\]

\[\begin{align}\\ F_X(x) = \int_{-\infty}^{\infty} f_Y(y) F_{(X \mid Y)}(x \mid y) \, dy \\\\ \end{align}\]

as quais expressam, respectivamente, a função de distribuição conjunta e a função de distribuição marginal de $X$ em termos das distribuições condicionais e da densidade marginal de $Y$.

Exemplo 1.37. Considere a densidade conjunta das variáveis aleatórias $X$ e $Y$ dada por:

\[\begin{align}\\ f(x, y) = \begin{cases} \dfrac{12}{5} x(2 - x - y) & 0 < x < 1, \, 0 < y < 1 \\ 0 & \text{caso contrário} \end{cases} \\\\ \end{align}\]

Suponha que o objetivo seja calcular a densidade condicional de $X$ dado que $Y = y$, para $0 < y < 1$. Neste caso, para $0 < x < 1$ e $0 < y < 1$, tem-se:

\[\begin{align}\\ f_{X|Y}(x|y) &= \frac{f(x, y)}{f_Y(y)} \\\\ &= \dfrac{f(x, y)}{\displaystyle\int_0^1 f(x, y) \, dx}\\\\ &= \dfrac{\frac{12}{5} x(2 - x - y)}{\displaystyle\int_0^1 \frac{12}{5} x(2 - x - y) \, dx}\\\\ \end{align}\]

Simplificando, temos que:

\[\begin{align}\\ f_{X|Y}(x|y)= \dfrac{x(2 - x - y)}{\displaystyle\int_0^1 x(2 - x - y) \, dx} \\\\ \end{align}\]

Calculando a integral no denominador:

\[\begin{align}\\ \int_0^1 x(2 - x - y) \, dx &= \left[ x^2 \right]_0^1 (2 - y) - \int_0^1 x^2 \, dx\\\\ &= (2 - y) \cdot \frac{1}{2} - \frac{1}{3} = \frac{(2 - y)}{2} - \frac{1}{3}\\\\ &= \frac{3(2 - y) - 2}{6} = \frac{6 - 3y - 2}{6} = \frac{4 - 3y}{6}\\\\ \end{align}\]

Assim, temos:

\[\begin{align}\\ f_{X|Y}(x|y) = \dfrac{x(2 - x - y)}{\dfrac{4 - 3y}{6}} = \dfrac{6x(2 - x - y)}{4 - 3y} \\\\ \end{align}\]

Portanto, a densidade condicional de $X$ dado $Y = y$ é:

\[\begin{align}\\ f_{X|Y}(x|y) = \frac{6x(2 - x - y)}{4 - 3y} \\\\ \end{align}\]

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Definição 1.17 (Independência). Dizemos que as variáveis aleatórias $X_1, X_2, \ldots, X_d$ em $(\Omega, \mathcal{F}, P)$ são independentes, se

\[\begin{align}\\ P(X_1 \in B_1, \ldots, X_d \in B_d) = P(X_1 \in B_1) \cdots P(X_d \in B_d) \\\\ \end{align}\]

para quaisquer $B_1, \ldots, B_d \in \mathcal{B}$. Além disso, se $I$ é uma família qualquer de índices, dizemos que $(X_i)_{i \in I}$ são coletivamente independentes se $X_{(i_1)}, \ldots, X_{(i_n)}$ são independentes para todo $n \in \mathbb{N}$ e $i_1, \ldots, i_n \in I$.

Baseando-se na definição da função de distribuição conjunta $F$ das variáveis aleatórias $X$ e $Y$, diz-se que $X$ e $Y$ são independentes se, para todos $a, b \in \mathbb{R}$, valer a relação:

\[\begin{align}\\ F(a, b) = F_X(a) F_Y(b) \\\\ \end{align}\]

No caso em que $X$ e $Y$ são variáveis aleatórias discretas, a condição de independência é equivalente a:

\[\begin{align}\\ P(X=x, Y=y) = P_X(X=x) P_Y(Y=y) \\\\ \end{align}\]

para todos os valores $x$ e $y$. Essa equivalência decorre do fato de que, para quaisquer conjuntos $A, B$ do espaço amostral, tem-se:

\[\begin{align}\\ P\{X \in A, Y \in B\} &= \sum_{y \in B} \sum_{x \in A} P(X=x, Y=y) \\\\ &= \sum_{y \in B} \sum_{x \in A} P_X(X=x) P_Y(Y=y) \\\\ &= \sum_{y \in B} P_Y(Y=y) \sum_{x \in A} P_X(X=x)\\\\ &= P\{X\in A\}P\{Y\in B\}\\\\ \end{align}\]

Para o caso contínuo, a condição de independência é caracterizada pela fatoração da função densidade conjunta, isto é,

\[\begin{align}\\ f(x, y) = f_X(x) f_Y(y) \\\\ \end{align}\]

para $(x,y) \in \mathbb{R}^2$, onde $f_{(X,Y)}$, $f_X$ e $f_Y$ denotam, respectivamente, as funções densidade conjunta e marginais de $X$ e $Y$. Esta ideia nos leva, então, os critérios de indendência.

Proposição 1.1 (Critérios de Independência). As seguintes afirmações sobre independência são equivalentes:

(I.) $X_1, X_2, \ldots, X_d$ são independentes.
(II.) $F_X(t) = F_{X_1}(t_1) F_{X_2}(t_2) \cdots F_{X_d}(t_d)$ para todo $t \in \mathbb{R}^d$.
(III.) $F_X(t) = F_1(t_1) F_2(t_2) \cdots F_d(t_d)$ para todo $t \in \mathbb{R}^d$, com $F_1, \ldots, F_d$ funções reais.

Ideia de Demonstração. As implicações $(i) \Rightarrow (ii) \Rightarrow (iii)$ são triviais. Suponha $(iii)$. Calculando a marginal, temos que:

\[\begin{align}\\ F_{(X_i)}(x_i) = \lim_{\substack{x_j \to \infty \\ j \neq i}} F_X(x) = F_i(x_i) \cdot \prod_{j \neq i} \lim_{x_j \to \infty} F_j(x_j) = c_i F_i(x_i) \\\\ \end{align}\]

onde $c_i \neq 0$, pois $F_{(X_i)}$ não pode ser uma função constante. Assim,

\[\begin{align}\\ F_X(x_1, \ldots, x_d) = \frac{1}{c_1 \cdots c_d} F_{(X_1)}(x_1) \cdots F_{(X_d)}(x_d) \\\\ \end{align}\]

Fazendo $x_i \to \infty, \forall i$, temos que $c_1 \cdots c_d = 1$; portanto, $(iii) \Rightarrow (ii)$. Agora, assumindo $(ii)$, vamos provar $(iii)$. Neste caso, supondo que os $B_i$ são uniões de intervalos disjuntos, observe que se $B_i = (a_i, b_i]$ para $i = 1, \ldots, d$, temos que:

\[\begin{align}\\ P(X_1 \in B_1, \ldots, X_d \in B_d) = \Delta_{(a_1, b_1)}^1 \cdots \Delta_{(a_d, b_d)}^d F_X(x) = [\Delta_{(a_1, b_1)}^1 F_{(X_1)}(x_1)] \cdots [\Delta_{(a_d, b_d)}^d F_{(X_d)}(x_d)] \\\\ \end{align}\]

Isto é,

\[\begin{align}\\ P(X_1 \in B_1, \ldots, X_d \in B_d) = P(X_1 \in B_1) \cdots P(X_d \in B_d) \\\\ \end{align}\]

A mesma identidade se estende para $B_i = [a_i, b_i]$ tomando-se o limite $a \to a_i^-$, analogamente para intervalos abertos ou semi-infinitos, e por linearidade vale para uniões de intervalos disjuntos. No entanto, a extensão a todo $B_i \in \mathcal{B}$ envolve argumentos de Teoria da Medida e será omitida.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Exemplo 1.38. Seja

\[\begin{align}\\ f_{XY}(x,y) = e^{-(x+y)} I_{(0,\infty)}(x) I_{(0,\infty)}(y) \\\\ \end{align}\]

uma função de densidade conjunta de um vetor aleatório contínuo $X = (X, Y)$. Pode-se afirmar que $X$ e $Y$ são independentes? Para responder essa questão, note que:

\[\begin{align}\\ f_{XY}(x,y) = e^{-x} I_{(0,\infty)}(x) \cdot e^{-y} I_{(0,\infty)}(y) = f_X(x) f_Y(y) \\\\ \end{align}\]

Logo, conclui-se que $X$ e $Y$ são independentes, uma vez que a função densidade conjunta se fatoriza como o produto das densidades marginais.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\ \end{align}\]

Exemplo 1.39. Suponha que o número total de pessoas que entram em uma agência dos correios em um determinado dia seja modelado por uma variável aleatória com distribuição de Poisson com parâmetro $\lambda$. Seja $X$ o número de homens e $Y$ o número de mulheres que entram na agência ao longo do dia, de modo que $X + Y$ representa o total de pessoas. Para determinar uma expressão para a probabilidade conjunta $P{X = i, Y = j}$, utilizamos a técnica de condicionamento em relação à variável $X + Y$, da seguinte forma:

\[\begin{align}\\ P\{X = i, Y = j\} &= P\{X = i, Y = j \mid X + Y = i + j\} P\{X + Y = i + j\} \\\\ &+ P\{X = i, Y = j \mid X + Y \neq i + j\} P\{X + Y \neq i + j\}\\\\ \end{align}\]

Como $P\{X = i, Y = j \mid X + Y \neq i + j\} = 0$, obtém-se:

\[\begin{align}\\ P\{X = i, Y = j\} = P\{X = i, Y = j \mid X + Y = i + j\} P\{X + Y = i + j\} \\\\ \end{align}\]

Ora, dado que $X + Y = i + j$, por hipótese, o total de pessoas que entram no correio é uma variável aleatória com distribuição de Poisson, de modo que:

\[\begin{align}\\ P\{X + Y = i + j\} = e^{-\lambda} \frac{\lambda^{i+j}}{(i + j)!} \\\\ \end{align}\]

Além disso, condicionado ao fato de que $i + j$ pessoas entram no correio, como cada pessoa é do sexo masculino com probabilidade $p$, a probabilidade de exatamente $i$ dessas pessoas serem homens (e, consequentemente, $j$ serem mulheres) é dada pela distribuição binomial:

\[\begin{align}\\ P\{X = i, Y = j \mid X + Y = i + j\} = \binom{i + j}{i} p^i (1 - p)^j \\\\ \end{align}\]

Logo, segue que:

\[\begin{align}\\ P\{X = i, Y = j\} = \binom{i + j}{i} p^i (1 - p)^j e^{-\lambda} \frac{\lambda^{i+j}}{(i + j)!} \\\\ \end{align}\]

Observa-se, contudo, que a expressão acima pode ser fatorada da seguinte forma:

\[\begin{align}\\ P\{X = i, Y = j\} = e^{-\lambda} \frac{(\lambda p)^i}{i!} \frac{(\lambda (1 - p))^j}{j!} \\\\ \end{align}\]

Assim, conclui-se que $X$ e $Y$ são variáveis aleatórias independentes, sendo ambas distribuídas segundo leis de Poisson, com parâmetros $\lambda p$ e $\lambda (1 - p)$, respectivamente. De fato, tem-se que:

\[\begin{align}\\ P\{X = i\} = e^{-\lambda p} \frac{(\lambda p)^i}{i!} \sum_{j=0}^{\infty} e^{-\lambda (1 - p)} \frac{[\lambda (1 - p)]^j}{j!} = e^{-\lambda p} \frac{(\lambda p)^i}{i!} \\\\ \end{align}\]

e, de forma similar,

\[\begin{align}\\ P\{Y = j\} = e^{-\lambda (1 - p)} \frac{[\lambda (1 - p)]^j}{j!} \\\\ \end{align}\]

Portanto, $X \sim \text{Poisson}(\lambda p)$ e $Y \sim \text{Poisson}(\lambda (1 - p))$, sendo $X$ e $Y$ independentes.

\[\small \begin{align}\\ \tag*{$\blacksquare$}\\\\\\ \end{align}\]

Abramowitz, Milton, e Irene A Stegun. 1965. Handbook of Mathematical Functions: With Formulas, Graphs, and Mathematical Tables. Vol. 55. Courier Corporation.

Aldous, David, e Persi Diaconis. 1986. «Shuffling cards and stopping times». The American Mathematical Monthly 93 (5): 333–48.

Basu, Adhir K. 2003. Introduction to Stochastic Process. Alpha Science Int’l Ltd.

Berger, Marc A. 2012. An Introduction to Probability and Stochastic Processes. Springer Science & Business Media.

Bhat, U Narayan. 2008. An Introduction to Queueing Theory: Modeling and Analysis in Applications. Vol. 36. Springer.

Brown, Robert. 1828. «A brief account of microscopical observations on the particles contained in the pollen of plants and the general existence of active molecules in organic and inorganic bodies». Edinburgh New Philosophical Journal, 358–71.

Burke, Paul J. 1956. «The output of a queuing system». Operations Research 4 (6): 699–704.

Cauchy, Augustin Louis Baron. 1821. Cours d’analyse de l’École Royale Polytechnique. Imprimerie Royale.

Chung, Kai Lai. 2000. A Course in Probability Theory. Elsevier.

Cinlar, Erhan. 2013. Introduction to Stochastic Processes. Courier Corporation.

Cobham, Alan. 1954. «Priority assignment in waiting line problems». Journal of the Operations Research Society of America 2 (1): 70–76.

Del Moral, Pierre, e Spiridon Penev. 2017. Stochastic Processes: From Applications to Theory. Chapman; Hall/CRC.

Dobrow, Robert P. 2016. Introduction to Stochastic Processes with R. John Wiley & Sons.

Einstein, Albert. 1956. Investigations on the Theory of the Brownian Movement. Courier Corporation.

Erlang, Agner Krarup. 1917. «Solution of some problems in the theory of probabilities of significance in automatic telephone exchanges». Post Office Electrical Engineer’s Journal 10: 189–97.

Feller, William. 1991. An Introduction to Probability Theory and Its Applications. Vol. 2. John Wiley & Sons.

Fisz, Marek. 1963. Probability Theory and Mathematical Statistics. John Wiley & Sons.

Gut, Allan. 2015. An Intermediate Course in Probability. New York: Springer.

Harchol-Balter, Mor. 2010. Performance Modeling and Design of Computer Systems. Imperial College Press.

Haviv, Moshe. 2013. Queues. Springer.

Hinojosa, Adrian, e Aniura Milanés. 2011. «Uma Introdução aos Processos Estocásticos com Aplicações». Belo Horizonte: Universidade Federal de Minas Gerais.

Hoel, Paul G., Sidney C. Port, e Charles J. Stone. 1978. Introdução à Teoria da Probabilidade. Rio de Janeiro: Interciência.

Hoel, Paul G, Sidney C Port, e Charles J Stone. 1986. Introduction to Stochastic Processes. Waveland Press.

Kendall, David G. 1953. «Stochastic processes occurring in the theory of queues and their analysis by the method of the imbedded Markov chain». The Annals of Mathematical Statistics, 338–54.

Ken-Iti, Sato. 1999. Lévy processes and infinitely divisible distributions. Vol. 68. Cambridge university press.

Last, Günter, e Mathew Penrose. 2018. Lectures on the Poisson Process. Vol. 7. Cambridge University Press.

Lawler, Gregory F. 2018. Introduction to Stochastic Processes. Chapman; Hall/CRC.

Lewis, PA W, e Gerald S Shedler. 1979. «Simulation of nonhomogeneous Poisson processes by thinning». Naval research logistics quarterly 26 (3): 403–13.

Little, John DC. 1961. «A proof for the queuing formula: L= $\lambda$ W». Operations research 9 (3): 383–87.

Magalhães, Marcos Nascimento. 2006. Probabilidade e Variáveis Aleatórias. Edusp.

Markov, AA. 1913. «An example of statistical analysis of the text of Eugene Onegin Illustrating the association of trials into a chain». Bulletin de l, Acadamie Imperiale des Sciences de St. Petersburg, ser 6 (7): 153–62.

Markov, Andrei Andreevich. 1906. «Rasprostranenie zakona bol’shih chisel na velichiny, zavisyaschie drug ot druga». Izvestiya Fiziko-matematicheskogo obschestva pri Kazanskom universitete 15 (135-156): 18.

Merton, Robert King, e Thomas F Gieryn. 1982. «Science and social structure: A festschrift for Robert K. Merton». (No Title).

Meyn, Sean P, e Richard L Tweedie. 2012. Markov Chains and Stochastic Stability. Springer Science & Business Media.

Poisson, Siméon Denis. 1837. «Probabilité des jugements en matière criminelle et en matière civile, précédées des règles générales du calcul des probabilitiés». Paris, France: Bachelier 1 (1837): 1837.

Pollaczek, Felix. 1930. «Über eine Aufgabe der Wahrscheinlichkeitstheorie». Mathematische Zeitschrift 32 (1): 64–100.

Ross, Sheldon. 2009. Probabilidade: Um Curso Moderno com Aplicações. Bookman Editora.

Ross, Sheldon M. 1995. Stochastic Processes. John Wiley & Sons.

Tijms, Henk C. 2003. A First Course in Stochastic Models. John Wiley & Sons.

\(P(X = x, Y = y)\)	\(y=1\)	\(y=2\)	\(y=3\)	\(y=4\)
\(x = 1\)	\(1/16\)	\(1/16\)	\(1/16\)	\(1/16\)
\(x = 2\)	\(0\)	\(2/16\)	\(1/16\)	\(1/16\)
\(x = 3\)	\(0\)	\(0\)	\(3/16\)	\(1/16\)
\(x = 4\)	\(0\)	\(0\)	\(0\)	\(4/16\)

Eventos	Probabilidade	\(X_1\)	\(X_2\)
(C, C)	\(1/4\)	\(2\)	\(1\)
(C, K)	\(1/4\)	\(1\)	\(0\)
(K, C)	\(1/4\)	\(1\)	\(0\)
(K, K)	\(1/4\)	\(0\)	\(1\)

\(P(X_1=x_1, X_2=x_2)\)	\(x_2=0\)	\(x_2=1\)
\(x_1 = 0\)	0	\(1/4\)
\(x_1 = 1\)	\(1/2\)	0
\(x_1 = 2\)	0	\(1/4\)

\(P(X_1 \leqslant x_1, X_2 \leqslant x_2)\)	\(0\leqslant x_2 < 1\)	\(1\leqslant x_2\)
\(x_1 < 0\)	0	0
\(0\leqslant x_1 < 1\)	0	1/4
\(1\leqslant x_1 < 2\)	2/4	3/4
\(2\leqslant x_1\)	2/4	1