Chapter 2 Conceptos

2.1 Probabilidad

Es la cuantificación de la incertidumbre, que es la incertidumbre, lo veremos con un ejemplo.

Ahora nos pondremos en el siguiente caso, para una moneda haremos:

De manera sencilla, le hemos dado un valor numérico a algo que no conocemos, que es si la moneda caerá del lado A o del lado B, hemos cuantificado la incertidumbre.

2.2 Distribución de probabilidad

Ahora veremos otro caso, este será un caso teórico, para entender de manera sencilla el concepto de distribución de probabilidad.

Imaginemos que tenemos la temperaturas de un planeta en una zona especifica en una época de su rotación con respecto a su estrella, ordenadas de menor a mayor.

Y observamos algunos patrones: - La primera temperatura que aparece es una de -49.5°C (la menor).

  • Luego le siguen unas 10 muy parecidas a esta (muy bajas).

  • Posteriormente vemos que estas cambian bruscamente y tenemos que se repiten mucho los valores entre -15°C y 15°C.

  • Finalmente vemos temperaturas muy altas hasta toparnos con la mayor de todas 56°C

Sin lugar a dudas este planeta seguramente tiene un problema de calentamiento global, la cuestión es la siguiente, si realizamos un histograma de nuestras temperaturas, tendremos algo muy parecido a esto:

Si nos damos cuenta en el eje x tenemos las temperaturas ordenadas de menor a mayor, y los intervalos que aparecen son las marcas de clase, ahora, las barras representan el conteo de los valores de las temperaturas que aparecen en esos intervalos, podemos crear reglas y calcular probabilidades:

  • Si las temperaturas están en el intervalo de 0°C y 15°C, por tener la barra más alta, tienen mayor probabilidad de salir.

Ahora vayamos un poco mas allá, ya no para un intervalo, si no para un valor puntual de la temperatura tenemos una probabilidad de que esta se de en el planeta.

Si imaginamos esto como un concepto matemático nos damos cuenta que la probabilidad esta en función del valor de la temperatura.

A lo largo de los años se estudiaron estos comportamientos a un nivel matemático y de estos, las distribuciones:

Fuente: https://github.com/mavam/stat-cookbook/blob/master/figs/relationships.pdf

A partir de estas estructuras matemáticas se elaboran otras mas complejas que se llaman modelos, aca entran a tallar los modelos lineales generales y los modelos lineales generalizados que veremos en los siguientes capitulos.

2.3 Modelos

Un modelo es una representación abstracta de la realidad explicada por medio de una ecuación matemática.

La realidad es compleja de describir, teniendo un marco para cada pregunta sobre la realidad que tengamos podemos atinarle a la respuesta.

Para responder nuestras preguntas con modelos necesitamos varias cosas, entre estas estan los datos, sin datos podemos hacer simples suposiciones y no llegar a una conclusión fiable apoyada de una base científica.

2.4 Clasificación de modelos

2.4.1 Clasificación 1

Nos colocaremos en dos contextos, en el primero nos preguntamos ¿la estatura de los padres puede explicar la estatura de sus hijos? Para esto le preguntamos a un grupo de 30 familias con por lo menos un hijo con mas de 21 años de edad las estaturas en centimetros de los padres y del hijo con mas de 21 años, entonces formulamos la ecuacion.

De acuerdo a las preguntas que hicimos, tenemos en una tabla con los datos de las estaturas de padres e hijos, cada fila representa a una familia de las 30 a las que le preguntamos. Aca entramos en un concepto nuevo, las variables, en nuestra tabla cada columna es una variable, ya que los datos que se encuentran en cada una solo y solo pertenecen a las estaturas de los padres y a la de los hijos, no a otra medición.

Si colocamos los datos en un plano cartesiano tendriamos lo siguiente

Entonces se puede formular un modelo del siguiente tipo, una variable X para generalizar explica a otra variable Y, entonces se puede decir que la variable Y puede ser representada en función de X.

2.4.2 Clasificación 2

En el segundo contexto imaginemos que tenemos una cesta de manzanas y nos piden agruparlas en 3 grupos para vernderlas a diferentes precios de acuerdo al color de las manzanas, estado, brillo o alguna otra característica que podamos observar. Como somos muy metódicos, lo que hacemos es identificar cada manzana con una número, y apuntar sus caracteristicas en una tabla, cada fila es una manzana y cada columna es una característica.

Finalmente formamos los grupos marcando en nuestra tabla como 1, 2 o 3 las manzanas que compartian mas variables en común, cuando llegó la hora de la venta, esta seguro fue todo un éxito.

Si lo notamos, en este segundo contexto, no tenemos una variable X que explica otra Y, si no tenemos un conjunto de variables X que se agrupan en un grupo no definido previamente, puesto que no lo conocemos. Podemos llevar esta analogia a la segunda clase de modelos que pueden crear grupos a partir de similitudes en los datos, eso si, siempre debemos definir el número de grupos que queremos formar.

2.4.3 Clasificación final

Teniendo en cuenta los dos contextos anteriores, clasificaremos a los modelos en dos grandes categorías.

  • Supervisados = cuando existe una o un conjunto de variables X llamadas independientes explicando una variable Y llamada dependiente.

  • No supervidados o de agrupación = como su nombre lo dice, agrupan los datos en grupos que debemos definir previamente.

La clasificación de supervisado y no supervisado se debe a que, en el caso supervisado, debemos indicarle a los modelos cual es el valor correcto a predecir, pongamonos en el caso que tenemos varias variables de pescados, lo que queremos estimar es si el pescado se encuentra en su tamaño para ser vendido o si aun es muy pequeño y no puede ser vendido, nos comparten datos de mediciones de estas variables en el mes en el que estamos pero del año pasado, para ese entonces y a la fecha que se hacia la toma de datos, se apunto que pescados se vendian y cuales no. Estamos en un caso supervisad y nuestra variable Y tiene dos valores, se vende o no se vende, con los datos del año pasado elaboramos un modelo para predecir que pescados deben o no deben ser vendidos este año, por lo que estamos enseñandole al modelo cual es la direccion de su estimacion para los valores de pescados que se vendieron el año pasado con respecto a los que se deben vender este año.

El caso no supervisado es mas claro, no tenemos una guía específica, por lo que hay que tener mucho conocimiento de que queremos agrupar. Como el caso de las manzanas, formamos grupos en base a variables, clasicamente estas variables debian ser numericas, pero con el pasar de los años ya se pueden crear grupos con variables categóricas.

2.4.4 Mas allá de lo supervisado y no supervisado

En los tiempos en los que la inteligencia artificial cobra mayor peso en nuestro día a día, con aplicaciones que nos hacen parecer mayores, con google lens que nos permite identificar imagenes o cuando entramos a nuestra platafamos de streaming favorita y nos aparece un mensaje de contenido recomendado para ti, estos son ejemplos de otros tipos de modelos que también debemos reconocer que existen y por eso podemos clasificarlos por la acción que realizan, a continuación enumeraremos algunos:

  • Modelos de regresion (Regresión lineal, regresión logística, Regresión con splines)

  • Modelos basados en distancias (KNN, Cluster jerarquico, SVM)

  • Modelos de regularización (Regresión de Ridge, Regresión LASSO, Elastic Net)

  • Modelos basados en árboles de decisión (CART, ID3, M5, C4, C5)

  • Modelos bayesianos (Naive Bayes, Naive Bayes Gausiano, Redes bayesianas)

  • Modelos basados de reglas de asociación (Modelo de canastas de consumo, modelos de recomendación)

  • Modelos de reducción de dimensiones (Analisis de componentes principales, Regresión de componentes principales, Regresión de mínimos cuadrados parciales, Análisis disciminante lineal y cuadrático)

  • Modelos de deep learning (CNN, RNNs, LSTMs)

2.5 Datos y modelos

Como sociedad día tras día generamos datos, algunas corporaciones los almacenan en servidores para diferentes usos, en un contexto de investigación se busca recolectar esta información a proposito, ya que naturalmente un sensor no existe en un campo de cultivo o en el mar, esta información recolectada tambien es parte de la inmensa cantidad de datos que se miden a diario, asi tenemos muchos ejemplos. Pero ¿sabemos como usarlos de manera adecuada en nuestros modelos? Eso vamos a aclararlo en este apartado.