4.1 Métodos de estimación de umbrales de pérdida en eventos de riesgo

Se suele establecer un umbral para distinguir eventos de alto impacto. Por ejemplo, definimos:

threshold <- quantile(datos$perdidaBruta, probs = 0.95, na.rm = TRUE)
datos <- datos %>% mutate(evento_critico = perdidaBruta >= threshold)
table(datos$evento_critico)

## 
## FALSE  TRUE 
##  1061    56

Establecer un umbral permite centrar el análisis en eventos materiales y no en fallos menores sin implicancia financiera. Esto es crítico en ciberseguridad, donde se reportan muchos intentos fallidos que no implican pérdida directa. También ayuda a filtrar ruido operativo y mejorar la calidad de los modelos.

4.1.1 Agrupación por fecha (frecuencia por mes)

datos$fechaEvento <- sub("sept", "sep", datos$fechaEvento)
datos$fechaEvento <- as.Date(datos$fechaEvento, format = "%d-%b-%y")

datos$mes <- format(datos$fechaEvento, "%Y-%m")
frecuencia_mensual <- datos %>% group_by(mes) %>% summarise(eventos = n())
head(frecuencia_mensual)

## # A tibble: 6 × 2
##   mes     eventos
##   <chr>     <int>
## 1 2015-03      17
## 2 2015-05      15
## 3 2015-06      22
## 4 2015-07      14
## 5 2015-09      25
## 6 2015-10      20

El agrupamiento permite analizar patrones temporales, identificar estacionalidad o efectos de cambios tecnológicos. En ciberseguridad, por ejemplo, un aumento de ataques en ciertos meses puede estar relacionado con campañas dirigidas, vulnerabilidades públicas o eventos geopolíticos.