5 Procesos Estocásticos y Modelos de Pronóstico

5.1 Procesos estocásticos de segundo orden y espacio de Hilbert \(L^2(\Omega,\mathcal{F},\mathbb{P})\)

El análisis matemático de fenómenos meteorológicos y su aplicación al pronóstico operativo requieren un marco probabilístico riguroso que permita cuantificar la variabilidad inherente a las observaciones ambientales. En este contexto, los procesos estocásticos de segundo orden constituyen la base teórica sobre la cual se construyen los modelos de series de tiempo, las estimaciones de covarianza y los procedimientos de remuestreo utilizados en esta tesis. La exigencia de que las variables aleatorias posean momentos de segundo orden finitos no es una restricción arbitraria, sino una condición técnica fundamental que garantiza la existencia de la estructura geométrica del espacio de Hilbert, herramienta indispensable para el análisis de proyecciones ortogonales y descomposiciones espectrales.

Sea \((\Omega, \mathcal{F}, \mathbb{P})\) un espacio de probabilidad, donde \(\Omega\) es el espacio muestral, \(\mathcal{F}\) es una \(\sigma\)-álgebra de eventos sobre \(\Omega\), y \(\mathbb{P}\) es una medida de probabilidad definida en \(\mathcal{F}\) (Durrett 2019). Una variable aleatoria real es una función medible \(X: \Omega \to \mathbb{R}\). El conjunto de todas las variables aleatorias con valor esperado finito de su cuadrado se define como:

\[ L^2(\Omega, \mathcal{F}, \mathbb{P}) = \left\{ X : \Omega \to \mathbb{R} \ \text{medible} \ \bigg| \ \mathbb{E}[|X|^2] = \int_\Omega |X(\omega)|^2 \, d\mathbb{P}(\omega) < \infty \right\}. \]

Este espacio, dotado de la operación de valor esperado del producto, posee una estructura algebraica y topológica fundamental. En particular, se puede definir el siguiente producto interno para cualesquiera \(X, Y \in L^2(\Omega, \mathcal{F}, \mathbb{P})\):

\[ \langle X, Y \rangle = \mathbb{E}[XY] = \int_\Omega X(\omega)Y(\omega) \, d\mathbb{P}(\omega). \]

Definición 2.1 (Norma y distancia en \(L^2\)). La norma inducida por el producto interno anterior se define como \(\|X\|_2 = \sqrt{\langle X, X \rangle} = \sqrt{\mathbb{E}[X^2]}\). La distancia entre dos elementos se expresa como \(d(X,Y) = \|X - Y\|_2\). Bajo esta métrica, el espacio \(L^2(\Omega, \mathcal{F}, \mathbb{P})\) es completo; es decir, toda sucesión de Cauchy converge a un elemento del mismo espacio (Rudin 1987). Por tanto, \(L^2(\Omega, \mathcal{F}, \mathbb{P})\) constituye un espacio de Hilbert separable sobre el campo de los números reales.

Esta estructura geométrica es crucial para el análisis de pronóstico, ya que permite interpretar la estimación de una variable futura como una proyección ortogonal sobre el subespacio generado por las observaciones pasadas. La desigualdad de Cauchy-Schwarz, derivada directamente de la estructura de producto interno, garantiza la acotación de la covarianza:

\[ |\operatorname{Cov}(X,Y)| = |\mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])]| \leq \sqrt{\operatorname{Var}(X)\operatorname{Var}(Y)}, \]

lo cual asegura la existencia y estabilidad numérica de los coeficientes de correlación utilizados en secciones posteriores.

Definición 2.2 (Proceso estocástico de segundo orden). Sea \(\mathcal{T}\) un conjunto de índices (típicamente \(\mathcal{T} = \mathbb{N}\) o \(\mathcal{T} = \mathbb{R}\)). Un proceso estocástico \(\{X_t\}_{t \in \mathcal{T}}\) se denomina de segundo orden si para todo \(t \in \mathcal{T}\) se cumple que \(X_t \in L^2(\Omega, \mathcal{F}, \mathbb{P})\), es decir:

\[ \mathbb{E}[|X_t|^2] < \infty, \quad \forall t \in \mathcal{T}. \]

Esta condición implica automáticamente que la función media \(\mu(t) = \mathbb{E}[X_t]\) y la función de autocovarianza \(\gamma(t,s) = \operatorname{Cov}(X_t, X_s)\) están bien definidas y son finitas para todo par de índices \((t,s) \in \mathcal{T} \times \mathcal{T}\) (Brockwell y Davis 2016).

En el contexto de variables meteorológicas como la velocidad del viento, la temperatura o la precipitación, la suposición de segundo orden es físicamente razonable: las cantidades físicas observadas presentan fluctuaciones acotadas en escalas temporales cortas, y sus momentos cuadráticos reflejan la energía cinética o térmica del sistema atmosférico. Además, esta hipótesis habilita el uso de técnicas de análisis espectral, descomposición en componentes principales y filtrado lineal óptimo, todas ellas sustentadas en la geometría del espacio \(L^2\) (Williams 1991).

La completitud del espacio \(L^2\) garantiza, por el Teorema de Proyección de Hilbert, que para cualquier subespacio cerrado \(\mathcal{S} \subset L^2(\Omega, \mathcal{F}, \mathbb{P})\) y cualquier variable aleatoria \(Y \in L^2\), existe un único elemento \(\hat{Y} \in \mathcal{S}\) que minimiza el error cuadrático medio \(\mathbb{E}[(Y - \hat{Y})^2]\). Este resultado fundamenta matemáticamente la formulación de predictores lineales óptimos, base de los modelos autorregresivos que se desarrollarán en la Sección 5.6, y justifica la construcción de intervalos de confianza mediante métodos de remuestreo que preservan la estructura de covarianza, como el block bootstrap descrito en la Sección 5.7.

5.2 Estacionariedad débil y funciones de covarianza cruzada

La modelación de series meteorológicas requiere supuestos estructurales que garanticen la estabilidad estadística de las propiedades del proceso a lo largo del tiempo. En particular, la noción de estacionariedad constituye un pilar fundamental en el análisis de series de tiempo, ya que permite inferir parámetros poblacionales a partir de una única trayectoria observada. Dado que el marco probabilístico desarrollado en la Sección 5.1 se restringe a procesos de segundo orden, la estacionariedad de interés es la débil (o de covarianza), la cual solo exige invarianza en los dos primeros momentos estadísticos, para más detalles consultar (Brockwell y Davis 2016).

Definición 2.3 (Estacionariedad débil). Sea \(\{X_t\}_{t \in \mathcal{T}}\) un proceso estocástico de segundo orden. Se dice que \(\{X_t\}\) es débilmente estacionario si satisface las siguientes condiciones:

La función media es constante: \(\mathbb{E}[X_t] = \mu\), para todo \(t \in \mathcal{T}\).
La función de autocovarianza depende únicamente de la diferencia temporal (lag): \(\operatorname{Cov}(X_t, X_s) = \gamma(|t-s|)\), para todo \(t,s \in \mathcal{T}\).
La varianza es finita y constante: \(\gamma(0) = \operatorname{Var}(X_t) < \infty\).

A diferencia de la estacionariedad estricta, que requiere invarianza en todas las distribuciones finito-dimensionales del proceso, la estacionariedad débil solo controla los momentos de orden uno y dos. Esta relajación es suficiente para el desarrollo de predictores lineales óptimos, análisis espectral y estimación por correlación, herramientas centrales en la metodología de nowcasting presentada en este trabajo (Priestley 1981).

Bajo la hipótesis de estacionariedad débil, la función de autocovarianza \(\gamma(h)\) posee propiedades estructurales esenciales:

\(\gamma(0) \geq 0\) y representa la varianza marginal del proceso,
\(\gamma(h) = \gamma(-h)\) (simetría par),
\(|\gamma(h)| \leq \gamma(0)\) para todo \(h \in \mathbb{Z}\),
La matriz de covarianza \(\Gamma_n = [\gamma(i-j)]_{i,j=1}^n\) es semidefinida positiva para cualquier \(n \in \mathbb{N}\) (Hamilton 1994).

Estas propiedades garantizan que las estimaciones muestrales de la autocovarianza convergen en probabilidad a sus valores poblacionales bajo condiciones ergódicas, lo cual justifica el uso de promedios temporales en la práctica operacional.

5.2.1 Covarianza cruzada y dependencia entre variables

En el contexto multivariado, donde se analizan simultáneamente variables meteorológicas como viento, temperatura y humedad a lo largo de la ruta de vuelo, es necesario extender el concepto de autocovarianza a la covarianza cruzada. Sean \(\{X_t\}\) y \(\{Y_t\}\) dos procesos estocásticos débilmente estacionarios, conjuntamente estacionarios. La función de covarianza cruzada se define como:

\[ \gamma_{XY}(h) = \operatorname{Cov}(X_{t+h}, Y_t) = \mathbb{E}\big[(X_{t+h} - \mu_X)(Y_t - \mu_Y)\big], \quad h \in \mathbb{Z}. \]

A diferencia de la autocovarianza, \(\gamma_{XY}(h)\) no es necesariamente una función par, ya que la influencia de \(Y_t\) sobre \(X_{t+h}\) puede diferir de la influencia inversa. Sin embargo, satisface la relación de simetría cruzada:

\[ \gamma_{XY}(h) = \gamma_{YX}(-h), \quad \forall h \in \mathbb{Z}. \]

Para obtener una medida adimensional y comparable entre distintas variables, se introduce la función de correlación cruzada:

\[ \rho_{XY}(h) = \frac{\gamma_{XY}(h)}{\sqrt{\gamma_X(0)\,\gamma_Y(0)}}. \]

Esta función cuantifica la dependencia lineal entre ambas series con un desfase \(h\) y está acotada por \(|\rho_{XY}(h)| \leq 1\). La identificación del retardo \(h^*\) que maximiza \(|\rho_{XY}(h)|\) constituye la base matemática del método de correlación cruzada entre segmentos espaciales adyacentes, descrito en la Sección 7.3, y permite estimar el tiempo de propagación de estructuras atmosféricas a lo largo del corredor de vuelo (Box et al. 2015).

5.2.2 Consideraciones de ergodicidad y validez muestral

La estacionariedad débil garantiza la existencia de \(\mu\) y \(\gamma(h)\), pero no asegura que puedan estimarse consistentemente a partir de una única realización temporal. Para ello, se requiere adicionalmente la propiedad de ergodicidad en media y covarianza, la cual establece que los promedios temporales convergen a los promedios espaciales (esperanzas):

\[ \lim_{T \to \infty} \frac{1}{T} \sum_{t=1}^{T} X_t = \mu \quad \text{c.s.}, \qquad \lim_{T \to \infty} \frac{1}{T} \sum_{t=1}^{T-h} (X_t - \mu)(X_{t+h} - \mu) = \gamma(h) \quad \text{c.s.} \]

Bajo esta condición, los estimadores muestrales \(\hat{\mu} = \frac{1}{T}\sum_{t=1}^T X_t\) y \(\hat{\gamma}(h) = \frac{1}{T-h}\sum_{t=1}^{T-h} (X_t-\hat{\mu})(X_{t+h}-\hat{\mu})\) son consistentes (Durrett 2019). En la práctica, las series meteorológicas de corta duración (ej. 7 días con muestreo cada 10 minutos) pueden no satisfacer plenamente la ergodicidad asintótica; por ello, la cuantificación de incertidumbre mediante block bootstrap (Sección 5.7) actúa como mecanismo de validación empírica que no depende de supuestos ergódicos estrictos.

Esta fundamentación teórica permite transitar de manera rigurosa hacia el análisis espectral y la modelación autorregresiva, desarrollados en las secciones siguientes, donde la estructura de covarianza estacionaria se explota explícitamente para generar pronósticos de corto horizonte con intervalos de confianza cuantificables.

5.3 Correlación cruzada y existencia del lag óptimo discreto

En la práctica operacional, solo se dispone de una trayectoria finita \(\{X_t\}_{t=1}^T\) y \(\{Y_t\}_{t=1}^T\) de longitud \(T < \infty\). Por tanto, las funciones teóricas \(\gamma_{XY}(h)\) y \(\rho_{XY}(h)\) deben aproximarse mediante sus contrapartes muestrales. Esta sección formaliza el estimador discreto de correlación cruzada, establece las condiciones matemáticas para la existencia del retardo óptimo y analiza sus propiedades estadísticas bajo el marco de procesos débilmente estacionarios.

Definición 2.4 (Correlación cruzada muestral). Sean \(\{x_t\}_{t=1}^T\) y \(\{y_t\}_{t=1}^T\) dos realizaciones observadas de procesos estacionarios con medias muestrales \(\bar{x} = \frac{1}{T}\sum_{t=1}^T x_t\) y \(\bar{y} = \frac{1}{T}\sum_{t=1}^T y_t\). Para un retardo discreto \(k \in \mathbb{Z}\), el estimador de correlación cruzada se define como:

\[ \hat{\rho}_{xy}(k) = \begin{cases} \dfrac{\sum_{t=1}^{T-k} (x_t - \bar{x})(y_{t+k} - \bar{y})}{\sqrt{\sum_{t=1}^T (x_t - \bar{x})^2 \sum_{t=1}^T (y_t - \bar{y})^2}}, & 0 \leq k < T, \\[12pt] \dfrac{\sum_{t=1}^{T+|k|} (x_{t-|k|} - \bar{x})(y_t - \bar{y})}{\sqrt{\sum_{t=1}^T (x_t - \bar{x})^2 \sum_{t=1}^T (y_t - \bar{y})^2}}, & -T < k < 0, \\[12pt] 0, & |k| \geq T. \end{cases} \]

Esta definición garantiza que \(\hat{\rho}_{xy}(k) \in [-1, 1]\) para todo \(k\), preservando la interpretación geométrica de similitud lineal entre series desplazadas temporalmente. En la literatura de procesamiento de señales discretos, esta forma normalizada corresponde al coeficiente de correlación de Pearson aplicado a vectores desplazados (Oppenheim y Schafer 2010).

5.3.1 Existencia del retardo óptimo discreto

En aplicaciones de transporte atmosférico, el interés se centra en identificar el desfase temporal \(k^*\) que maximiza la dependencia lineal entre dos señales. Formalmente, se define:

\[ k^* = \arg\max_{k \in \mathcal{K}} \left| \hat{\rho}_{xy}(k) \right|, \quad \mathcal{K} = \{-K, -K+1, \dots, K\} \subset \mathbb{Z}, \]

donde \(K < T\) es un parámetro de truncamiento que acota la búsqueda a retardos físicamente plausibles.

Proposición 2.1 (Existencia del máximo discreto). Sea \(\mathcal{K} \subset \mathbb{Z}\) un conjunto finito no vacío. La aplicación \(k \mapsto |\hat{\rho}_{xy}(k)|\) alcanza su máximo en al menos un punto \(k^* \in \mathcal{K}\).

Demostración. Dado que \(\mathcal{K}\) es finito y la función toma valores en \(\mathbb{R}\), el conjunto de imágenes \(\{|\hat{\rho}_{xy}(k)| : k \in \mathcal{K}\}\) es finito. Por el principio del extremo en conjuntos finitos, existe al menos un elemento máximo. \(\square\)

La unicidad de \(k^*\) no está garantizada en general; puede ocurrir en presencia de estructuras periódicas, ruido blanco o cuando múltiples retardos presentan correlaciones indistinguibles numéricamente. Sin embargo, bajo la hipótesis física de advección dominante con perfil espacial unimodal, la correlación cruzada suele exhibir un pico agudo y bien separado, lo que justifica la selección de un único \(k^*\) operativo (Priestley 1981).

5.3.2 Propiedades estadísticas y comportamiento asintótico

El estimador \(\hat{\rho}_{xy}(k)\) es sesgado para muestras finitas debido a la reducción progresiva del número de pares efectivos conforme \(|k|\) aumenta. No obstante, bajo condiciones de estacionariedad y dependencia decaída (mixing conditions), es un estimador consistente:

\[ \hat{\rho}_{xy}(k) \xrightarrow{p} \rho_{XY}(k) \quad \text{cuando } T \to \infty. \]

Bajo la hipótesis nula de independencia entre \(\{X_t\}\) y \(\{Y_t\}\), Bartlett demostró que para \(|k| < T\) la distribución muestral es asintóticamente normal con varianza aproximada \(1/T\) (Bartlett 1946). Más precisamente, si \(\{X_t\}\) y \(\{Y_t\}\) son procesos gaussianos independientes:

\[ \sqrt{T} \, \hat{\rho}_{xy}(k) \xrightarrow{d} \mathcal{N}(0, 1), \quad T \to \infty. \]

Esta propiedad permite construir intervalos de confianza aproximados para evaluar la significancia estadística de \(k^*\). En la práctica, se suele aplicar un umbral de detección \(\rho_{\min} \approx 1.96/\sqrt{T}\) al nivel de significancia \(\alpha = 0.05\), descartando retardos cuya correlación no supere el umbral de ruido aleatorio (Box et al. 2015).

5.3.3 Implementación y consideraciones numéricas

En la estimación de velocidad de advección entre segmentos espaciales adyacentes (Sección 7.3), el lag óptimo \(k^*\) se interpreta directamente como el tiempo de transporte discreto entre estaciones virtuales. La relación física se expresa como:

\[ \hat{v} = \frac{\Delta s}{k^* \Delta t}, \]

donde \(\Delta s\) es la distancia geodésica entre centroides y \(\Delta t\) el intervalo de muestreo temporal. Para evitar estimaciones engañosas en presencia de baja correlación, se introduce un criterio de aceptación basado en la fracción de pares adyacentes que superan \(\rho_{\min}\) simultáneamente con \(k^* \neq 0\), garantizando robustez frente a ruido de medición y fluctuaciones no advectivas (Brockwell y Davis 2016).

Esta fundamentación teórica justifica el uso de la correlación cruzada discreta como herramienta primaria de estimación de velocidad, y prepara el terreno para el análisis espectral frecuencia-espacio (\(f\)-\(k\)) desarrollado en la Sección 5.5, donde la fase espectral reemplaza al dominio temporal para capturar estructuras de propagación en regímenes de baja coherencia temporal.

5.4 Análisis de series de tiempo: autocovarianza y Transformada de Fourier

La caracterización completa de un proceso estocástico estacionario en el dominio del tiempo mediante su función de autocovarianza \(\gamma(h)\) resulta insuficiente cuando el objetivo es identificar frecuencias dominantes, ciclos ocultos o estructuras periódicas en series meteorológicas. El análisis espectral permite transformar la dependencia temporal en una distribución de energía por frecuencias, facilitando la detección de modos oscilatorios y la validación de supuestos de advección. Este cambio de perspectiva, del dominio temporal al dominio frecuencial, se fundamenta en la Transformada de Fourier aplicada a secuencias de covarianza y constituye el puente matemático necesario para el análisis \(f\)-\(k\) desarrollado en la Sección 5.5.

Sea \(\{X_t\}_{t \in \mathbb{Z}}\) un proceso débilmente estacionario con función de autocovarianza \(\gamma: \mathbb{Z} \to \mathbb{R}\). Una propiedad estructural esencial, derivada de la definición de varianza de combinaciones lineales, es que \(\gamma\) es una función definida no negativa (positive semi-definite). Formalmente:

Proposición 2.2 (Definición no negativa de \(\gamma\)). Para cualquier \(n \in \mathbb{N}\) y cualquier conjunto de coeficientes complejos \(c_1, \dots, c_n \in \mathbb{C}\), se cumple: \[ \sum_{j=1}^n \sum_{k=1}^n c_j \overline{c_k} \, \gamma(j-k) \geq 0. \] Esta condición garantiza que las matrices de covarianza \(\Gamma_n = [\gamma(i-j)]_{i,j=1}^n\) sean semidefinidas positivas, requisito indispensable para la invertibilidad numérica en modelos autorregresivos y para la existencia de una representación espectral válida (Brockwell y Davis 2016).

5.4.1 Teorema de Herglotz y representación espectral

El teorema de Herglotz establece que toda función definida no negativa en \(\mathbb{Z}\) admite una representación integral única mediante una medida de distribución espectral \(F(\omega)\) en el intervalo \([-\pi, \pi]\):

Teorema 2.1 (Representación espectral de Herglotz). Sea \(\gamma: \mathbb{Z} \to \mathbb{C}\) una función definida no negativa con \(\gamma(0) < \infty\). Entonces existe una función monótona no decreciente \(F: [-\pi, \pi] \to \mathbb{R}\), acotada y continua por la derecha, tal que: \[ \gamma(h) = \int_{-\pi}^{\pi} e^{i h \omega} \, dF(\omega), \quad \forall h \in \mathbb{Z}. \] Si \(F\) es absolutamente continua respecto a la medida de Lebesgue, entonces existe una densidad \(f(\omega) \geq 0\) tal que \(dF(\omega) = f(\omega) \, d\omega\). A esta función se le denomina densidad espectral de potencia (PSD) del proceso (Priestley 1981).

La densidad espectral \(f(\omega)\) cuantifica la contribución de cada frecuencia angular \(\omega\) a la varianza total del proceso. En particular, al evaluar en \(h=0\) se obtiene: \[ \gamma(0) = \operatorname{Var}(X_t) = \int_{-\pi}^{\pi} f(\omega) \, d\omega, \] lo que confirma que la varianza se distribuye a lo largo del espectro de frecuencias (Hamilton 1994).

5.4.2 Teorema de Wiener-Khinchin y dualidad temporal-frecuencial

La relación explícita entre la autocovarianza y la densidad espectral se formaliza mediante el teorema de Wiener-Khinchin, que para procesos de tiempo discreto establece:

Teorema 2.2 (Wiener-Khinchin discreto). Si \(\sum_{h=-\infty}^{\infty} |\gamma(h)| < \infty\), entonces la densidad espectral existe, es continua y está dada por la Transformada de Fourier discreta de la autocovarianza: \[ f(\omega) = \frac{1}{2\pi} \sum_{h=-\infty}^{\infty} \gamma(h) e^{-i h \omega}, \quad \omega \in [-\pi, \pi]. \] Recíprocamente, la autocovarianza se recupera mediante la transformada inversa: \[ \gamma(h) = \int_{-\pi}^{\pi} e^{i h \omega} f(\omega) \, d\omega. \] Esta dualidad permite interpretar la estructura de dependencia temporal como una superposición de componentes oscilatorias ortogonales, cada una ponderada por su densidad espectral. En el contexto meteorológico, picos pronunciados en \(f(\omega)\) suelen asociarse a ciclos diurnos, patrones sinópticos recurrentes o modos de oscilación climática de baja frecuencia, para más detalles (Shumway y Stoffer 2017).

5.4.3 Estimación espectral para series finitas

En la práctica operacional, solo se dispone de una trayectoria finita \(\{x_t\}_{t=1}^T\). El estimador no paramétrico más directo de la densidad espectral es el periodograma, definido mediante la Transformada Discreta de Fourier (DFT) de los datos centrados: \[ I_T(\omega) = \frac{1}{2\pi T} \left| \sum_{t=1}^T (x_t - \bar{x}) e^{-i t \omega} \right|^2, \quad \omega \in [-\pi, \pi]. \] Aunque el periodograma es asintóticamente insesgado (\(\mathbb{E}[I_T(\omega)] \to f(\omega)\) cuando \(T \to \infty\)), no es estadísticamente consistente: su varianza no converge a cero, incluso para \(T\) grande. Para obtener estimadores consistentes se requiere suavizado espectral, ya sea mediante ventanas espectrales (Daniell, Parzen, Bartlett) o mediante promediado sobre frecuencias adyacentes (Priestley 1981).

Alternativamente, los métodos paramétricos ajustan un modelo AR de orden finito a la serie y derivan \(f(\omega)\) analíticamente a partir de los coeficientes estimados y que se definirá más adelante Sección 5.6. Estos enfoques son particularmente útiles cuando la longitud muestral es limitada, como ocurre en ventanas de nowcasting de 7 días con muestreo cada 10 minutos.

5.4.4 Integración con el sistema de pronóstico

La representación espectral proporciona las bases matemáticas para dos componentes centrales de esta tesis:

Validación de estacionariedad: La inspección visual y cuantitativa de \(f(\omega)\) permite detectar tendencias no estacionarias o ciclos dominantes que deben eliminarse o modelarse explícitamente antes de aplicar métodos de correlación cruzada.
Análisis \(f\)-\(k\): La extensión de la Transformada de Fourier al dominio espacio-temporal \((s,t)\) permite estimar la velocidad de fase de estructuras atmosféricas mediante la pendiente de la fase espectral, metodología que se desarrolla en la Sección 5.5 y se aplica operativamente en la estimación de velocidad de advección Sección 7.3.

En conjunto, la dualidad Autocovarianza–Transformada de Fourier cierra el círculo teórico entre la descripción temporal de la dependencia y la representación frecuencial de la energía del proceso, habilitando herramientas matemáticas robustas para el pronóstico de corto horizonte bajo incertidumbre.

5.5 Análisis frecuencia-espacio (\(f\)-\(k\)) y velocidad de fase

El análisis espectral unidimensional desarrollado en la Sección 5.4 caracteriza la distribución de energía de un proceso estocástico únicamente en el dominio temporal. Sin embargo, los campos meteorológicos que interactúan con la trayectoria de un dron se propagan como estructuras espacio-temporales coherentes, cuya dinámica no puede capturarse adecuadamente sin considerar simultáneamente las dimensiones espacial y temporal. El análisis conjunto frecuencia-número de onda, conocido como análisis \(f\)-\(k\), constituye la extensión natural de la teoría espectral a procesos definidos sobre dominios discretos \((s,t)\) y permite estimar directamente la velocidad de fase de patrones dominantes (Hayashi 1973).

Sea \(\{X(s_i, t_n)\}\) un campo aleatorio observado en una malla discreta de \(N\) segmentos espaciales \(s_i = i\Delta s\) y \(T\) instantes temporales \(t_n = n\Delta t\). Bajo la hipótesis de estacionariedad débil en ambas dimensiones, se define la Transformada Discreta de Fourier Bidimensional (2D-DFT) como:

\[ \hat{X}(\omega_m, \kappa_j) = \sum_{n=0}^{T-1} \sum_{i=0}^{N-1} X(s_i, t_n) \, e^{-i(\omega_m t_n + \kappa_j s_i)}, \]

donde \(\omega_m = 2\pi m / (T\Delta t)\) y \(\kappa_j = 2\pi j / (N\Delta s)\) representan las frecuencias angulares temporales y espaciales, respectivamente, con \(m \in \{0,\dots,T-1\}\) y \(j \in \{0,\dots,N-1\}\). El espectro de potencia espacio-temporal se define como:

\[ S(\omega_m, \kappa_j) := \frac{1}{NT} \left| \hat{X}(\omega_m, \kappa_j) \right|^2. \tag{5.1}\]

Este objeto matemático cuantifica la energía asociada a cada par \((\omega, \kappa)\) y permite identificar modos de propagación dominantes como regiones de alta concentración espectral en el plano \(f\)-\(k\), ver (Brillinger 1981) para más detalles.

5.5.1 Modelo de onda viajera y relación de fase

Etapa 2 Para una estructura atmosférica que se propaga como una onda viajera unidimensional, el campo puede aproximarse localmente por:

\[ X(s,t) \approx A \cos(\kappa s - \omega t + \phi_0), \]

donde \(A\) es la amplitud, \(\kappa\) el número de onda espacial, \(\omega\) la frecuencia angular y \(\phi_0\) una fase inicial constante. La Transformada de Fourier temporal para un segmento fijo \(s_i\) produce un espectro complejo cuya fase satisface:

\[ \phi(s_i, \omega) = \arg\big(\hat{X}(s_i, \omega)\big) = \kappa(\omega) \, s_i + \phi_0(\omega). \]

Esta relación lineal entre fase y posición espacial constituye el fundamento del método de pendiente de fase para estimar la velocidad de propagación. Si la fase \(\phi(s_i, \omega)\) se desenvuelve adecuadamente (phase unwrapping), es decir, si se corrige para eliminar las discontinuidades artificiales introducidas por la periodicidad de la función argumento (que limita la fase al intervalo \((-\pi, \pi]\)), entonces se recupera una versión continua \(\phi_{\text{unwrapped}}(s_i, \omega)\) que refleja fielmente la variación lineal con la posición espacial. Bajo esta condición, el número de onda efectivo a frecuencia \(\omega\) se obtiene mediante regresión lineal:

\[ \hat{\kappa}(\omega) = \arg\min_{\alpha, \beta} \sum_{i=1}^{N} \big[ \phi_{\text{unwrapped}}(s_i, \omega) - (\alpha s_i + \beta) \big]^2. \]

La velocidad de fase asociada a dicha frecuencia se define como:

\[ v_p(\omega) := \frac{\omega}{\hat{\kappa}(\omega)}. \]

El signo de \(v_p\) indica la dirección de propagación relativa a la orientación espacial de la ruta: \(v_p > 0\) implica avance en sentido creciente de \(s\), mientras que \(v_p < 0\) indica retroceso. En el contexto de nowcasting advectivo, la convención se ajusta para que \(v > 0\) corresponda a la dirección dominante del flujo atmosférico, para más detalles puede consultarse (Emery y Thomson 2004).

5.5.2 Estimación robusta y consideraciones prácticas

La aplicación directa de \(v_p(\omega)\) presenta dos desafíos numéricos:

Desenvolvimiento de fase: La función \(\arg(\cdot)\) retorna valores en \((-\pi, \pi]\), generando discontinuidades artificiales de \(2\pi\). El desenvolvimiento consistente requiere agregar o restar múltiplos de \(2\pi\) para garantizar continuidad espacial, algoritmo que es estable siempre que \(|\kappa| \Delta s < \pi\) (criterio de Nyquist espacial) (Oppenheim y Schafer 2010).
Ponderación espectral: Las frecuencias con baja energía presentan fases dominadas por ruido de medición, produciendo estimaciones de \(\hat{\kappa}\) inestables. Se introduce un peso proporcional a la densidad espectral: \[ w(\omega) := \frac{S(\omega, \hat{\kappa}(\omega))}{\sum_{m} S(\omega_m, \hat{\kappa}(\omega_m))}, \] donde \(S\) esta definido en la ecuación Ecuación 5.1 y la velocidad final se calcula como la mediana ponderada de \(\{v_p(\omega_m)\}\) sobre una banda de interés fisico-meteorológico (Bendat y Piersol 2010).

La mediana se prefiere sobre la media aritmética por su robustez frente a valores atípicos causados por modos estacionarios (\(\kappa \approx 0\)), reflexiones topográficas o estructuras convectivas no coherentes con la advección dominante.

5.5.3 Integración con el sistema de pronóstico

El análisis \(f\)-\(k\) complementa la estimación por correlación cruzada (Sección 5.3) en regímenes donde la coherencia temporal entre segmentos adyacentes es baja pero existe estructura espectral clara. La velocidad estimada \(v = \operatorname{median}_{\omega}\{v_p(\omega)\}\) se incorpora directamente al operador de transporte advectivo discreto: \[ s_i^{\text{up}} := s_i - v H, \]

que constituye el núcleo del modelo híbrido de nowcasting desarrollado en la Sección 7.4. Esta cadena teórica, desde la transformada 2D hasta la regresión de fase, garantiza que el pronóstico respete la física de propagación observada, transformando observaciones espacio-temporales en parámetros operativos cuantificables y trazables.

5.6 Modelos autorregresivos AR(1) y persistencia temporal

Los modelos autorregresivos de orden uno constituyen la clase más simple y ampliamente utilizada de procesos estocásticos lineales. Su estructura recursiva captura la inercia temporal inherente a variables meteorológicas como la temperatura y la humedad relativa, permitiendo representar la persistencia observada en escalas de minutos a horas sin requerir parámetros adicionales. En el contexto de nowcasting, el modelo AR(1) proporciona el componente local del pronóstico híbrido descrito en la Sección 7.4, complementando el transporte advectivo con dinámica temporal intrínseca y garantizando estabilidad numérica frente a fluctuaciones de alta frecuencia, para más detalles (Brockwell y Davis 2016).

Definición 2.5 (Proceso AR(1)). Sea \(\{X_t\}_{t \in \mathbb{Z}}\) un proceso estocástico de tiempo discreto. Se dice que \(\{X_t\}\) sigue un proceso autorregresivo de orden uno, denotado AR(1), si satisface la ecuación en diferencias estocástica: \[ X_t = \phi X_{t-1} + \varepsilon_t, \] donde \(\phi \in \mathbb{R}\) es el coeficiente autorregresivo y \(\{\varepsilon_t\}\) es un proceso de ruido blanco, es decir, \(\mathbb{E}[\varepsilon_t] = 0\), \(\operatorname{Var}(\varepsilon_t) = \sigma_\varepsilon^2 < \infty\), y \(\operatorname{Cov}(\varepsilon_t, \varepsilon_s) = 0\) para \(t \neq s\) (Hamilton 1994). Cuando el proceso posee media no nula \(\mu\), la formulación se generaliza a \(X_t - \mu = \phi(X_{t-1} - \mu) + \varepsilon_t\).

5.6.1 Estacionariedad y momentos poblacionales

La existencia de una distribución estacionaria para el proceso AR(1) está condicionada estrictamente por la magnitud del parámetro \(\phi\).

Proposición 2.3 (Condiciones de estacionariedad y representación MA(\(\infty\))). El proceso AR(1) es débilmente estacionario si y solo si \(|\phi| < 1\). Bajo esta condición, admite la representación de media móvil infinita: \[ X_t = \sum_{j=0}^\infty \phi^j \varepsilon_{t-j}, \] Según Brockwell y Davis (2016), esta representación converge en media cuadrática (\(L^2\)), ya que \(\sum_{j=0}^\infty |\phi|^j = (1-|\phi|)^{-1} < \infty\) .

A partir de esta representación se obtienen directamente los momentos poblacionales:

Media: \(\mathbb{E}[X_t] = 0\) (para el proceso centrado).
Varianza: \(\gamma(0) = \operatorname{Var}(X_t) = \sigma_\varepsilon^2 \sum_{j=0}^\infty \phi^{2j} = \dfrac{\sigma_\varepsilon^2}{1-\phi^2}\).
Autocovarianza: Para \(h \in \mathbb{Z}\), se cumple \(\gamma(h) = \mathbb{E}[X_t X_{t-h}] = \phi^{|h|} \gamma(0)\).

La estructura exponencial de la autocovarianza implica que la dependencia temporal decae monótonamente con el desfase \(h\). El parámetro \(\phi\) cuantifica directamente la persistencia temporal: valores cercanos a \(1\) indican alta inercia (variabilidad lenta), mientras que \(\phi \approx 0\) corresponde a comportamiento cercano al ruido blanco, para más detalles (Shumway y Stoffer 2017).

5.6.2 Pronóstico multipaso y decaimiento de la persistencia

Una de las propiedades operativas más relevantes del modelo AR(1) es la forma cerrada de sus predictores lineales óptimos. Dada la información disponible hasta el instante \(t\), \(\mathcal{F}_t = \sigma(\{X_s : s \leq t\})\), el pronóstico a \(k\) pasos adelante se obtiene iterando la ecuación del modelo y utilizando \(\mathbb{E}[\varepsilon_{t+j} \mid \mathcal{F}_t] = 0\) para \(j \geq 1\): \[ \hat{X}_{t+k \mid t} = \mathbb{E}[X_{t+k} \mid \mathcal{F}_t] = \phi^k X_t. \] Este resultado muestra explícitamente cómo la influencia de la observación actual decae exponencialmente con el horizonte de pronóstico \(k\). En el límite \(k \to \infty\), \(\hat{X}_{t+k \mid t} \to 0\), reflejando el retorno a la media bajo condiciones estacionarias. Para variables no centradas con media \(\mu\), el pronóstico converge a \(\mu\): \[ \hat{X}_{t+k \mid t} = \mu + \phi^k (X_t - \mu). \]

En la implementación del sistema de nowcasting Sección 7.4, esta expresión se utiliza directamente para calcular el componente autorregresivo: \[ y_i^{\text{AR}}(t+H) = a_i^{n} y_i(t), \quad n = H/\Delta t, \] donde \(a_i\) es la estimación muestral de \(\phi\) para el segmento espacial \(i\).

5.6.3 Estimación por mínimos cuadrados ordinarios

En la práctica, \(\phi\) y \(\sigma_\varepsilon^2\) son desconocidos y deben estimarse a partir de una trayectoria finita \(\{x_t\}_{t=1}^T\). El estimador por Mínimos Cuadrados Ordinarios (MCO) minimiza la suma de residuos cuadráticos: \[ \hat{\phi} = \arg\min_{\phi} \sum_{t=2}^T (x_t - \phi x_{t-1})^2 = \frac{\sum_{t=2}^T x_t x_{t-1}}{\sum_{t=1}^{T-1} x_{t-1}^2}. \] Bajo la hipótesis de estacionariedad y ruido blanco, \(\hat{\phi}\) es es un estimador estadísticamente consistente y asintóticamente normal: \[ \sqrt{T}(\hat{\phi} - \phi) \xrightarrow{d} \mathcal{N}\left(0, 1-\phi^2\right), \quad T \to \infty. \] Para series meteorológicas de longitud limitada, la varianza de \(\hat{\phi}\) es muy grande cuando \(|\phi|\) se aproxima a \(1\) (raíz unitaria cercana). Por esta razón, en segmentos con escasez de observaciones se aplica regularización mediante truncamiento o sustitución por la mediana espacial de coeficientes válidos, garantizando estabilidad operativa (Box et al. 2015).

5.6.4 Integración con el sistema de decisión

El modelo AR(1) no se emplea de forma aislada, sino como componente estructural dentro del esquema híbrido de nowcasting. Su contribución es particularmente crítica para:

Temperatura del aire: Donde la inercia termodinámica justifica \(\phi \approx 0.95\), reflejando alta coherencia temporal.
Humedad relativa: Con persistencia moderada (\(\phi \approx 0.85\)), capturando la dinámica higroscópica sin sobreajuste.
Modelo de respaldo: Cuando fallan los métodos advectivos, el AR(1) regularizado actúa como fallback conservador, evitando extrapolaciones físicamente inconsistentes.

La combinación explícita de \(\phi^k\) (decaimiento autorregresivo) con \(s_i - vH\) (transporte espacial) produce un predictor que balancea memoria local y coherencia atmosférica, cumpliendo con los requisitos de trazabilidad matemática y robustez operacional exigidos en la logística humanitaria.

5.7 Métodos de remuestreo: Block Bootstrap temporal

El método bootstrap clásico, propuesto por Efron, constituye una herramienta poderosa para aproximar distribuciones muestrales bajo la hipótesis de independencia e idéntica distribución (i.i.d.) (Efron 1979). Sin embargo, en el análisis de series meteorológicas y en la cuantificación de incertidumbre de pronósticos de corto horizonte, esta suposición es estructuralmente inválida: las observaciones presentan dependencia serial, ciclos diurnos y memoria termodinámica que deben preservarse en cualquier procedimiento de remuestreo. El bootstrap de bloques (block bootstrap) surge como la extensión natural que mantiene la estructura de correlación temporal al remuestrear segmentos contiguos en lugar de observaciones aisladas, para más detalles (Künsch 1989).

5.7.1 Formulación matemática del Moving Block Bootstrap (MBB)

Sea \(\{X_t\}_{t=1}^T\) una trayectoria observada de un proceso estacionario débilmente dependiente. Para una longitud de bloque fija \(L \in \mathbb{N}\) con \(L < T\), se definen los bloques superpuestos: \[ B_j = \big(X_j, X_{j+1}, \dots, X_{j+L-1}\big), \quad j = 1, 2, \dots, T-L+1. \] Cada bloque \(B_j\) conserva la estructura de dependencia local de orden \(L\). El procedimiento de remuestreo se define como sigue:

Selección aleatoria: Se extraen \(K = \lfloor T/L \rfloor\) bloques con reemplazo de manera uniforme e independiente del conjunto \(\{B_1, \dots, B_{T-L+1}\}\), obteniendo índices \(\{j_1^*, j_2^*, \dots, j_K^*\}\).
Reconstrucción: Se concatena la secuencia de bloques seleccionados para formar la réplica bootstrap: \[ \{X_t^*\}_{t=1}^{KL} = B_{j_1^*} \oplus B_{j_2^*} \oplus \dots \oplus B_{j_K^*}, \] donde \(\oplus\) denota la operación de concatenación temporal.
Cálculo del estadístico: Sobre la serie bootstrap se recalcula el estimador de interés \(\hat{\theta}^* = s(X_1^*, \dots, X_{KL}^*)\), generando así una distribución empírica condicional \(\hat{G}_n(x) = \mathbb{P}^*(\hat{\theta}^* \leq x)\) (Liu y Singh 1992).

5.7.1.1 Definición de la operación de concatenación

La operación \(\oplus\) constituye el elemento estructural fundamental del procedimiento MBB. A continuación se formaliza su definición y propiedades matemáticas:

Definición 4.1 (Concatenación de bloques temporales). Sean dos bloques temporales \(B_a, B_b \in \mathbb{R}^L\) definidos como: \[ B_a = \big(x_1^{(a)}, x_2^{(a)}, \dots, x_L^{(a)}\big), \quad B_b = \big(x_1^{(b)}, x_2^{(b)}, \dots, x_L^{(b)}\big). \] La operación de concatenación \(\oplus: \mathbb{R}^L \times \mathbb{R}^L \to \mathbb{R}^{2L}\) se define como: \[ B_a \oplus B_b = \big(x_1^{(a)}, \dots, x_L^{(a)}, x_1^{(b)}, \dots, x_L^{(b)}\big). \]

Para una secuencia de \(K\) bloques \(\{B_{j_k^*}\}_{k=1}^K\), la concatenación múltiple se define recursivamente: \[ \bigoplus_{k=1}^K B_{j_k^*} = B_{j_1^*} \oplus \left(\bigoplus_{k=2}^K B_{j_k^*}\right), \] produciendo un vector en \(\mathbb{R}^{KL}\).

Proposición 4.1 (Propiedades algebraicas de \(\oplus\)). La operación de concatenación satisface las siguientes propiedades:

Cerradura: Para todo \(B_a \in \mathbb{R}^{L_a}\), \(B_b \in \mathbb{R}^{L_b}\), se cumple que \(B_a \oplus B_b \in \mathbb{R}^{L_a + L_b}\).
Asociatividad: Para todo \(B_a, B_b, B_c\), se verifica: \[ (B_a \oplus B_b) \oplus B_c = B_a \oplus (B_b \oplus B_c). \]
No conmutatividad: En general, \(B_a \oplus B_b \neq B_b \oplus B_a\), ya que el orden temporal de las observaciones es preservado.
Elemento neutro: Existe un bloque vacío \(\emptyset\) tal que \(B \oplus \emptyset = \emptyset \oplus B = B\) para todo \(B\).
Aditividad de longitud: Si \(\ell(B)\) denota la longitud del bloque \(B\), entonces: \[ \ell(B_a \oplus B_b) = \ell(B_a) + \ell(B_b). \]

Demostración. Las propiedades 1, 2, 4 y 5 se siguen directamente de la definición constructiva de la concatenación como apilamiento secuencial de componentes. La propiedad 3 es consecuencia de que el orden temporal codifica información de dependencia serial; intercambiar el orden de los bloques altera la estructura temporal de la serie resultante. \(\square\)

5.7.1.2 Representación matricial de la concatenación

Alternativamente, la operación \(\oplus\) puede expresarse mediante notación matricial. Si cada bloque se representa como un vector columna \(B_j \in \mathbb{R}^{L \times 1}\), entonces: \[ B_{j_1^*} \oplus B_{j_2^*} \oplus \dots \oplus B_{j_K^*} = \begin{pmatrix} B_{j_1^*} \\ B_{j_2^*} \\ \vdots \\ B_{j_K^*} \end{pmatrix} \in \mathbb{R}^{KL \times 1}. \]

Esta representación facilita la implementación computacional mediante operaciones de apilamiento vertical (vertical stacking) disponibles en entornos numéricos estándar (e.g., numpy.vstack, rbind).

5.7.1.3 Ejemplo ilustrativo

Considere una serie temporal observada de longitud \(T = 10\): \[ \{X_t\}_{t=1}^{10} = (3, 5, 2, 8, 1, 9, 4, 7, 6, 2). \]

Para una longitud de bloque \(L = 3\), los bloques superpuestos son: \[ \begin{aligned} B_1 &= (3, 5, 2), & B_2 &= (5, 2, 8), & B_3 &= (2, 8, 1), \\ B_4 &= (8, 1, 9), & B_5 &= (1, 9, 4), & B_6 &= (9, 4, 7), \\ B_7 &= (4, 7, 6), & B_8 &= (7, 6, 2). \end{aligned} \]

Suponga que el muestreo aleatorio con reemplazo selecciona los índices \(\{j_1^*, j_2^*, j_3^*\} = \{2, 5, 1\}\). La réplica bootstrap se construye como: \[ \begin{aligned} \{X_t^*\}_{t=1}^{9} &= B_2 \oplus B_5 \oplus B_1 \\ &= (5, 2, 8) \oplus (1, 9, 4) \oplus (3, 5, 2) \\ &= (5, 2, 8, 1, 9, 4, 3, 5, 2). \end{aligned} \]

Este ejemplo ilustra cómo la concatenación preserva la estructura de dependencia intra-bloque mientras introduce discontinuidades controladas en las uniones inter-bloque.

5.7.1.4 Consideraciones sobre discontinuidades en las uniones

Una propiedad inherente del MBB es la posible aparición de discontinuidades artificiales en los puntos de unión entre bloques consecutivos. Formalmente, para dos bloques adyacentes \(B_a\) y \(B_b\) en la réplica bootstrap, el salto en la unión se cuantifica como: \[ \Delta_{a,b} = \left| x_L^{(a)} - x_1^{(b)} \right|. \]

Estas discontinuidades son el precio a pagar por preservar la dependencia serial intra-bloque. Sin embargo, bajo las siguientes condiciones, su impacto en los estadísticos de interés es asintóticamente despreciable (Künsch 1989):

Longitud de bloque creciente: \(L \to \infty\) cuando \(T \to \infty\), con \(L/T \to 0\).
Estacionariedad débil: El proceso subyacente satisface condiciones de mezcla que garantizan decaimiento de correlaciones a largas distancias temporales.
Número suficiente de bloques: \(K \to \infty\) para garantizar convergencia de la distribución empírica bootstrap.

En el contexto de esta tesis, con \(T \approx 1008\) observaciones (7 días con muestreo cada 10 minutos) y \(L \in \{6, 9, 12\}\) bloques de observaciones, las condiciones anteriores se satisfacen empíricamente, validando el uso del MBB para la cuantificación de incertidumbre en pronósticos meteorológicos de corto plazo.

5.7.2 Consistencia asintótica y condiciones de dependencia

La validez teórica del MBB no requiere supuestos gaussianos, sino condiciones de decaimiento de la dependencia. Sea \(\alpha(k)\) el coeficiente de mezcla fuerte (strong mixing) del proceso \(\{X_t\}\): \[ \alpha(k) := \sup_{A \in \mathcal{F}_{-\infty}^0, \, B \in \mathcal{F}_k^\infty} \left| \mathbb{P}(A \cap B) - \mathbb{P}(A)\mathbb{P}(B) \right|. \] Bajo la condición \(\sum_{k=1}^\infty \alpha(k)^{\delta/(2+\delta)} < \infty\) para algún \(\delta > 0\), Künsch demostró que el MBB aproxima consistentemente la distribución límite de medias muestrales y estimadores suaves (Künsch 1989). Formalmente, si \(L \to \infty\) y \(L/T \to 0\) cuando \(T \to \infty\), entonces: \[ \sup_{x \in \mathbb{R}} \left| \mathbb{P}^*\left( \sqrt{K}(\hat{\theta}^* - \hat{\theta}) \leq x \right) - \mathbb{P}\left( \sqrt{T}(\hat{\theta} - \theta) \leq x \right) \right| \xrightarrow{p} 0. \] Este resultado garantiza que los intervalos de confianza construidos a partir de cuantiles empíricos \(\{q_\alpha^*\}\) son asintóticamente válidos, incluso para procesos no gaussianos y no lineales comunes en meteorología.

5.7.2.1 Definición de las σ-álgebras de pasado y futuro

Para completar la formulación teórica del coeficiente de mezcla fuerte, es necesario especificar la estructura de información representada por las σ-álgebras \(\mathcal{F}_{-\infty}^0\) y \(\mathcal{F}_k^\infty\). Sea \(\{X_t\}_{t \in \mathbb{Z}}\) el proceso estocástico definido sobre un espacio de probabilidad \((\Omega, \mathcal{F}, \mathbb{P})\).

Definición 4.2 (σ-álgebra generada por un subconjunto de variables). Para cualquier conjunto de índices \(I \subseteq \mathbb{Z}\), denotamos por \(\mathcal{F}_I\) a la σ-álgebra generada por las variables aleatorias \(\{X_t : t \in I\}\), definida como la mínima σ-álgebra que hace medibles a todas las variables en dicho conjunto: \[ \mathcal{F}_I = \sigma\left(\{X_t : t \in I\}\right) = \sigma\left(\bigcup_{t \in I} X_t^{-1}(\mathcal{B}(\mathbb{R}))\right), \] donde \(\mathcal{B}(\mathbb{R})\) denota la σ-álgebra de Borel sobre los reales.

Bajo esta notación, las σ-álgebras que aparecen en el coeficiente de mezcla se definen específicamente como:

σ-álgebra del pasado (\(\mathcal{F}_{-\infty}^0\)): Representa toda la información histórica disponible hasta el tiempo \(t=0\): \[ \mathcal{F}_{-\infty}^0 := \sigma\left(\dots, X_{-1}, X_0\right) = \sigma\left(\{X_t : t \leq 0\}\right). \]
σ-álgebra del futuro (\(\mathcal{F}_k^\infty\)): Representa la información generada por el proceso desde el tiempo \(t=k\) en adelante: \[ \mathcal{F}_k^\infty := \sigma\left(X_k, X_{k+1}, \dots\right) = \sigma\left(\{X_t : t \geq k\}\right). \]

Interpretación probabilística: El coeficiente \(\alpha(k)\) cuantifica la dependencia máxima entre cualquier evento \(A\) determinado exclusivamente por el pasado remoto y cualquier evento \(B\) determinado exclusivamente por el futuro distante separado por un lag \(k\). La condición de mezcla fuerte \(\alpha(k) \to 0\) cuando \(k \to \infty\) asegura que la influencia del pasado sobre el futuro se desvanece asintóticamente, permitiendo que el procedimiento de block bootstrap aproxime correctamente la distribución muestral aun en presencia de dependencia serial, para más detalles consultar (Politis y Romano 1994a).

5.7.3 Selección de la longitud del bloque \(L\)

La elección de \(L\) determina el equilibrio entre sesgo y varianza del procedimiento: Si \(L\) es demasiado pequeño, la estructura de dependencia se subestima y el bootstrap se comporta como i.i.d., produciendo intervalos demasiado estrechos. Si \(L\) es demasiado grande, se reducen el número de bloques disponibles (\(K \approx T/L\)), incrementando la varianza muestral del estimador bootstrap.

Bajo condiciones de regularidad, la longitud óptima minimiza el error cuadrático medio del estimador de varianza bootstrap y escala como \(L_{\text{opt}} \propto T^{1/3}\) para medias muestrales, para más detalles de este resultado, consultar (Hall, Horowitz, y Jing 1995). En la práctica operacional, sin embargo, la selección de \(L\) se guía por escalas físicas del sistema atmosférico (ej. persistencia térmica, tiempo de correlación del viento), lo que justifica longitudes adaptadas por variable, como se detalla en la Sección 7.8.

5.7.4 Variante estacionaria y consideraciones numéricas

El MBB con bloques fijos introduce discontinuidades artificiales en los puntos de unión entre bloques, lo que puede distorsionar estimadores de alta frecuencia. Para preservar estrictamente la estacionariedad, Politis y Romano propusieron el bootstrap estacionario, donde la longitud de cada bloque se muestrea de una distribución geométrica con parámetro \(p = 1/L\), garantizando que la serie reconstruida sea estrictamente estacionaria bajo la medida bootstrap. Esta afirmación puede consultarse en (Politis y Romano 1994b).

En implementaciones computacionales para nowcasting meteorológico, el MBB estándar suele preferirse por su simplicidad, determinismo en la longitud de la réplica y facilidad de paralelización. La elección de \(L\) se fija por validación cruzada temporal o por criterios de escala física, y el número de réplicas \(B\) se selecciona típicamente entre 100 y 500 para estabilizar cuantiles extremos (\(p_{05}, p_{95}\)) con error de Monte Carlo menor al \(1\%\), más detalles de esta técnica, consultar (Lahiri 2003).

5.7.5 Integración con la cuantificación de incertidumbre operativa

En el marco de esta tesis, el block bootstrap se emplea para generar distribuciones empíricas de pronósticos \(\{\hat{y}_i^{(b)}(t+H)\}_{b=1}^B\) por segmento espacial y variable meteorológica. A partir de estas distribuciones se extraen los percentiles críticos: \[ \text{p05}_i = q_{0.05}^*, \quad \text{p50}_i = q_{0.50}^*, \quad \text{p95}_i = q_{0.95}^*, \] los cuales alimentan directamente la función de decisión binaria desarrollada en la Sección 7.9. El uso del percentil 95 como cota conservadora \(\tilde{y}_i = \text{p95}_i\) implementa una política de tolerancia cero que cuantifica explícitamente el riesgo de violación de umbrales técnicos, cerrando el ciclo entre teoría de procesos estocásticos, remuestreo dependiente y toma de decisiones bajo incertidumbre.

5.8 Teoría de decisión bajo incertidumbre y regiones factibles

La transición de pronósticos meteorológicos cuantitativos a recomendaciones operativas binarias requiere un marco formal que estructure racionalmente la elección entre alternativas bajo condiciones no deterministas. En contextos de logística humanitaria y operaciones aéreas, el estado futuro del sistema atmosférico no es observable de antemano; solo se dispone de distribuciones predictivas o intervalos de confianza derivados de modelos estocásticos. La teoría de decisión bajo incertidumbre proporciona el lenguaje matemático para transformar información probabilística en acciones discretas, garantizando coherencia lógica, trazabilidad y alineación con los objetivos de seguridad operacional, para más detalles sobre teoría de la decisión véase (Berger 1985).

5.8.1 Formulación del problema de decisión

Un problema de decisión se define mediante la tupla \((\Theta, \mathcal{A}, \mathcal{L})\), donde:

\(\Theta\) es el espacio de estados de la naturaleza, que en este contexto corresponde al vector de condiciones meteorológicas reales futuras \(\boldsymbol{\theta} = (V, T, H, R)^\top \in \mathbb{R}^4\).
\(\mathcal{A} = \{a_1, a_2\}\) es el conjunto de acciones factibles, con \(a_1 = \text{Puede\_Volar}\) y \(a_2 = \text{No\_Puede\_Volar}\).
\(\mathcal{L}: \mathcal{A} \times \Theta \to \mathbb{R}\) es la función de pérdida, que cuantifica el costo asociado a elegir la acción \(a\) cuando el estado real es \(\boldsymbol{\theta}\).

Bajo incertidumbre, \(\boldsymbol{\theta}\) es desconocido en el momento de la decisión. En lugar de conocer el estado exacto, se dispone del conjunto de datos observados \(\mathcal{D}\) , que permite construir una distribución predictiva posterior \(\pi(\boldsymbol{\theta} \mid \mathcal{D})\) o, en enfoques no paramétricos, de una familia de conjuntos de credibilidad derivados de procedimientos de remuestreo. Más detalles de esta distribución, consultar (French 1988).

5.8.2 Criterios de decisión clásicos y conservadurismo operativo

Cuando la distribución de \(\boldsymbol{\theta}\) es incierta o se prefiere un enfoque robusto frente a errores de modelado, la investigación de operaciones establece criterios de decisión que no dependen de supuestos distribucionales completos. Entre los más utilizados se encuentran:

Criterio de Wald (Maximin): Selecciona la acción que minimiza la máxima pérdida posible: \[ a^* = \arg\min_{a \in \mathcal{A}} \left\{ \sup_{\boldsymbol{\theta} \in \Theta} \mathcal{L}(a, \boldsymbol{\theta}) \right\}. \] Este criterio es inherentemente conservador y resulta adecuado cuando el costo de un error por acción (ej. volar en condiciones adversas) es asimétrico y potencialmente catastrófico. En logística y sistemas críticos, Taha enfatiza su aplicación para decisiones donde la tolerancia al fallo es mínima (Taha 2017).
Criterio de Savage (Minimax Regret): Minimiza el máximo arrepentimiento o costo de oportunidad respecto a la decisión óptima ex-post: \[ a^* = \arg\min_{a \in \mathcal{A}} \left\{ \sup_{\boldsymbol{\theta} \in \Theta} \left[ \mathcal{L}(a, \boldsymbol{\theta}) - \min_{a' \in \mathcal{A}} \mathcal{L}(a', \boldsymbol{\theta}) \right] \right\}. \]
Criterio de Hurwicz: Introduce un coeficiente de optimismo \(\alpha \in [0,1]\) que pondera el mejor y peor escenario: \[ a^* = \arg\min_{a \in \mathcal{A}} \left\{ \alpha \inf_{\boldsymbol{\theta}} \mathcal{L}(a, \boldsymbol{\theta}) + (1-\alpha) \sup_{\boldsymbol{\theta}} \mathcal{L}(a, \boldsymbol{\theta}) \right\}. \]

En operaciones con drones de carga humanitaria, la asimetría de riesgos justifica la adopción de una política cercana al criterio de Wald, donde la seguridad prevalece sobre la eficiencia inmediata.

5.8.3 Regiones factibles y funciones indicadoras de viabilidad

En problemas con restricciones técnicas explícitas, el espacio de decisiones se acota mediante una región factible \(\mathcal{F} \subset \Theta\), definida como el conjunto de estados que satisfacen simultáneamente todos los límites operacionales del sistema: \[ \mathcal{F} = \bigcap_{j=1}^{m} \left\{ \boldsymbol{\theta} \in \Theta : g_j(\boldsymbol{\theta}) \leq u_j \right\}, \] donde \(g_j: \Theta \to \mathbb{R}\) son funciones de restricción (ej. velocidad del viento, temperatura, humedad, precipitación) y \(u_j \in \mathbb{R}\) son umbrales técnicos máximos o mínimos. La viabilidad operacional se determina mediante la función indicadora: \[ \mathbb{I}_{\mathcal{F}}(\boldsymbol{\theta}) = \begin{cases} 1, & \text{si } \boldsymbol{\theta} \in \mathcal{F}, \\ 0, & \text{en caso contrario}. \end{cases} \] Esta formulación transforma el problema de decisión en una evaluación de pertenencia a la región factible, lo cual computacionalmente se resuelve mediante evaluaciones booleanas secuenciales.

5.8.4 Integración con incertidumbre predictiva y política de tolerancia cero

Cuando \(\boldsymbol{\theta}\) es reemplazado por un pronóstico estocástico \(\hat{\boldsymbol{\theta}}\) con distribución empírica \(\mathcal{D}_{\text{boot}}\), la pertenencia a \(\mathcal{F}\) debe evaluarse de manera robusta. En lugar de usar la mediana o el valor esperado, se adopta un estadístico conservador \(\tilde{\boldsymbol{\theta}}\) que controla la probabilidad de violación de restricciones: \[ \tilde{\theta}_j = \inf \left\{ x : \mathbb{P}(\hat{\theta}_j \leq x) \geq 1 - \alpha \right\}, \quad \alpha = 0.05. \] La decisión final se obtiene evaluando \(\mathbb{I}_{\mathcal{F}}(\tilde{\boldsymbol{\theta}})\), lo que garantiza que la probabilidad de operar fuera de la región factible no exceda el \(5\%\) bajo el modelo de remuestreo. Esta aproximación implementa de forma práctica un criterio de decisión robusto que alinea la teoría de probabilidad con los protocolos de seguridad aeronáutica, donde la tolerancia a fallos es mínima y las consecuencias de una decisión errónea son irreversibles (Taha 2017).

5.8.5 Conexión con el sistema de decisión del Capítulo 4

La estructura teórica presentada en esta sección constituye la base matemática de la función de decisión binaria \(\mathbb{I}_{\text{vuelo}}\) desarrollada en la Sección 7.9. Los umbrales técnicos \(u_j\) se derivan de las especificaciones del dron, la región factible \(\mathcal{F}\) se construye como intersección de restricciones univariadas, y el uso del percentil 95 (\(\alpha=0.05\)) materializa el conservadurismo del criterio de Wald en un contexto estocástico. Esta formalización asegura que la recomendación operacional no sea un heurístico empírico, sino una regla de decisión rigurosa, trazable y alineada con los principios de la investigación de operaciones aplicada a sistemas críticos.

Bartlett, M. S. 1946. «On the theoretical specification of sampling properties of autocorrelated time series». Journal of the Royal Statistical Society: Series B (Methodological) 8 (1-2): 27-41. https://doi.org/10.2307/2983611.

Bendat, Julius S., y Allan G. Piersol. 2010. Random Data: Analysis and Measurement Procedures. 4.ª ed. Hoboken: Wiley.

Berger, James O. 1985. Statistical Decision Theory and Bayesian Analysis. 2nd ed. Springer Series en Statistics. New York, NY, USA: Springer.

Box, George E. P., Gwilym M. Jenkins, Gregory C. Reinsel, y Greta M. Ljung. 2015. Time Series Analysis: Forecasting and Control. 5.ª ed. Hoboken: Wiley.

Brillinger, David R. 1981. Time Series: Data Analysis and Theory. Revised. Philadelphia: SIAM. https://doi.org/10.2307/1267927.

Brockwell, Peter J., y Richard A. Davis. 2016. Introduction to Time Series and Forecasting. 3rd ed. Springer Texts en Statistics. Cham, Switzerland: Springer.

Durrett, Rick. 2019. Probability: Theory and Examples. 5.ª ed. Cambridge: Cambridge University Press.

Efron, Bradley. 1979. «Bootstrap methods: Another look at the jackknife». The Annals of Statistics 7 (1): 1-26. https://doi.org/10.1214/aos/1176344552.

Emery, William J., y Richard E. Thomson. 2004. Data Analysis Methods in Physical Oceanography. 2.ª ed. Amsterdam: Elsevier. https://doi.org/10.1016/B978-0-12-387782-6.00005-3.

French, Simon. 1988. Decision Theory: An Introduction to the Mathematics of Rationality. Chichester: Ellis Horwood / Wiley.

Hall, Peter, Joel L. Horowitz, y Bing-Yi Jing. 1995. «On blocking rules for the bootstrap with dependent data». Biometrika 82 (3): 561-74. https://doi.org/10.1093/biomet/82.3.561.

Hamilton, James D. 1994. Time Series Analysis. Princeton: Princeton University Press.

Hayashi, Takio. 1973. «A Method of Estimating the Horizontal Phase Velocity of Atmospheric Waves from the Phase Difference of Spectral Components». Journal of the Meteorological Society of Japan 51 (4): 299-308. https://doi.org/10.2151/jmsj1965.51.4_299.

Künsch, Hans R. 1989. «The Jackknife and the Bootstrap for General Stationary Observations». The Annals of Statistics 17 (3): 1217-41. https://doi.org/10.1214/aos/1176347265.

Lahiri, Soumendra N. 2003. Resampling Methods for Dependent Data. New York: Springer.

Liu, Regina Y., y Kesar Singh. 1992. «Moving block jackknife and block bootstrap for dependent data». Exploring the Limits of Bootstrap, 225-48.

Oppenheim, Alan V., y Ronald W. Schafer. 2010. Discrete-Time Signal Processing. 3rd ed. Upper Saddle River, NJ, USA: Prentice Hall.

Politis, Dimitris N., y Joseph P. Romano. 1994a. «The stationary bootstrap». Journal of the American Statistical Association 89 (428): 1303-13. https://doi.org/10.1080/01621459.1994.10476870.

———. 1994b. «The Stationary Bootstrap». Journal of the American Statistical Association 89 (428): 1303-13. https://doi.org/10.1080/01621459.1994.10476870.

Priestley, Maurice B. 1981. Spectral Analysis and Time Series. Vol. 1–2. London, UK: Academic Press.

Rudin, Walter. 1987. Real and Complex Analysis. 3.ª ed. McGraw-Hill.

Shumway, Robert H., y David S. Stoffer. 2017. Time Series Analysis and Its Applications: With R Examples. 4.ª ed. Cham: Springer.

Taha, Hamdy A. 2017. Operations Research: An Introduction. 10th ed. London, UK: Pearson.

Williams, David. 1991. Probability with Martingales. Cambridge University Press.