Skip to article frontmatterSkip to article content

Introducción a ARCO: Datos Listos para Análisis

Introducción a ARCO: Datos Listos para Análisis


📚 Descripción general

En este cuadernillo aprenderás sobre ARCO (Analysis-Ready Cloud-Optimized), un paradigma moderno para almacenar y acceder datos científicos:

  1. Datos listos para análisis - Por qué importa tener datos preprocesados

  2. Formatos optimizados para la nube - Acceso eficiente a grandes volúmenes

  3. Principios FAIR - Datos científicos reutilizables y citables

  4. Panorama de formatos ARCO - Zarr, Parquet, y otros

Este cuadernillo es conceptual. En el siguiente (1.8) aprenderás Zarr en detalle con ejemplos prácticos.

✅ Requisitos previos

ConceptoImportanciaNotas
NumPyNecesarioArrays multidimensionales
XarrayNecesarioDatos etiquetados
NetCDF/GRIBÚtilFormatos tradicionales

⏱️ Tiempo estimado de aprendizaje:

  • 📖 Lectura: 20–25 minutos

✍️ Formato: conceptual

1. Datos Listos para Análisis (Analysis-Ready Data)


¿Qué significa “Listo para Análisis”?

Los datos listos para análisis son conjuntos de datos que han sido preparados y estructurados para ser utilizables inmediatamente en análisis científico. Estudios demuestran que los científicos de datos típicamente dedican ~80% de su tiempo preparando y limpiando datos en lugar de hacer análisis real.

Cortesía: Crowdflower data science report, 2016

Figure 1:Cortesía: Crowdflower data science report, 2016

Los datos listos para análisis resuelven esto proporcionando:

Datos limpios y preprocesados - Listos para usar sin necesidad de limpieza adicional
Metadatos ricos - Documentación clara sobre qué contienen los datos
Formatos estandarizados - Compatibles con herramientas de análisis modernas
Control de calidad - Garantía de confiabilidad de los datos

¡Esto significa más tiempo para ciencia y hacer descubrimientos! 🚀

Beneficios clave de los datos listos para análisis

AspectoDatos tradicionalesDatos listos para análisis
OrganizaciónArchivos dispersosConjuntos de datos estructurados
LimpiezaRequiere horas de preprocesamientoPre-procesados y limpios
MetadatosEscasos o ausentesRicos e incluidos
DescubrimientoDifícil de encontrarCatalogados y encontrables
Uso inmediatoNoSí - análisis inmediato
Tiempo para ciencia20%80%

2. Formatos Optimizados para la Nube (Cloud-Optimized)


Los formatos tradicionales de datos radar (como archivos NetCDF individuales) funcionan bien en computadoras locales pero son lentos e ineficientes en entornos en la nube. Los formatos optimizados para la nube como Zarr están diseñados específicamente para acceso rápido y eficiente desde almacenamiento en nube.

Cortesía: Closed Platforms vs. Open Architectures for Cloud-Native Earth System Analytics

Figure 2:Cortesía: Closed Platforms vs. Open Architectures for Cloud-Native Earth System Analytics

¿Por qué importa la optimización para nube?

🚀 Acceso paralelo - Múltiples usuarios pueden leer diferentes partes simultáneamente
📦 Almacenamiento fragmentado - Solo descarga los datos que necesitas
Transmisión rápida - No necesitas descargar archivos completos
📈 Procesamiento escalable - Maneja conjuntos de datos demasiado grandes para computadoras locales

Comparación: Almacenamiento Monolítico vs Fragmentado

Datos Monolíticos Vs Fragmentados. Imagen cortesía: Zarr illustrations

Figure 3:Datos Monolíticos Vs Fragmentados. Imagen cortesía: Zarr illustrations

Almacenamiento Monolítico (NetCDF tradicional):

  • Un solo archivo grande

  • Debes descargar todo el archivo para acceder a cualquier parte

  • Lento para acceso remoto

Almacenamiento Fragmentado (Zarr):

  • Datos divididos en fragmentos pequeños (chunks)

  • Acceso selectivo - solo descargas lo que necesitas

  • Rápido para acceso remoto y paralelo

3. Principios FAIR


Los datos FAIR siguen principios que hacen que los datos científicos sean más valiosos y reutilizables:

  • Findable (Encontrable) - Fácil de descubrir mediante catálogos y búsquedas

  • Accessible (Accesible) - Disponible a través de protocolos estándar

  • Interoperable (Interoperable) - Funciona con diferentes herramientas y sistemas

  • Reusable (Reutilizable) - Bien documentado para uso futuro por otros

Beneficios de los datos FAIR

Ciclo de reuso y colaboración de datos FAIR. Imagen cortesía: Zarr illustrations

Figure 4:Ciclo de reuso y colaboración de datos FAIR. Imagen cortesía: Zarr illustrations

Los datos FAIR benefician a todos:

👩‍🔬 Productores de datos - Reciben citaciones cuando otros usan sus conjuntos de datos
👨‍💻 Consumidores de datos - Acceden a datos interesantes que de otro modo no estarían disponibles
🌍 La ciencia avanza - Mediante colaboración y el reuso de los datos


Formatos ARCO más comunes

Existen varios formatos diseñados para ser Analysis-Ready y Cloud-Optimized:

Zarr

  • Uso: Arrays N-dimensionales (datos climáticos, radar, satélite)

  • Ventajas: Fragmentación flexible, compresión, lectura paralela

  • Ecosistema: Xarray, Dask, Pangeo

Parquet

  • Uso: Datos tabulares (estaciones meteorológicas, series temporales)

  • Ventajas: Columnar, compresión eficiente

  • Ecosistema: Pandas, Dask, Apache Arrow

Cloud-Optimized GeoTIFF (COG)

  • Uso: Imágenes satelitales, rasters

  • Ventajas: Streaming eficiente, overview pyramids

  • Ecosistema: GDAL, Rasterio

En el siguiente cuadernillo nos enfocaremos en Zarr, el más usado para datos científicos multidimensionales.


Resumen

En este cuadernillo aprendiste los conceptos fundamentales de ARCO:

Datos listos para análisis: Reducen el 80% del tiempo dedicado a limpieza de datos

Formatos optimizados para la nube: Permiten acceso eficiente, paralelo y selectivo

Principios FAIR: Hacen que los datos sean Encontrables, Accesibles, Interoperables y Reutilizables

Fragmentación vs Monolítico: Los datos fragmentados permiten acceso selectivo

Panorama de formatos: Zarr (arrays), Parquet (tabular), COG (rasters)

Estos conceptos son la base para trabajar con grandes volúmenes de datos científicos de manera eficiente en entornos modernos de computación.

¿Qué sigue?

Ahora que entiendes los conceptos ARCO, en el siguiente cuadernillo aprenderás Zarr en profundidad:

  • Qué es Zarr y cómo funciona

  • Exportar datos a formato Zarr

  • Usar carga perezosa (lazy loading)

  • Optimizar estrategias de fragmentación

  • Comparar rendimiento con formatos tradicionales

👉 Continúa con: Formato Zarr


📚 Recursos y Referencias

  • Abernathey, R. et al. (2021). Cloud-Native Repositories for Big Scientific Data. Computing in Science & Engineering, 23(2), 26-35.

  • Wilkinson, M. D. et al. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3, 160018.

  • Crowdflower (2016). Data Science Report. https://www2.cs.uh.edu/~ceick/UDM/CFDS16.pdf

  • Pangeo Community (2024). Cloud-Optimized Data Formats. https://pangeo.io/