<img src="../images/logos/numpy_logo.png" width=200 alt="np_logo"></img> <img src="../images/logos/pandas_secondary.svg" width=300 alt="pd_logo"></img> <img src="../images/logos/xarray-logo-square.png" width=220 alt="pd_logo"></img>

# NumPy, Pandas y Xarray

---

## Introducción
En este cuadernillo (Notebook) aprenderemos acerca de librerías útiles en la programación científica:

1. Introducción numpy
1. Introducción pandas
1. Introducción xarray

Este cuadernillo contiene información simplificada de [`Pythia Fundations`](https://foundations.projectpythia.org/landing-page.html)

## Prerequisitos
| Conceptos | Importancia | Notas |
| --- | --- | --- |
| [Introducción a Numpy](https://foundations.projectpythia.org/core/numpy.html) | Necesario | Información complementaria |
| [Introducción a Pandas](https://foundations.projectpythia.org/core/pandas.html) | Necesario | Información complementaria |
| [Introducción a Xarray](https://foundations.projectpythia.org/core/xarray.html) | Necesario | Información complementaria 
| [Introducción a Datetime](https://foundations.projectpythia.org/core/datetime/datetime.html) | Necesario | Entender estampas de tiempo |


- **Tiempo de aprendizaje**: 30 minutos

---

## Librerías
A continuación presentamos las librerías que vamos a usar durante este cuadernillo

In [None]:
from datetime import timedelta  # manejo de estampas de tiempo

import numpy as np  # Manejo de matrices multidimensionales
import pandas as pd  # Manejo de datos tabulares y series de tiempo
import xarray as xr  # Manejo óptimo de datos multidimensionales
from pythia_datasets import DATASETS  # datos disponibles en Pythia

## 1. NumPy

Numpy es un paquete o librería fundamental en `Python` que nos permite trabajar principalmente con arreglos y matrices multidimensionales. Con `NumPy` podemos realizar operaciones matemáticas, reorganización de matrices, operaciones básicas de álgebra lineal, análisis estadísticos básicos, entre muchas otras.

- **¿Quién usa Numpy?**

Todo aquel que en su campo de estudio necesite de una herramienta flexible y vectorizada que permita el manejo de datos en diferentes formatos tal que se ajusten a su paradigama de codificación. En otras palabras, *Todo aquel que lo encuentre útil para su problema de estudio*.

- **Ventajas de NumPy**

Está vectorizado, lo cual significa que no se necesita un bucle explícito, indexación, etc., para lograr alguno métodos. Además, está optminizado en C, tal que es mucho más rápido que una programación en Python básica. 

Es consciso y más fácil de leer, nos ahorra líneas de código y hace las operaciones multidimensionales más sencillas para el usuario.

- **Diferencias entre los array de NumPy y listas de Python**

1. Los NumPy array tienen un tamaño fijo en la creación.
2. Todos los elementos de un NumPy array deben ser del mismo tipo de datos. 
3. Los NumPy array facilitan operaciones matemáticas avanzadas y de otro tipo en grandes cantidades de datos.

### 1.1 Creación de vectores

Con `NumPy` podemos realizar creacion de arreglos y vectores de múltiples dimensiones usando diferentes métodos. La manera más común de crear un arreglo o matriz es usando el método `np.array`.           

In [None]:
vector = np.array([1, 2, 3])
vector

Los objetos del tipo `numpy.ndarray` (array de NumPy) tienen métodos autocontenidos que nos permiten obterner propiedades como dimensión `ndim`, tamaño `shape` o tipo de datos `dtype`.

In [None]:
vector.ndim

In [None]:
vector.shape

In [None]:
vector.dtype

Ahora podemos crear una matriz de dos dimensiones de la misma manera

In [None]:
matriz_2d = np.array([[0, 1, 2], [3, 4, 5]])
matriz_2d

In [None]:
print(
    f"dimensiones = {matriz_2d.ndim}, forma = {matriz_2d.shape}, y tipo {matriz_2d.dtype}"
)

### 1.2 Generación de matrices y vectores

`NumPy` ofrece funciones y métodos que permiten generar matrices o arreglos igualmente espaciados. Generalmente `NumPy` usa reglas de indexación de la siguiente manera
* `.arange(comienzo, fin, paso)` crea un arreglo o matriz de valores en el intervalo `[comienzo, fin)` espaciado cada `paso`
* `.linspace(comienzo, fin, número de divisiones)` crea un arreglo o matriz de valores en el intervalo `[comienzo, fin)` igualmente espaciado usando `número de divisiones`

In [None]:
arreglo = np.arange(10)
arreglo

In [None]:
arreglo_espaciado = np.linspace(1, 10, 10)
arreglo_espaciado

### 1.3 Operaciones básica usando NumPy

Podemos realizar operaciones matemáticas usando `NumPy` teniendo en cuenta que los arreglos o matrices deben tener el mismo tamaño. Las operaciones se realizarán elemento a elemento en cada arreglo matricial

In [None]:
a = np.arange(0, 6, 2)
a

In [None]:
b = np.array([-1, 200, 1.3])
b

In [None]:
a + b

In [None]:
a - b

In [None]:
a * b

In [None]:
a / b

### 1.4 Operaciones matemáticas más complejas

`NumPy` soporta operaciones matemáticas mas complejas elemento a elemento en cada arreglo matricial. Por ejemplo, calculemos el `seno` de una matriz

In [None]:
matriz_2d = np.array([[0, 1, 2], [3, 4, 5]])
matriz_2d

In [None]:
np.sin(matriz_2d)

Ahora usando la constante `pi`

In [None]:
t = np.arange(0, 2 * np.pi + np.pi / 4, np.pi / 4)
t

In [None]:
t / np.pi

In [None]:
cos_t = np.cos(t)
cos_t

Podemos redondear las cifras usando el método `round`

In [None]:
np.round(cos_t, 2)

También podemos sumar todos los elementos de un arreglo usando `np.sum`

In [None]:
np.sum(cos_t)

Para mas detalles, les dejamos el [link a la documentación de operaciones matemáticas con NumPy](https://numpy.org/doc/stable/reference/routines.math.html) y el [link a las funciones de álgebra lineal](https://numpy.org/doc/stable/reference/routines.linalg.html). 

### 1.5 Indexado y selección de datos

Podemos acceder a los valores dentro de un arreglo matricial multidimensional utilizando el índice del vector o matriz. Recordemos que en `Python`, el índice comienza en 0 y, el acceso se realiza usando la notación `[fila, columna]`.

In [None]:
matriz = np.arange(12).reshape(3, 4)
matriz

Podemos acceder al primer elemento de la matriz de la siguinte manera:

In [None]:
matriz[0, 0]

Para acceder al elemento ubicado en la fila 2 y la columna 4

In [None]:
matriz[1, 3]

Para acceder a los últimos elementos del arreglo, podemos usar el índice en "reversa" 

In [None]:
matriz[-1, 0]

In [None]:
matriz[0, -1]

In [None]:
matriz[-1, -1]

Para seleccionar un rango de valores dentro del arreglo matricial usamos la notación `[comienzo:final[:paso]]`. Por ejemplo, tratemos de seleccionar la primera fila:

In [None]:
matriz[0, 0:4]

Ahora la primera fila **sin** incluir el último elemento:

In [None]:
matriz[0, 0:-1]

Podemos crear un arreglo unidimensional con mayor número de elementos para observar la selección de un rango de elementos usando un paso determinado

In [None]:
arreglo_largo = np.arange(0, 15, 1)
arreglo_largo

In [None]:
arreglo_largo[::2]

Ahora incluyendo `comienzo=3`, `final=13` `paso=2`

In [None]:
arreglo_largo[3:13:2]

<div class="admonition alert alert-warning">
    <p class="admonition-title" style="font-weight:bold">Precaución</p>
    El índice en la selección de rango no incluye el valor de la derecha
</div>

In [None]:
arreglo_largo[0:3]

En el arreglo anterior la selección se realizó entre el índice 0 y el 3 no incluyente

En resumen, podemos seleccionar fácilmente subconjuntos de datos en nuestros `numpy.ndarray`s.

![imagen](http://scipy-lectures.org/_images/numpy_indexing.png)

## 2. Pandas

[`Pandas`](https://pandas.pydata.org/) es una de las librerías de código abierto más potentes en el ámbito de la programación científica que permite la manipulación rápida y fácil de datos tabulares en diversos formatos (Excel, texto plano separado por comas -csv-, bases de datos, pickle, entre muchos otros). La manipulación de datos tabulares y series de tiempo se realiza mediante etiquetas que nos permiten escribir códigos robustos/consistentes.


### 2.1 Pandas DataFrame

Es un conjunto de datos tabulares, similar a un **hoja de calculo de excel**, una **tabla de datos** o un `data.frame` en R, que usa **etiquetas** como `índices`. Los `DataFrames` estan compuestos por columnas y filas.

<img src="../images/01_table_dataframe.svg" width=500 alt="Dataframe"></img> 

Dentro de cada `columna/fila` podemos tener datos de diferente `tipo` incluyendo números, texto, estampas de tiempo, entre otros. En la imagen anterior (Cortesía de Pythia Fundations. 2023, CC-BY), la columna de la izquierda, sombreada en color gris, es conocida como el `índice` de las filas. Análogamente, la parte superior del `DataFrame`, podemos encontrar el índice de las `columnas`. Estos índices, de columna y fila, pueden ser de tipo numérico, caracteres, estampas de tiempo, entre muchos otros. 

A continuación, se puede observar un `DataFrame` de anomalías de la temperatura superfical del mar en las diferentes regiones de El Niño:

In [None]:
filepath = DATASETS.fetch("enso_data.csv")

In [None]:
df = pd.read_csv(filepath)
df.head()

Como podemos observar, el índice, tanto en filas y columnas, se  resaltan en **negrita**. En la filas el índice por defecto es una secuencia numerada que incia en 0 y termina en el número de filas del set de datos. Para acceder al `índice` en filas podemos usar el atributo `.index` y en columnas `.columns`.

In [None]:
df.index

Hasta el momento, aún no hemos sacado aprovechado de las ventajas de `Pandas` y etiquetas en los `índices`. 

Utilicemos la columna `datetime` como índice de las filas en formato de [**estampa de tiempo**](https://foundations.projectpythia.org/core/datetime/datetime.html). Para hacer esto podemos pasar múltiples argumentos (`index_col`, `parser_dates`) al método `pd.read_csv` de acuerdo con la [documentación oficial](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html).

In [None]:
df = pd.read_csv(filepath, index_col=0, parse_dates=True)

In [None]:
df.head()

Como podemos ver, el índice del `DataFrame` ahora es la columna `datetime` y está en formato `timestamp`

In [None]:
df.index

De igual manera, podemos ver los índices / nombres de las columnas de la siguiente manera:

In [None]:
df.columns

### 2.2. Pandas Series

Una serie de datos en `Pandas` hace refencia a datos tabulares que continenen una sola columna; al igual que un `DataFrame` puede contener cualquir tipo de dato o variable. En el siguiente ejemplo extraeremos la `serie` de datos de la anomalía de la temperatura superficial de niño en la región 3-4 usando el método de llave-valor `['']`.

In [None]:
series = df["Nino34anom"]
series.head()

Alternativamente, podemos acceder a misma serie de datos usando el método `punto` de la siguiente manera:

In [None]:
series = df.Nino34anom
series.head()

### 2.3 Selección de series y set de datos

Como mencionamos anteriormente, las **etiquetas** en los índices nos permiten seleccionar un subconjunto de datos de manera rápida y fácil utilizando las ventajas de `Pandas`. En el ejemplo anterior utilizamos las etiquetas de columna para acceder a la serie de datos correspondiente (**Columna**). Para acceder a una fila de datos podemos usar la notación e indexación sugerida por `NumPy` sin embargo esta manera **no** es recomendada.

In [None]:
series[0]

**Preferiblemente**, para utilizar las potencialidades y ventajas de `Pandas`, se recomienda usar las etiquetas de la fila de la siguiente manera:

In [None]:
series["1982-01-01"]

Si queremos extraer un intervalo de datos podemos usar las etiquetas de índice de filas usando la notacion `[comienzo:fin]`

In [None]:
series["2000-01-01":"2001-12-01"]

`Python` tiene incorporado una `clase` muy útil para hacer selección de datos llamada [`slice`](https://docs.python.org/3/library/functions.html#slice). Esta función nos permite crear un **conjunto de índices** especificados por los argumentos `comienzo`, `fin` y `paso` usando la notación `[comiezo, fin, paso]`

In [None]:
slice("2000-01-01", "2001-12-01")

Seleccionemos nuestros datos utilizando el método `slice`

In [None]:
series[slice("2000-01-01", "2001-12-01")]

Adicionalmente, podemos usar el método [`loc`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html) que también nos permite acceder por etiquetas 

In [None]:
series.loc["1982-01-01"]

o su equivalente usando el **índice** [`iloc`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html)

In [None]:
series.iloc[0]

Ahora que sabemos los fundamentos básicos de seleccion de datos en series temporales, podemos pasar a seleccionar datos en `DataFrames`. Para accerder a **una sola** columna usamos la notación de diccionario `llave/valor` como vimos anteriormente

In [None]:
df["Nino34anom"].head()  # para una sola columna

Para seleccionar multiples `columnas` se utiliza doble corchete cuadrado anidado `[['col1', 'col2', ..., 'coln']]`

In [None]:
df[["Nino34", "Nino34anom"]].head()

Seleccionar datos usando etiquetas de fila y columnas se puede llevar a cabo usando el método `loc` de la siguiente manera: `.loc[filas, columnas]`

In [None]:
df.loc["1982-04-01", "Nino34"]

Si seleccionamos datos únicamente por la `etiqueta` de la `fila` nos retornará una serie con los datos de todas las `columnas`

In [None]:
df.loc["1982-04-01"]

Podemos seleccionar un rango de fechas para todas las `columnas`

In [None]:
df.loc["1982-01-01":"1982-12-01"]

De igual modo podemos seleccionar un **set** de datos combinando los métodos anteriormente mecionados

In [None]:
df.loc["1982-01-01":"1982-12-01", ["Nino34", "Nino34anom"]]

### 2.4 Análisis exploratorios

`Pandas` nos permite visualizar las primeras y últimas filas de los `DataFrames` usando `.head()` y `.tail()`

In [None]:
df.head()

In [None]:
df.tail()

Para conocer la información de tipo de datos, número de datos faltantes y otras propiedades del `DataFrame` podemos usar el método `.info()`

In [None]:
df.info()

Para acceder a una descripción estadística rápida del `DataFrame` podemos usar el método `.describe()` 

In [None]:
df.describe()

Podemos calcular el valor medio de una `serie` o un `DataFrame` usando el método `.mean()`

In [None]:
df["Nino34anom"].mean()

In [None]:
df.mean()

El método `.mean()` calcula el valor medio a lo largo de las `columnas`, sin embargo podemos calcular la media a lo largo de las `filas` usando el argumento `axis`

In [None]:
df.mean(axis=1)

De manera similar, podemos calcular la desviación estándar usando el método `.std()`

In [None]:
df.std()

Para más funciones y operaciones se puede consultar la documentación oficial de [`Pandas`](https://pandas.pydata.org/docs/reference/frame.html).

### 2.6 Gráficos rápidos

`Pandas` nos permite generar gráficos rápidos usando el método `.plot`.

In [None]:
df.Nino34.plot();

el método `.plot()` genera un gráfico de tipo linea simple. Sin embargo, podemos generar gráficos más complejos utilizando otros métodos como `.hist` que retorna un histográma

In [None]:
df.Nino34.plot.hist();
# df[['Nino12', 'Nino34']].plot.hist();

O simplemente un diagrama de cajas que nos permitiría visualizar los datos de otra manera.

In [None]:
df[["Nino12", "Nino34"]].plot.box();

Para mas información de gráficos pueden consultar este [link](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html).

## 3. Xarray

`Xarray` es una librería ampliamente utilizada en el área de las geociencias para el análisis de datos multidimensionales (2-D, 3-D, ..., N-D). Al igual que `Pandas` las principales ventajas de `Xarray` radican en la manipulación de datos mediante `etiquetas` y `coordenadas` en cada una de sus `dimensiones`. 

### 3.1 Xarray Datarray

Un [`Datarray`](https://docs.xarray.dev/en/stable/generated/xarray.DataArray.html) es uno de los elementos más básicos de `Xarray`. Es similar a un numpy `ndarray` pero con las ventajas de tener **coordenadas** y **atributuos**. Veámos a qué hacen referencia estos dos aspectos. 

Creemos una matriz aleatorea de temperaturas en grados Kelvin usando [`np.random.randn`](https://numpy.org/doc/stable/reference/random/generated/numpy.random.randn.html)

In [None]:
data = 283 + 5 * np.random.randn(5, 3, 4)
data

las dimensiones y forma de la matriz son:

In [None]:
data.ndim, data.shape

Hasta ahora solo hemos creado un arreglo matricial. Ahora, como primer intento, creemos una `Datarray` usando este `numpy.array`

In [None]:
temp = xr.DataArray(data)
temp

Dos cosas para anotar:
1. Dado que `NumPy` no utiliza dimensiones ni etiquetas, nuesto nuevo `Datarray` toma nombres en sus dimensiones (`dim_0`, `dim_1` y `dim_2`).
2. De ser ejecutado en `Jupyter Notebook` se genera una visualización completa de los datos contenidos dentro del `Datarray` que nos permite explorar la `data`, las `coordenadas`, los `índices` y los `atributos`.

Ahora tratemos de poner nombre a las dimensiones para dar claridad/autodescripción al objeto. Esto lo podemos lograr pasando el argumento [`dims`](https://docs.xarray.dev/en/stable/generated/xarray.DataArray.html) durante la creación del `Datarray`

In [None]:
temp = xr.DataArray(data, dims=["time", "lat", "lon"])
temp

Creamos un objeto con datos y dimensiones que gráficamente se podría representar de la siguiente manera

<img src="../images/datarray.png" width=600 alt="Datarray"></img> 

Nuestro `Datarray` ahora tienen dimesiones de tiempo (`time`), latitud (`lat`) y longitud (`lon`). Ahora podemos hacer de nuestro `Datarray` algo aún más "poderoso" incluyéndole `coordenadas` a las dimensiones. Sabemos que las dimensiones son: tiempo, latitud y longitud. Comencemos creando un índice de tiempo que empiece en `2018-01-01` y contenga `5` periodos en total

In [None]:
times = pd.date_range("2018-01-01", periods=5)
times

Ahora asociemos la longitud y latitud a una ubicación [geográfica](https://laulima.hawaii.edu/access/content/group/dbd544e4-dcdd-4631-b8ad-3304985e1be2/book/chapter_1/longitude.htm):

In [None]:
lons = np.linspace(-120, -90, 4)
lats = np.linspace(25, 55, 3)
lons, lats

Usando toda la información podemos crear nuestro `Datarray` aprovechando las ventajas que nos brinda `Xarray`

In [None]:
temp = xr.DataArray(data, coords=[times, lats, lons], dims=["time", "lat", "lon"])
temp

Visualmente sería algo así


<img src="../images/datarray_coords.png" width=600 alt="Datarray_Coords"></img> 

Podemos establecer atributos útiles, como las unidades de la variable o un nombre estándar, que nos permitan describir el conjunto de datos en el `Datarray`

In [None]:
temp.attrs["units"] = "kelvin"
temp.attrs["standard_name"] = "air_temperature"
temp

### 3.2 Xarray Dataset

Un `Dataset` no es mas que un contenedor de multiples `Datarrays` que pueden o no compartir `dimensiones` y `coordenadas`. Estos `Datasets` son más comunes en la comunidad científica dado que permite almacenar mas de una variable.

A continuación, vamos a crear una variable de presión y humedad relativa, que junto a la temperatura conformarán nuestro `Dataset`.

In [None]:
pressure_data = 1000.0 + 5 * np.random.randn(5, 3, 4)

pressure = xr.DataArray(
    pressure_data, coords=[times, lats, lons], dims=["time", "lat", "lon"]
)

pressure.attrs["units"] = "hPa"
pressure.attrs["standard_name"] = "air_pressure"

pressure

La humedad relativa sólo dependerá del tiempo

In [None]:
hr_data = np.random.uniform(low=60, high=100, size=5)
hr_data

In [None]:
hr = xr.DataArray(hr_data, coords=[times], dims=["time"])

hr.attrs["units"] = "%"
hr.attrs["standard_name"] = "relative_humidity"
hr

La manera mas fácil para crear un `Dataset` es mediante un `diccionario` de `Python` donde la `llave` es el nombre y el valor es el `Datarray` que ya previamente creamos. 

In [None]:
dt = {"Temperature": temp, "Pressure": pressure, "HR": hr}
dt

Ahora podemos proceder a crear nuestro contenedor de datos [`Dataset`](https://docs.xarray.dev/en/stable/generated/xarray.Dataset.html).

In [None]:
ds = xr.Dataset(data_vars=dt)
ds

Visualmente, y tomando la imagen de la documentación ofical de [`Xarray`](), tenemos que nuestro `Dataset` tomaría la siguiente forma

<img src="../images/xarray-datastructure.png" width=800 alt="Dataset"></img> 

### 3.3 Seleccion de datos y valores por coordenadas 

La potencialidad de `Xarray` radica en la facilidad de seleccionar y acceder a los datos dentro del `Dataset`. Para seleccionar una variable de interés podemos hacerlo mendiante el método `punto`

In [None]:
ds.Temperature

o usando la notación de diccionarios de `Python`

In [None]:
ds["Pressure"]

Podemos seleccionar y filtrar datos dentro del `Dataset` usando las coordenadas asignadas. El método [`.sel`](https://docs.xarray.dev/en/v0.8.2/generated/xarray.Dataset.sel.html) nos permite realizar selecciones (**slicing**) a lo largo de las `coordenadas`

In [None]:
ds.sel(time="2018-01-01")

El método `sel` puede recibir una o más `coordenadas` a la hora de realizar nuestra selección

In [None]:
ds.sel(time="2018-01-01", lat=25, lon=-120)

Para seleccionar un rango de datos podemos utilzar el método `slice` como lo vimos con `Pandas`

In [None]:
ds.sel(time=slice("2018-01-01", "2018-01-03"))

¿Qué pasa si, por ejemplo, los datos en las coordenadas no coinciden exactamente con nuestra consulta? Podemos pasar ciertos parametros como `method` y `torelance` que nos permiten buscar el dato más cercano

In [None]:
ds.sel(time="2018-01-07", method="nearest", tolerance=timedelta(days=2))

para el caso de la longitud o latitud

In [None]:
ds.sel(lat=35, method="nearest")

Al igual que con `Numpy`, podemos realizar selección de los datos por su `índice` usando el método [`isel`](https://docs.xarray.dev/en/stable/generated/xarray.Dataset.isel.html)

In [None]:
ds.isel(lat=0)

### 3.3 Operaciones Básicas

`Xarray` nos permite aplicar operaciones básicas como la media `mean`, desviación estándar `std`, quantiles `quantile` entre muchas otras operaciones a lo largo de una dimensión determinada. En el siguiente ejemplo aplicaremos la media a lo largo de las 5 estampas de tiempo

In [None]:
ds.Temperature.mean("time")

De igual manera lo podemos aplicar a lo largo de la `latitud` o la `longitud`

In [None]:
ds.Temperature.mean("lon")

`Xarray` tambien nos permite realizar interpolaciones a puntos que no estan explícitamente definidos dentro de las coordenadas. Tratemos de generar una serie de temperatura para el punto con `lat=40` y `lon=-105`

In [None]:
ds.Temperature.interp(lon=-105, lat=40)

### 3.5  Generación de gráficas 

Al igual que `Pandas`, `Xarray` posee un módulo autocontenido para realizar gráficos sin necesidad de usar la librería `Matplotlib`. Para esto debemos usar el método `.plot`. Generemos un gráfico para un punto cualquiera donde se vea la evolución de la temperatura en el tiempo.

In [None]:
ds.Temperature.sel(lat=40, lon=-100, method="nearest").plot()

Ahora un gráfico donde se vea la distribución espacial de la temperatura para un tiempo en específico `t=3`

In [None]:
ds.Temperature.isel(time=3).plot()

O simplemente el gráfico espacial de la temperatura media a lo largo de la dimensión temporal

In [None]:
ds.Temperature.mean("time").plot()

### 3.6 Lectura de datos en formato netCDF

`Xarray` nos permite leer archivo en formato `netCDF`, `GRIB`, `Zarr`, entre muchos otros. A continuación, mostraremos un ejemplo de la lectura de datos de Temperatura Superficial del Mar (TSM) proveniente del Modelo del Sistema Terrestre Comunitario v2 (CESM2). 

In [None]:
filepath = DATASETS.fetch("CESM2_sst_data.nc")
ds = xr.open_dataset(filepath)
ds

In [None]:
ds["time"] = ds.indexes["time"].to_datetimeindex()

In [None]:
# ds.time

Podemos acceder a la variable `tos` y generar un plot para visualizar su contenido

In [None]:
ds.tos.isel(time=0).plot()

In [None]:
ds.tos.sel(lon=200, lat=0, method="nearest").plot()

Para pasar de grados `Celcius` a `Kelvin` podemos realizar la siguiente operación

In [None]:
temp_kel = ds.tos + 273.15

In [None]:
temp_kel.isel(time=0).plot(cmap="coolwarm")

Podemos aplicar una máscara a la data para seleccionar o visualizar algunos datos de interés. Esto lo podemos llevar a cabo utilizando el método `.where`

In [None]:
ds.tos.isel(time=0).where(ds.lat >= -20).where(ds.lon < 300).plot()

Con esto finalizamos nuestro tutorial básico en `NumPy`, `Pandas` y `Xarray`.

---

## Conclusiones
En el presente cuadernillo aprendimos aspectos básicos como la creación, operación y selección de arrays (`NumPy`), dataframes (`Pandas`) y datasets/datarrays (`Xarray`). Estas librerías nos permitirán entonces manipular cualquier dato de caracter ambiental utilizando las potencialidades de cada librería. 

## Fuentes y Referencias

* Rose, B. E. J., Kent, J., Tyle, K., Clyne, J., Banihirwe, A., Camron, D., May, R., Grover, M., Ford, R. R., Paul, K., Morley, J., Eroglu, O., Kailyn, L., & Zacharias, A. (2023). Pythia Foundations (Version v2023.05.01) https://doi.org/10.5281/zenodo.7884572