NumPy, Pandas y Xarray

Introducción

En este cuadernillo (Notebook) aprenderemos acerca de librerías útiles en la programación científica:

Introducción numpy
Introducción pandas
Introducción xarray

Este cuadernillo contiene información simplificada de Pythia Fundations

Prerequisitos

Conceptos	Importancia	Notas
Introducción a Numpy	Necesario	Información complementaria
Introducción a Pandas	Necesario	Información complementaria
Introducción a Xarray	Necesario	Información complementaria
Introducción a Datetime	Necesario	Entender estampas de tiempo

Tiempo de aprendizaje: 30 minutos

Librerías

A continuación presentamos las librerías que vamos a usar durante este cuadernillo

from datetime import timedelta  # manejo de estampas de tiempo

import numpy as np  # Manejo de matrices multidimensionales
import pandas as pd  # Manejo de datos tabulares y series de tiempo
import xarray as xr  # Manejo óptimo de datos multidimensionales
from pythia_datasets import DATASETS  # datos disponibles en Pythia

1. NumPy

Numpy es un paquete o librería fundamental en Python que nos permite trabajar principalmente con arreglos y matrices multidimensionales. Con NumPy podemos realizar operaciones matemáticas, reorganización de matrices, operaciones básicas de álgebra lineal, análisis estadísticos básicos, entre muchas otras.

¿Quién usa Numpy?

Todo aquel que en su campo de estudio necesite de una herramienta flexible y vectorizada que permita el manejo de datos en diferentes formatos tal que se ajusten a su paradigama de codificación. En otras palabras, Todo aquel que lo encuentre útil para su problema de estudio.

Ventajas de NumPy

Está vectorizado, lo cual significa que no se necesita un bucle explícito, indexación, etc., para lograr alguno métodos. Además, está optminizado en C, tal que es mucho más rápido que una programación en Python básica.

Es consciso y más fácil de leer, nos ahorra líneas de código y hace las operaciones multidimensionales más sencillas para el usuario.

Diferencias entre los array de NumPy y listas de Python

Los NumPy array tienen un tamaño fijo en la creación.
Todos los elementos de un NumPy array deben ser del mismo tipo de datos.
Los NumPy array facilitan operaciones matemáticas avanzadas y de otro tipo en grandes cantidades de datos.

1.1 Creación de vectores

Con NumPy podemos realizar creacion de arreglos y vectores de múltiples dimensiones usando diferentes métodos. La manera más común de crear un arreglo o matriz es usando el método np.array.

vector = np.array([1, 2, 3])
vector

array([1, 2, 3])

Los objetos del tipo numpy.ndarray (array de NumPy) tienen métodos autocontenidos que nos permiten obterner propiedades como dimensión ndim, tamaño shape o tipo de datos dtype.

vector.ndim

vector.shape

(3,)

vector.dtype

dtype('int64')

Ahora podemos crear una matriz de dos dimensiones de la misma manera

matriz_2d = np.array([[0, 1, 2], [3, 4, 5]])
matriz_2d

array([[0, 1, 2],
       [3, 4, 5]])

print(
    f"dimensiones = {matriz_2d.ndim}, forma = {matriz_2d.shape}, y tipo {matriz_2d.dtype}"
)

dimensiones = 2, forma = (2, 3), y tipo int64

1.2 Generación de matrices y vectores

NumPy ofrece funciones y métodos que permiten generar matrices o arreglos igualmente espaciados. Generalmente NumPy usa reglas de indexación de la siguiente manera

.arange(comienzo, fin, paso) crea un arreglo o matriz de valores en el intervalo [comienzo, fin) espaciado cada paso
.linspace(comienzo, fin, número de divisiones) crea un arreglo o matriz de valores en el intervalo [comienzo, fin) igualmente espaciado usando número de divisiones

arreglo = np.arange(10)
arreglo

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

arreglo_espaciado = np.linspace(1, 10, 10)
arreglo_espaciado

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

1.3 Operaciones básica usando NumPy

Podemos realizar operaciones matemáticas usando NumPy teniendo en cuenta que los arreglos o matrices deben tener el mismo tamaño. Las operaciones se realizarán elemento a elemento en cada arreglo matricial

a = np.arange(0, 6, 2)
a

array([0, 2, 4])

b = np.array([-1, 200, 1.3])
b

array([ -1. , 200. ,   1.3])

a + b

array([ -1. , 202. ,   5.3])

a - b

array([   1. , -198. ,    2.7])

a * b

array([ -0. , 400. ,   5.2])

a / b

array([-0.        ,  0.01      ,  3.07692308])

1.4 Operaciones matemáticas más complejas

NumPy soporta operaciones matemáticas mas complejas elemento a elemento en cada arreglo matricial. Por ejemplo, calculemos el seno de una matriz

matriz_2d = np.array([[0, 1, 2], [3, 4, 5]])
matriz_2d

array([[0, 1, 2],
       [3, 4, 5]])

np.sin(matriz_2d)

array([[ 0.        ,  0.84147098,  0.90929743],
       [ 0.14112001, -0.7568025 , -0.95892427]])

Ahora usando la constante pi

t = np.arange(0, 2 * np.pi + np.pi / 4, np.pi / 4)
t

array([0.        , 0.78539816, 1.57079633, 2.35619449, 3.14159265,
       3.92699082, 4.71238898, 5.49778714, 6.28318531])

t / np.pi

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  ])

cos_t = np.cos(t)
cos_t

array([ 1.00000000e+00,  7.07106781e-01,  6.12323400e-17, -7.07106781e-01,
       -1.00000000e+00, -7.07106781e-01, -1.83697020e-16,  7.07106781e-01,
        1.00000000e+00])

Podemos redondear las cifras usando el método round

np.round(cos_t, 2)

array([ 1.  ,  0.71,  0.  , -0.71, -1.  , -0.71, -0.  ,  0.71,  1.  ])

También podemos sumar todos los elementos de un arreglo usando np.sum

np.sum(cos_t)

0.9999999999999996

Para mas detalles, les dejamos el link a la documentación de operaciones matemáticas con NumPy y el link a las funciones de álgebra lineal.

1.5 Indexado y selección de datos

Podemos acceder a los valores dentro de un arreglo matricial multidimensional utilizando el índice del vector o matriz. Recordemos que en Python, el índice comienza en 0 y, el acceso se realiza usando la notación [fila, columna].

matriz = np.arange(12).reshape(3, 4)
matriz

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

Podemos acceder al primer elemento de la matriz de la siguinte manera:

matriz[0, 0]

Para acceder al elemento ubicado en la fila 2 y la columna 4

matriz[1, 3]

Para acceder a los últimos elementos del arreglo, podemos usar el índice en “reversa”

matriz[-1, 0]

matriz[0, -1]

matriz[-1, -1]

Para seleccionar un rango de valores dentro del arreglo matricial usamos la notación [comienzo:final[:paso]]. Por ejemplo, tratemos de seleccionar la primera fila:

matriz[0, 0:4]

array([0, 1, 2, 3])

Ahora la primera fila sin incluir el último elemento:

matriz[0, 0:-1]

array([0, 1, 2])

Podemos crear un arreglo unidimensional con mayor número de elementos para observar la selección de un rango de elementos usando un paso determinado

arreglo_largo = np.arange(0, 15, 1)
arreglo_largo

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

arreglo_largo[::2]

array([ 0,  2,  4,  6,  8, 10, 12, 14])

Ahora incluyendo comienzo=3, final=13 paso=2

arreglo_largo[3:13:2]

array([ 3,  5,  7,  9, 11])

Precaución

El índice en la selección de rango no incluye el valor de la derecha

arreglo_largo[0:3]

array([0, 1, 2])

En el arreglo anterior la selección se realizó entre el índice 0 y el 3 no incluyente

En resumen, podemos seleccionar fácilmente subconjuntos de datos en nuestros numpy.ndarrays.

imagen

2. Pandas

Pandas es una de las librerías de código abierto más potentes en el ámbito de la programación científica que permite la manipulación rápida y fácil de datos tabulares en diversos formatos (Excel, texto plano separado por comas -csv-, bases de datos, pickle, entre muchos otros). La manipulación de datos tabulares y series de tiempo se realiza mediante etiquetas que nos permiten escribir códigos robustos/consistentes.

2.1 Pandas DataFrame

Es un conjunto de datos tabulares, similar a un hoja de calculo de excel, una tabla de datos o un data.frame en R, que usa etiquetas como índices. Los DataFrames estan compuestos por columnas y filas.

Dentro de cada columna/fila podemos tener datos de diferente tipo incluyendo números, texto, estampas de tiempo, entre otros. En la imagen anterior (Cortesía de Pythia Fundations. 2023, CC-BY), la columna de la izquierda, sombreada en color gris, es conocida como el índice de las filas. Análogamente, la parte superior del DataFrame, podemos encontrar el índice de las columnas. Estos índices, de columna y fila, pueden ser de tipo numérico, caracteres, estampas de tiempo, entre muchos otros.

A continuación, se puede observar un DataFrame de anomalías de la temperatura superfical del mar en las diferentes regiones de El Niño:

filepath = DATASETS.fetch("enso_data.csv")

Downloading file 'enso_data.csv' from 'https://github.com/ProjectPythia/pythia-datasets/raw/main/data/enso_data.csv' to '/home/runner/.cache/pythia-datasets'.

df = pd.read_csv(filepath)
df.head()

	datetime	Nino12	Nino12anom	Nino3	Nino3anom	Nino4	Nino4anom	Nino34	Nino34anom
0	1982-01-01	24.29	-0.17	25.87	0.24	28.30	0.00	26.72	0.15
1	1982-02-01	25.49	-0.58	26.38	0.01	28.21	0.11	26.70	-0.02
2	1982-03-01	25.21	-1.31	26.98	-0.16	28.41	0.22	27.20	-0.02
3	1982-04-01	24.50	-0.97	27.68	0.18	28.92	0.42	28.02	0.24
4	1982-05-01	23.97	-0.23	27.79	0.71	29.49	0.70	28.54	0.69

Como podemos observar, el índice, tanto en filas y columnas, se resaltan en negrita. En la filas el índice por defecto es una secuencia numerada que incia en 0 y termina en el número de filas del set de datos. Para acceder al índice en filas podemos usar el atributo .index y en columnas .columns.

df.index

RangeIndex(start=0, stop=472, step=1)

Hasta el momento, aún no hemos sacado aprovechado de las ventajas de Pandas y etiquetas en los índices.

Utilicemos la columna datetime como índice de las filas en formato de estampa de tiempo. Para hacer esto podemos pasar múltiples argumentos (index_col, parser_dates) al método pd.read_csv de acuerdo con la documentación oficial.

df = pd.read_csv(filepath, index_col=0, parse_dates=True)

df.head()

	Nino12	Nino12anom	Nino3	Nino3anom	Nino4	Nino4anom	Nino34	Nino34anom
datetime
1982-01-01	24.29	-0.17	25.87	0.24	28.30	0.00	26.72	0.15
1982-02-01	25.49	-0.58	26.38	0.01	28.21	0.11	26.70	-0.02
1982-03-01	25.21	-1.31	26.98	-0.16	28.41	0.22	27.20	-0.02
1982-04-01	24.50	-0.97	27.68	0.18	28.92	0.42	28.02	0.24
1982-05-01	23.97	-0.23	27.79	0.71	29.49	0.70	28.54	0.69

Como podemos ver, el índice del DataFrame ahora es la columna datetime y está en formato timestamp

df.index

DatetimeIndex(['1982-01-01', '1982-02-01', '1982-03-01', '1982-04-01',
               '1982-05-01', '1982-06-01', '1982-07-01', '1982-08-01',
               '1982-09-01', '1982-10-01',
               ...
               '2020-07-01', '2020-08-01', '2020-09-01', '2020-10-01',
               '2020-11-01', '2020-12-01', '2021-01-01', '2021-02-01',
               '2021-03-01', '2021-04-01'],
              dtype='datetime64[ns]', name='datetime', length=472, freq=None)

De igual manera, podemos ver los índices / nombres de las columnas de la siguiente manera:

df.columns

Index(['Nino12', 'Nino12anom', 'Nino3', 'Nino3anom', 'Nino4', 'Nino4anom',
       'Nino34', 'Nino34anom'],
      dtype='object')

2.2. Pandas Series

Una serie de datos en Pandas hace refencia a datos tabulares que continenen una sola columna; al igual que un DataFrame puede contener cualquir tipo de dato o variable. En el siguiente ejemplo extraeremos la serie de datos de la anomalía de la temperatura superficial de niño en la región 3-4 usando el método de llave-valor [''].

series = df["Nino34anom"]
series.head()

datetime
1982-01-01    0.15
1982-02-01   -0.02
1982-03-01   -0.02
1982-04-01    0.24
1982-05-01    0.69
Name: Nino34anom, dtype: float64

Alternativamente, podemos acceder a misma serie de datos usando el método punto de la siguiente manera:

series = df.Nino34anom
series.head()

datetime
1982-01-01    0.15
1982-02-01   -0.02
1982-03-01   -0.02
1982-04-01    0.24
1982-05-01    0.69
Name: Nino34anom, dtype: float64

2.3 Selección de series y set de datos

Como mencionamos anteriormente, las etiquetas en los índices nos permiten seleccionar un subconjunto de datos de manera rápida y fácil utilizando las ventajas de Pandas. En el ejemplo anterior utilizamos las etiquetas de columna para acceder a la serie de datos correspondiente (Columna). Para acceder a una fila de datos podemos usar la notación e indexación sugerida por NumPy sin embargo esta manera no es recomendada.

series[0]

/tmp/ipykernel_3675/878281628.py:1: FutureWarning: Series.__getitem__ treating keys as positions is deprecated. In a future version, integer keys will always be treated as labels (consistent with DataFrame behavior). To access a value by position, use `ser.iloc[pos]`
  series[0]

0.15

Preferiblemente, para utilizar las potencialidades y ventajas de Pandas, se recomienda usar las etiquetas de la fila de la siguiente manera:

series["1982-01-01"]

0.15

Si queremos extraer un intervalo de datos podemos usar las etiquetas de índice de filas usando la notacion [comienzo:fin]

series["2000-01-01":"2001-12-01"]

datetime
2000-01-01   -1.92
2000-02-01   -1.53
2000-03-01   -1.14
2000-04-01   -0.77
2000-05-01   -0.73
2000-06-01   -0.62
2000-07-01   -0.50
2000-08-01   -0.37
2000-09-01   -0.51
2000-10-01   -0.73
2000-11-01   -0.87
2000-12-01   -0.98
2001-01-01   -0.83
2001-02-01   -0.61
2001-03-01   -0.38
2001-04-01   -0.26
2001-05-01   -0.25
2001-06-01    0.03
2001-07-01    0.10
2001-08-01    0.05
2001-09-01   -0.17
2001-10-01   -0.10
2001-11-01   -0.20
2001-12-01   -0.40
Name: Nino34anom, dtype: float64

Python tiene incorporado una clase muy útil para hacer selección de datos llamada slice. Esta función nos permite crear un conjunto de índices especificados por los argumentos comienzo, fin y paso usando la notación [comiezo, fin, paso]

slice("2000-01-01", "2001-12-01")

slice('2000-01-01', '2001-12-01', None)

Seleccionemos nuestros datos utilizando el método slice

series[slice("2000-01-01", "2001-12-01")]

datetime
2000-01-01   -1.92
2000-02-01   -1.53
2000-03-01   -1.14
2000-04-01   -0.77
2000-05-01   -0.73
2000-06-01   -0.62
2000-07-01   -0.50
2000-08-01   -0.37
2000-09-01   -0.51
2000-10-01   -0.73
2000-11-01   -0.87
2000-12-01   -0.98
2001-01-01   -0.83
2001-02-01   -0.61
2001-03-01   -0.38
2001-04-01   -0.26
2001-05-01   -0.25
2001-06-01    0.03
2001-07-01    0.10
2001-08-01    0.05
2001-09-01   -0.17
2001-10-01   -0.10
2001-11-01   -0.20
2001-12-01   -0.40
Name: Nino34anom, dtype: float64

Adicionalmente, podemos usar el método loc que también nos permite acceder por etiquetas

series.loc["1982-01-01"]

0.15

o su equivalente usando el índice iloc

series.iloc[0]

0.15

Ahora que sabemos los fundamentos básicos de seleccion de datos en series temporales, podemos pasar a seleccionar datos en DataFrames. Para accerder a una sola columna usamos la notación de diccionario llave/valor como vimos anteriormente

df["Nino34anom"].head()  # para una sola columna

datetime
1982-01-01    0.15
1982-02-01   -0.02
1982-03-01   -0.02
1982-04-01    0.24
1982-05-01    0.69
Name: Nino34anom, dtype: float64

Para seleccionar multiples columnas se utiliza doble corchete cuadrado anidado [['col1', 'col2', ..., 'coln']]

df[["Nino34", "Nino34anom"]].head()

	Nino34	Nino34anom
datetime
1982-01-01	26.72	0.15
1982-02-01	26.70	-0.02
1982-03-01	27.20	-0.02
1982-04-01	28.02	0.24
1982-05-01	28.54	0.69

Seleccionar datos usando etiquetas de fila y columnas se puede llevar a cabo usando el método loc de la siguiente manera: .loc[filas, columnas]

df.loc["1982-04-01", "Nino34"]

28.02

Si seleccionamos datos únicamente por la etiqueta de la fila nos retornará una serie con los datos de todas las columnas

df.loc["1982-04-01"]

Nino12        24.50
Nino12anom    -0.97
Nino3         27.68
Nino3anom      0.18
Nino4         28.92
Nino4anom      0.42
Nino34        28.02
Nino34anom     0.24
Name: 1982-04-01 00:00:00, dtype: float64

Podemos seleccionar un rango de fechas para todas las columnas

df.loc["1982-01-01":"1982-12-01"]

	Nino12	Nino12anom	Nino3	Nino3anom	Nino4	Nino4anom	Nino34	Nino34anom
datetime
1982-01-01	24.29	-0.17	25.87	0.24	28.30	0.00	26.72	0.15
1982-02-01	25.49	-0.58	26.38	0.01	28.21	0.11	26.70	-0.02
1982-03-01	25.21	-1.31	26.98	-0.16	28.41	0.22	27.20	-0.02
1982-04-01	24.50	-0.97	27.68	0.18	28.92	0.42	28.02	0.24
1982-05-01	23.97	-0.23	27.79	0.71	29.49	0.70	28.54	0.69
1982-06-01	22.89	0.07	27.46	1.03	29.76	0.92	28.75	1.10
1982-07-01	22.47	0.87	26.44	0.82	29.38	0.58	28.10	0.88
1982-08-01	21.75	1.10	26.15	1.16	29.04	0.36	27.93	1.11
1982-09-01	21.80	1.44	26.52	1.67	29.16	0.47	28.11	1.39
1982-10-01	22.94	2.12	27.11	2.19	29.38	0.72	28.64	1.95
1982-11-01	24.59	3.00	27.62	2.64	29.23	0.60	28.81	2.16
1982-12-01	26.13	3.34	28.39	3.25	29.15	0.66	29.21	2.64

De igual modo podemos seleccionar un set de datos combinando los métodos anteriormente mecionados

df.loc["1982-01-01":"1982-12-01", ["Nino34", "Nino34anom"]]

	Nino34	Nino34anom
datetime
1982-01-01	26.72	0.15
1982-02-01	26.70	-0.02
1982-03-01	27.20	-0.02
1982-04-01	28.02	0.24
1982-05-01	28.54	0.69
1982-06-01	28.75	1.10
1982-07-01	28.10	0.88
1982-08-01	27.93	1.11
1982-09-01	28.11	1.39
1982-10-01	28.64	1.95
1982-11-01	28.81	2.16
1982-12-01	29.21	2.64

2.4 Análisis exploratorios

Pandas nos permite visualizar las primeras y últimas filas de los DataFrames usando .head() y .tail()

df.head()

	Nino12	Nino12anom	Nino3	Nino3anom	Nino4	Nino4anom	Nino34	Nino34anom
datetime
1982-01-01	24.29	-0.17	25.87	0.24	28.30	0.00	26.72	0.15
1982-02-01	25.49	-0.58	26.38	0.01	28.21	0.11	26.70	-0.02
1982-03-01	25.21	-1.31	26.98	-0.16	28.41	0.22	27.20	-0.02
1982-04-01	24.50	-0.97	27.68	0.18	28.92	0.42	28.02	0.24
1982-05-01	23.97	-0.23	27.79	0.71	29.49	0.70	28.54	0.69

df.tail()

	Nino12	Nino12anom	Nino3	Nino3anom	Nino4	Nino4anom	Nino34	Nino34anom
datetime
2020-12-01	22.16	-0.60	24.38	-0.83	27.65	-0.95	25.53	-1.12
2021-01-01	23.89	-0.64	25.06	-0.55	27.10	-1.25	25.58	-0.99
2021-02-01	25.55	-0.66	25.80	-0.57	27.20	-1.00	25.81	-0.92
2021-03-01	26.48	-0.26	26.80	-0.39	27.79	-0.55	26.75	-0.51
2021-04-01	24.89	-0.80	26.96	-0.65	28.47	-0.21	27.40	-0.49

Para conocer la información de tipo de datos, número de datos faltantes y otras propiedades del DataFrame podemos usar el método .info()

df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 472 entries, 1982-01-01 to 2021-04-01
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Nino12      472 non-null    float64
 1   Nino12anom  472 non-null    float64
 2   Nino3       472 non-null    float64
 3   Nino3anom   472 non-null    float64
 4   Nino4       472 non-null    float64
 5   Nino4anom   472 non-null    float64
 6   Nino34      472 non-null    float64
 7   Nino34anom  472 non-null    float64
dtypes: float64(8)
memory usage: 49.4 KB

Para acceder a una descripción estadística rápida del DataFrame podemos usar el método .describe()

df.describe()

	Nino12	Nino12anom	Nino3	Nino3anom	Nino4	Nino4anom	Nino34	Nino34anom
count	472.000000	472.000000	472.000000	472.000000	472.000000	472.000000	472.000000	472.000000
mean	23.209619	0.059725	25.936568	0.039428	28.625064	0.063814	27.076780	0.034894
std	2.431522	1.157590	1.349621	0.965464	0.755422	0.709401	1.063004	0.947936
min	18.570000	-2.100000	23.030000	-2.070000	26.430000	-1.870000	24.270000	-2.380000
25%	21.152500	-0.712500	24.850000	-0.600000	28.140000	-0.430000	26.330000	-0.572500
50%	22.980000	-0.160000	25.885000	-0.115000	28.760000	0.205000	27.100000	0.015000
75%	25.322500	0.515000	26.962500	0.512500	29.190000	0.630000	27.792500	0.565000
max	29.150000	4.620000	29.140000	3.620000	30.300000	1.670000	29.600000	2.950000

Podemos calcular el valor medio de una serie o un DataFrame usando el método .mean()

df["Nino34anom"].mean()

0.03489406779661016

df.mean()

Nino12        23.209619
Nino12anom     0.059725
Nino3         25.936568
Nino3anom      0.039428
Nino4         28.625064
Nino4anom      0.063814
Nino34        27.076780
Nino34anom     0.034894
dtype: float64

El método .mean() calcula el valor medio a lo largo de las columnas, sin embargo podemos calcular la media a lo largo de las filas usando el argumento axis

df.mean(axis=1)

datetime
1982-01-01    13.17500
1982-02-01    13.28750
1982-03-01    13.31625
1982-04-01    13.62375
1982-05-01    13.95750
                ...   
2020-12-01    12.02750
2021-01-01    12.27500
2021-02-01    12.65125
2021-03-01    13.26375
2021-04-01    13.19625
Length: 472, dtype: float64

De manera similar, podemos calcular la desviación estándar usando el método .std()

df.std()

Nino12        2.431522
Nino12anom    1.157590
Nino3         1.349621
Nino3anom     0.965464
Nino4         0.755422
Nino4anom     0.709401
Nino34        1.063004
Nino34anom    0.947936
dtype: float64

Para más funciones y operaciones se puede consultar la documentación oficial de Pandas.

2.6 Gráficos rápidos

Pandas nos permite generar gráficos rápidos usando el método .plot.

df.Nino34.plot();

../../_images/35453a8cab4586e5a2f01913d39e0b5ff4e1bfbe1179d9787446ce88be94a2bd.png

el método .plot() genera un gráfico de tipo linea simple. Sin embargo, podemos generar gráficos más complejos utilizando otros métodos como .hist que retorna un histográma

df.Nino34.plot.hist();
# df[['Nino12', 'Nino34']].plot.hist();

../../_images/0870a998b4629358491c86ca9e50bdaf621be917ac46e1dad9f3548a325bc7cd.png

O simplemente un diagrama de cajas que nos permitiría visualizar los datos de otra manera.

df[["Nino12", "Nino34"]].plot.box();

../../_images/5a89bc58a6bdaadbd5f4c5211779dbf97f1b263549b85bd682466bee51344df6.png

Para mas información de gráficos pueden consultar este link.

3. Xarray

Xarray es una librería ampliamente utilizada en el área de las geociencias para el análisis de datos multidimensionales (2-D, 3-D, …, N-D). Al igual que Pandas las principales ventajas de Xarray radican en la manipulación de datos mediante etiquetas y coordenadas en cada una de sus dimensiones.

3.5 Generación de gráficas

Al igual que Pandas, Xarray posee un módulo autocontenido para realizar gráficos sin necesidad de usar la librería Matplotlib. Para esto debemos usar el método .plot. Generemos un gráfico para un punto cualquiera donde se vea la evolución de la temperatura en el tiempo.

ds.Temperature.sel(lat=40, lon=-100, method="nearest").plot()

[<matplotlib.lines.Line2D at 0x7f2e92734d50>]

../../_images/de77467c85d8a538d5c0ad3f6ba5887d8a7153afd77b4cdfc291781a2aca493c.png

Ahora un gráfico donde se vea la distribución espacial de la temperatura para un tiempo en específico t=3

ds.Temperature.isel(time=3).plot()

<matplotlib.collections.QuadMesh at 0x7f2e911ffb50>

../../_images/bdda68ac317673d1a081a6dfb9ef8bbc8be38ac2c9fa55462c430abf834b3164.png

O simplemente el gráfico espacial de la temperatura media a lo largo de la dimensión temporal

ds.Temperature.mean("time").plot()

<matplotlib.collections.QuadMesh at 0x7f2e91131dd0>

../../_images/68b6161e634f1b61b3c6ef0d39ae65bebeaeadf7094dd0867bae43cb63f6a9f1.png

Conclusiones

En el presente cuadernillo aprendimos aspectos básicos como la creación, operación y selección de arrays (NumPy), dataframes (Pandas) y datasets/datarrays (Xarray). Estas librerías nos permitirán entonces manipular cualquier dato de caracter ambiental utilizando las potencialidades de cada librería.

Fuentes y Referencias

Rose, B. E. J., Kent, J., Tyle, K., Clyne, J., Banihirwe, A., Camron, D., May, R., Grover, M., Ford, R. R., Paul, K., Morley, J., Eroglu, O., Kailyn, L., & Zacharias, A. (2023). Pythia Foundations (Version v2023.05.01) https://doi.org/10.5281/zenodo.7884572