Paralelización con R/4.3.1

El clúster ALICE tiene instalada la versión 4.3.1 de R, a disposición de todos sus usuarios. Son varios los paquetes instalados en la suite de R, disponibles utilizando el comando:

> library()

La versión instalada de R tiene soporte nativo para paralelización, tanto en el uso de álgebra lineal a través de BLAS (que utiliza las librerías MKL de Intel Oneapi) como OpenMP. El uso de rutinas de paralelización está ampliamente documentada en la documentacion de R: CRAN Task View: High-Performance and Parallel Computing with R.

Para hacer un uso eficiente de la paralelización de R, es necesario tomar medidas adicionales que no interfieran con el resto de usuarios. Los siguientes códigos de buenas prácticas permiten hacer un buen uso de R en paralelo:

  • Evitar el uso de la librería ‘parallel’, y usar en su lugar la librería ‘parallelly‘, que tiene un soporte más avanzado en las capacidades de paralelización.
  • Sustituir el uso de la función detectCores() por availableCores(), que toma el número de hilos disponibles a partir de la información del job que proporciona el gestor de colas.
  • Usar la librería RhpcBLASctl para especificar el número de hilos de computación, tanto para OpenMP como para BLAS. Esto puede conseguirse con las siguientes instrucciones:
 library('RhpcBLASctl')
 blas_set_num_threads(NCORES)
 omp_set_num_threads(NCORES)

donde NCORES es el número de hilos reservados en el trabajo.

Confiamos en que estas medidas sean útiles para mejorar la eficiencia de los cálculos en R. En cualquiera de los casos, siempre es recomendable hacer un pequeño benchmark para comprobar la combinación más eficiente de hilos que respete, en todo caso, el máximo de la reserva realizada.