Nuevas librerías para deep neural network de NVIDIA. https://developer.nvidia.com/blog/tensor-ops-made-easier-in-cudnn/

Todos los equipos de ALICE que soportan cálculos por GPU se han actualizado a la última versión disponible del driver de NVIDIA (525.60.11). Se han instalado también dos nuevas versiones de la toolkit de CUDA (11.8 y 12.0) que están ya disponibles a través de los módulos siguientes:

module load CUDA/11.8

module load CUDA/12.0

Además, se han instalado las librerías CUDA Deep Neural Network cuDNN 8.3 de NVIDIA, integradas dentro de CUDA-11.8, quedando a disposición de todos los usuarios. Recordamos que las colas alpha, beta y dseta tienen disponibles tarjetas gráficas para cálculos científicos.

python 3.11.1 disponible

Se han instalado nuevas versiones de python (3.11.1) con tres sabores diferentes:

  • python-3.11.1-scientific. Incorpora las librerías numpy, scipy y pandas, estándares en el ámbito del cálculo científico.
  • python-3.11.1-quantum. Incorpora, además de las librerías del módulo scientific, las librerías qibo y qiskit, para hacer simulaciones de ordenadores cuánticos.
  • python-3.11.1-highenergy. Incorpora, además de las librerías del módulo scientific, las librerías iminuit y quadpy, especializadas en optimización para sistemas de alta energía e integración numérica.

Todas las versiones están disponibles a través de módulos. Un listado completo y actualizado puede obtenerse con:

module avail

La actividad del CCAR no se vio interrumpida por el periodo no lectivo. En el mes de julio se enviaron a ALICE más de 1100 trabajos, consumiendo más de 215.000 horas-core. BRUNO estuvo también activo, con 250 trabajos enviados y unas 7.000 horas-core utilizadas. El mes de agosto se mandaron más de 500 trabajos a ALICE, con un total de más de 175.000 horas-core. Por lo que respecta a BRUNO, se mandaron unos 350 trabajos consumiendo más de 9.000 horas-core. Más de 240 TB se movieron en la red de datos de ALICE durante julio, frente a los 9 TB del mes de agosto. En BRUNO se movieron 2,5 TB en julio y apenas 500 GB en agosto.

En el apartado de hardware se ha añadido un nuevo nodo de computación a la cola dseta de ALICE, que cuenta ahora con 80 hilos adicionales en un Intel Xeon Gold 6242R a 3,1 GHz. Este nodo tiene también dos nuevas tarjetas gráficas para cálculos por GPU. Se ha gestionado y recepcionado también la compra de dos Intel Xeon Silver 4310 a 2,1 GHz, que se incorporarán a las colas gamma de ALICE y alpha de BRUNO, respectivamente. Todas estas adquisiciones añaden un total de 176 hilos de cálculo a disposición de los usuarios del CCAR.

En cuanto al software, se han implementado nuevos entornos de paralelización para pemitir un reparto eficiente de la carga de trabajo entre los nodos disponibles, sin necesidad de que el usuario mande trabajos a nodos específicos.

Nuevo Intel Xeon Gold de la cola dseta.

A finales de julio también hicimos una visita al nuevo edificio de Ciencias en el futuro edificio de Las Rozas 2, donde se ubicará el futuro CPD del CCAR. Durante la visita tuvimos la oportunidad de ver el estado de las instalaciones y plantear propuestas de mejora.

Visita al nuevo edificio de Las Rozas. De izquierda a derecha, José Luis Martínez Guitarte (director de UNEDLabs), Jaime Arturo de la Torre (director del CCAR), Antonio Rubio (Arquitecto de la UNED) y José Carlos Antoranz (Decano de la Facultad de Ciencias).
Actividades de junio de 2022

Entre las actividades del mes de junio, se enviaron alrededor de 1.200 trabajos a ALICE, consumiendo más de 87.000 horas-core. La red de datos movió más de 500 TB. Se enviaron alrededor de 40 trabajos a BRUNO, consumiendo más de 4.900 horas-core.

En el apartado técnico, el mes de junio conectamos a ALICE un nuevo nodo de cálculo, c-3-2, equipado con procesadores Intel Xeon Gold 6242R. 80 nuevos hilos de proceso que se incorporan al principal clúster de investigación del CCAR.

Imagen del nuevo nodo de computación, en formato rack, dentro del armario.
Nuevo nodo con procesadores Intel Xeon Gold, 2 GPU A4000 y 192 GB de RAM.

Hemos instalado un nuevo gestor de base de datos para optimizar las actualizaciones de información de los nodos. También hemos asesorado la compra de dos nuevos equipos de investigadores de nuestro centro. Hemos adquirido, por último, un nuevo SAI de 3 kVA para alimentar workstations, con sistemas de monitorización y actuación en caso de emergencias.

En el apartado de formación hemos solicitado un nuevo Proyecto de Innovación Docente, en colaboración con el Grupo de Innovación Docente en Física, para el curso 2022/2023. Este nuevo PID versará sobre «Formación transversal en herramientas de (súper)computación científica». Atendiendo a la demanda de los usuarios, contamos para esta nueva edición con nuevos ponentes para ampliar la oferta formativa de software de computación en entornos distribuidos.

Actividades de mayo de 2022

En el mes de mayo se enviaron más de 1.200 trabajos a ALICE, consumiendo unas 223.000 horas-core. La red de datos transfirió más de 850 TB de datos. Se enviaron alrededor de 1110 trabajos a BRUNO, consumiendo unas 4800 horas-core en total.

El Proyecto de Innovación Docente con el que el CCAR tiene un acuerdo impartió el último de los talleres de este curso 2021-2022. Más de 100 usuarios inscritos y un promedio de 20 asistentes por taller, que han enviado más de 1.700 trabajos a BRUNO. El próximo mes se enviarán encuestas de satisfacción para los participantes, de modo que podamos comprobar la idoneidad de los talleres y plantear su continuidad.

Se han mejorado las políticas de seguridad frente a intentos fallidos de inicio de sesión en el clúster. Además, se ha automatizado el proceso de altas y bajas de usuario en cualquiera de nuestros clústeres.

Actividades de abril de 2022

El mes de abril se enviaron más de 2.400 trabajos a ALICE, consumiendo alrededor de 270.000 horas-core. La red de datos transfirió más de 850 TB entre los nodos. A BRUNO se enviaron 540 trabajos, que consumieron 4.800 horas-core en total.

Este mes adoptamos una nueva configuración para el envío de trabajos a ALICE y a BRUNO, aprovechando que muchos nodos disponen de discos scratch SSD (de alta velocidad) y HDD (de alta capacidad). En función del uso de datos que vaya a hacerse, los trabajos se envían automáticamente a uno u otro disco. En ALICE, por ejemplo, añadiendo la variable

DiskSpace="50"

es posible hacer una reserva de 50GB y redirigir la salida a un disco SSD. Actualizamos también el sistema de monitorización para hacer uso de la interfaz Datawrapper, lo que permite una mejor visualización de los discos, la temperatura y la carga de los SAI. Por último, creamos una base de datos con información actualizada sobre todos los nodos, incluyendo todo el hardware instalado, que se muestra en nuestro sitio web.

A finales de abril el CCAR recibió la visita de Focus Cooling, empresa fabricante de sistemas de Refrigeración para Data Centers que ofrece soluciones eficientes para instalaciones de HPC con problemas de estratificación de calor. Durante la visita tuvimos la oportunidad de discutir la necesidad de soluciones de alta eficiencia energética para centros de proceso de datos, con una relación coste-beneficio que haga rentable la inversión.

De derecha a izquierda, David Romanos, Critical cooling Director de Focus Cooling, y J.A. de la Torre, director del CCAR.
Actividades del mes de marzo

El mes de marzo se enviaron alrededor de 900 trabajos a ALICE, consumiendo un total de 350.000 horas-core. La red de datos transfirió más de 2.500 TB entre los nodos. A BRUNO se enviaron alrededor de 750 trabajos, que consumieron 1.900 horas-core en total.

El CCAR ha gestionado la compra de un nuevo nodo de cálculo para el proyecto de investigación «Estructura Óptima de Capas Catalíticas en Pilas de Combustible PEM de Hidrógeno y Efectos Reactivo-Difusivos en Llamas de Hidrógeno». Este nuevo nodo aumentará las capacidades de HPC del grupo. Gracias al acuerdo de servicio vigente con el departamento adscrito a este grupo, el CCAR verá también incrementadas sus prestaciones con la incorporación de procesadores Intel Xeon Gold.

Por lo que respecta a cuestiones técnicas, hemos habilitado el uso de sesiones interactivas con redirección de X11 tanto en ALICE como en BRUNO. Además, hemos verificado y ampliado las directivas de seguridad para hacer frente a ataques externos. Estamos implementando también el uso de un sistema de doble scratch para cálculos rápidos de poca IO.

Actividades de febrero de 2022

El mes de febrero se enviaron a ALICE alrededor de 700 trabajos, consumiendo unas 260.000 horas-core de computación. Se transfirieron más de 900 TB de datos a través de la red. Respecto a BRUNO, se enviaron más de 200 trabajos, consumiendo más de 2.500 horas-core.

En el apartado de gestión, se creó un nuevo sistema de monitorización de los SAIs disponibles en el CPD, lo que nos permite controlar en tiempo real la carga eléctrica de los distintos racks. Realizamos el cuarto taller de software de computación en entornos distribuidos, enfocado en esta ocasión a RandomPhase. También finalizamos algunas pruebas de rendimiento con y sin HT en nodos de cálculo. El uso de HT es, en la mayoría de los casos, beneficiosa. Por último, actualizamos la web del CCAR incluyendo la cartera completa de servicios.

A finales de febrero recibimos la visita de la Escuela Técnica Superior de Ingenieros Industriales de la UNED a las instalaciones del CCAR, avanzando en la propuesta de actuaciones conjuntas que nos permitan dar servicio a los investigadores de la Escuela.

Visita de la ETSII de la UNED al CCAR. De derecha a izquierda, Sixto Jansa (director de la OTRI), Cristina González (directora de la ETSII), Jaime Arturo de la Torre (director del CCAR), Eduardo Salete (subdirector de Investigación de la ETSII), Carlos Antoranz (decano de la Facultad de Ciencias), Francisco Ogando (PTU de la ETSII) y Alejandro Pérez (técnico de apoyo del CCAR).

Actividades de enero 2022

El mes de enero se enviaron más de 1800 trabajos a ALICE, consumiendo 140.000 horas-core. Se han transferido más de 14 TB en la red de datos. En BRUNO se enviaron 217 trabajos consumiendo 600 horas-core.

En el apartado de gestión, se han tramitado 24 incidencias y mejoras durante el mes de enero. Entre ellas, hemos habilitado el certificado de servidor SSL, permitiendo la conexión segura a nuestra web https://ccar.uned.es. Corregimos también algunos errores en el sistema de monitorización. Se ha impartido el tercer taller del ciclo de herramientas de computación, explicando el funcionamiento de uno de los programas de dinámica molecular más usado por la comunidad científica.

Visitamos también la Escuela Técnica Superior de Ingenieros Industriales para dar a conocer el CCAR. En una reunión productiva, conocimos las necesidades de algunos de sus investigadores y programamos una visita a las instalaciones del CCAR para seguir explorando sinergias.

Actividades de diciembre 2021

El mes de diciembre se enviaron 3200 trabajos a ALICE, consumiendo más de 120.000 horas-core. La red de datos transfirió 12.7 TB entre los nodos de cálculo. Instalamos octave en BRUNO para ponerlo a disposición de los estudiantes. Hemos configurado un sistema de gestión de tickets para canalizar adecuadamente las consultas de usuarios y actualizado el sistema de alarmas por errores de disco, falta de espacio, temperatura y nodos caídos. También hemos configurado el uso de entornos gráficos en los nodos de cálculo mediante forwardwing.

En el apartado de gestión, se han mantenido conversaciones, con apoyo del CTU, con los responsables de Mathworks para hacer uso de la licencia Parallel Server de MATLAB en nuestro clústers. Tuvimos también una reunión con ingenieros técnicos de seguridad de Oracle Cloud para plantear futuras colaboraciones.

Se han firmado dos nuevos acuerdos de servicio con la Facultad de Ciencias y con el Máster en Física de Sistemas Complejos, para ofrecer horas de computación y servicios de soporte técnico a profesores y estudiantes.