27th International ACM Symposium on High Performance Parallel and Distributed Computing (HPDC-2018)

  Leer Mas

Kan Balam - Arquitectura
Indice del artículo
Kan Balam
Descripción
Arquitectura
Imágenes
Todas las páginas

 

 

Procesamiento

El procesamiento numérico en KanBalam se lleva a cabo en los nodos de cálculo. Como ya ha sido mencionado, cada nodo es una computadora con procesadores, memoria, sistemas de entrada/salida (E/S) y un disco duro. A su vez, cada uno es operado por su propia imagen de sistema operativo. Existen dos tipos de ellos: regulares y especiales.

Los nodos de cálculo regulares contienen dos procesadores AMD Opteron 285, con una frecuencia de reloj de 2.6 GHz. Cada Opteron 285 contiene, a su vez, dos núcleos de procesamiento (cores). Además, cada nodo contiene 8 Gbytes de RAM y 1 disco duro de 160 Gbytes. También, en cada nodo existe una tarjeta Infiniband 4x para la conexión a la red de datos, una tarjeta G-Ethernet para el enlace a la red de administración, y una tarjeta IPMI para vincularse con la red de consolas.

Cada núcleo de procesamiento es capaz de realizar dos operaciones aritméticas de punto flotante por ciclo de reloj, por lo que su rendimiento teórico es de 5.2 GFLOPS. Así, la capacidad de procesamiento de cada nodo es de 20.8 GFLOPS. Los registros internos de cada núcleo son de 64 bits y las direcciones de memoria son de 48 bits.

Los nodos de cálculo especiales son similares a los regulares, con la diferencia de que contienen 64 Gbytes de RAM y dos discos duros de 144 Gbytes.

KanBalam contiene 337 nodos de cálculo regulares y 5 de cálculo especiales, para un total de 342 nodos, 1368 procesadores (cores) y 3000 Gbytes de RAM. El rendimiento teórico total es de 7113 GFLOPS.

Servicio y control

Además de los nodos de procesamiento, KanBalam contiene los siguientes nodos>

Login: son tres nodos idénticos a los nodos de cálculo regulares y su función es atender las conexiones remotas al cluster.

Servicio y control: son cuatro nodos similares a los nodos de cálculo regulares, con la diferencia de que contienen 4 discos duros configurados en RAID 6, además de fuentes y ventiladores redundantes. La función de estos nodos es la de proporcionar los diferentes servicios que permiten la operación del cluster (control de los demás nodos, sistemas de colas, monitoreo, etcétera).

Almacenamiento

El sistema de almacenamiento principal de KanBalam es distribuido y está basado en las tecnologías SFS20 de HP y LUSTRE de Cluster Filesystems Inc.

El esquema general del sistema de archivos LUSTRE consiste en tener un nodo de control, denominado MDS y varios nodos de almacenamiento, denominados OSSs. Las operaciones de E/S al sistema de archivos se llevan a cabo en forma paralela, utilizando simultáneamente los dispositivos de almacenamiento de cada OSS.

Cada nodo OSS tiene como espacio de almacenamiento 4 bandejas de discos SATA (SFS20), cada una con 12 discos de 250 Gbytes a 10,000 RPM. Los discos en cada bandeja están configurados en RAID 6, con un disco de spare, por lo que su capacidad final es de 2.5 Terabytes. Existen 16 nodos OSS, 64 bandejas de discos, y 768 discos. La capacidad total de almacenamiento es de 160 Terabytes, los cuales son visibles como un único sistema de archivos en cada uno de los nodos (cálculos regulares, cálculos especiales, login, servicio y control) del cluster.

Interconexión

El sistema de interconexión principal en la supercomputadora KanBalam es la red de datos, que está compuesta por dos switches Infiniband 4X de 288 puertos. La velocidad de cada conexión es de 10 Gigabits/s. La topología es fat tree-half blocking, de modo que cada nodo tiene una conexión a uno de los switches (192 nodos en cada switch), mientras que ambos switches tienen 96 conexiones entre sí.

A esta red se conectan todos los elementos del cluster, los cuales se utilizan  para la comunicación de datos entre procesos y las operaciones de E/S en el sistema de archivos principal.

Además de la red de datos, KanBalam tiene una red de administración y otra de consolas. La red de administración tiene 10 switches Gigabit ethernet de 48 puertos y un ancho de banda de 1000 Megabits/s, en tanto la red de consolas tiene 10 switches Fast ethernet de 50 puertos y un ancho de banda de 100 Megabits/s.

Ambas redes tienen una topología tipo estrella, cada una con un switch principal que les permite interconectarse entre si.

La red de administración cumple con la función de instalación de software, configuración del equipo, actualización de paquetes, organización y control del equipo en general.

La red de consolas permite el monitoreo de sensores, apagado y encendido de nodos, así como el control del sistema cuando no se pueda tener acceso mediante la red de administración.