Preguntas Frecuentes

CONEXIONES, SESIONES Y MÓDULOS

1. ¿Cuál es la dirección IP de la máquina?

La dirección IP la puede encontrar en el acuse de su proyecto.

2. ¿Cómo cambio mi contraseña (password)?

Para cambiar su contraseña debe utilizar el comando  "passwd”.

3. Cambié mi password y ahora no puedo entrar a la supercomputadora

Por favor, contacte a la Coordinación de Supercómputo para establecer una nueva contraseña.

4. ¿El cargar un módulo, por ejemplo MPI, implica que ese módulo se cargará de forma automática y definitiva en futuras sesiones?

No. El cargar un módulo sólo afecta a la sesión activa desde donde fue cargado. Para hacer cambios definitivos en su ambiente, consulte la siguiente pregunta.

5. ¿Cómo consigo que los módulos que siempre uso se carguen de forma automática?

Incluya en el archivo de configuración inicial de su cuenta los módulos a cargar. Por ejemplo, si desea agregar el módulo para MPI:   module load mpi/intel/4.1.0 

El archivo (de configuración inicial) que debe modificar depende del shell que utiliza. Estos son:

bash: .bashrc

tcsh o csh: .cshrc

6.  Estoy tratando de conectarme vía ssh a  la supercomputadora, pero no puedo conseguirlo.

Por favor comuníquese a la Coordinación de Supercómputo para conocer el estado de sus cuentas y/o del servicio.

SISTEMA DE COLAS LSF

7. ¿Cómo mandar un trabajo (job) al sistema de colas?

Si la descripción de su trabajo está en el archivo script, se hace de la siguiente forma:

bsub < script

Es importante no omitir el símbolo "<", ya que de hacerlo el sistema de colas no interpretará de forma correcta el contenido del script.

Lo anterior quiere decir que muy probablemente no se genere ningún error, pero el resultado de encolar el trabajo no será el correcto (por ejemplo, se utilizaría el número de procesadores y la cola por omisión).

Un ejemplo de descripción de trabajo (script) , es el siguiente:

#BSUB -q nombre_de_cola

#BSUB -oo archivo_de_salida

#BSUB -eo archivo_de_error

#BSUB -n número_de_cores

mpirun -np número_de_cores  nombre_de_programa

8. ¿Cómo puedo saber la razón por la que un job no está ejecutándose (espera en la cola)?

Use la opción -p del comando bjobs. Es decir: bjobs -p

Algunos resultados son los siguientes:

a ) Se alcanzó el límite máximo de cores permitidos a un usuario en una cola (User has reached the per-user job slot limit of the queue).

b ) La cola alcanzó su límite global de cores (The queue has reached its job slot limit).

c ) La cola está inactiva (The queue is inactivated by the administrator).

9. ¿Cómo puedo cancelar/matar un trabajo (job)?

Con la instrucción bkill y el identificador del job (jobID),

bkill jobID

el jobID es el número que se obtiene al encolar un trabajo.

10. ¿Cómo puedo saber la cantidad máxima de cores para que se ejecute un job lo más pronto posible?

No es fácil determinarlo porque depende de diversos factores. En primer lugar, de la prioridad dinámica del usuario, en segunda instancia de la disponibilidad de recursos y finalmente, de otros factores como límites de cores por grupo.

11. ¿Cómo puedo verificar que se hayan asignado correctamente la cantidad de cores solicitados?

Ejecutando la instrucción: bjobs -l

La salida de este comando será parecida a la siguiente:

Job <920808>, User <usuario>, Pro ject <default>, Status <RUN>, Queue <q_64p_120h>

, Command <#BSUB -q q_64p_120h;#BSUB -oo out.txt.64;#BSUB

-eo err.txt.64;#BSUB -n 64; mpirun -np 64 ./hola.mpi >

Thu Mar 25 18:17:24: Submitted from host <mn323>, CWD </home/usuario>,

Output File (overwrite) <out.txt.64>, 64 Processors Requested;

Thu Mar 25 18:17:27: Started on 64 Hosts/Processors <64*lsfhost.localdomain> <16*mn1>

<16*mn2> <16*mn3> <16*mn4>, Execution Home </home/usuario> ...

La línea que dice "Started on" indica el número de cores asignados al trabajo.

12. ¿Cómo puedo verificar que el trabajo realmente esté utilizando los procesadores asignados?

Ejecute la siguiente instrucción: pdsh -w mn[lista-nodos] ”ps -u login”

donde:

lista-nodos es la lista de nodos asignados para la ejecución de su trabajo. Esta lista se puede consultar mediante el comando "bjobs -l" (ver pregunta anterior).

login es su nombre de usuario (loginname).

PROGRAMAS PARALELOS

13. ¿Cuál es la cantidad máxima de cores que se pueden utilizar en programas con OpenMP?

Dieciséis, debido a que existen 2 procesadores con 8 cores cada uno, 16 cores en total por nodo de cálculo.

14. ¿Cuál es la cantidad máxima de cores que se pueden utilizar en programas con MPI?

La cantidad máxima de cores está delimitada por el Sistema de Colas LSF, es decir, el límite de cores depende de la cola a utilizar.

15. ¿Debo instalar MPI para ejecutar un programa con MPI?

No. La supercomputadora ya cuenta con MPI. Sólo debe cargar el módulo de mpi para configurar el ambiente y poder usar los comandos mpicc, mpiCC, mpif77, mpirun, etcétera.

16. ¿Los programas con MPI deben ejecutarse mediante el comando mpirun?

Si se utiliza mpirun, la forma correcta de utilizarlo es:

mpirun -np numero_de_procesadores_a_utilizar ./ejecutable_mpi

Un script correcto para programas con MPI es el siguiente:

#BSUB −q cola

#BSUB −oo archivo_ de_ salida

#BSUSB −eo archivo_ de_ error

#BSUB −n 64

mpirun −np 64  ./a.out.mpi

17. ¿Puedo ejecutar programas con mpi desde la línea de comandos?

Se recomienda hacer pruebas de programas MPI a través del sistema de colas LSF.

18. ¿Es recomendable utilizar una versión de MPI (MPICH, LAM, etc.) diferente a la versión existente en la supercomputadora?

La versión instalada ya está configurada y optimizada para usar la red de datos Infiniband y el sistema de colas LSF. Con otras distribuciones (versiones) conseguir lo anterior representa más trabajo que no es necesario.

APLICACIONES

19. ¿Un usuario puede solicitar la instalación de un programa en la supercomputadora?

Sí, puede solicitarlo al personal de la Coordinación de Supercómputo. En el caso de software con licencia, el solicitante deberá proporcionarla.

20. ¿Está instalado Mathematica o Matlab en la supercomputadora?

No están instalados porque no pueden ser optimizados para la arquitectura de la supercomputadora.

21. ¿Cuál es el número máximo de cores que se puede utilizar con Gaussian?

Dieciséis.

22. ¿Cómo puedo evitar que un archivo rwf generado por Gaussian sature un nodo de almacenamiento?

Creando varios archivos pequeños en vez de uno grande. En su archivo de entrada puede indicar una línea similar a la siguiente:

%RWF=cuo-1,1TB,cuo-2,1TB,cuo-3,1TB,cuo-4,1TB,cuo-5,1TB,cuo-6,1TB,cuo-7,1TB,cuo-8,1TB,cuo-9,1TB,cuo-10,1TB

23. ¿Qué programas o bibliotecas tienen instalados en la supercomputadora?

Por favor consulte la sección de software de la página de supercómputo.

GENERALES

24. ¿Cómo puedo saber a qué grupo del sistema operativo pertenezco?

Utilice la instrucción groups.

25. ¿Cómo se contabiliza el uso de los recursos en la supercomputadora?

La unidad de consumo es hora-core. El consumo se contabiliza a partir de los recursos computacionales asignados a cada trabajo multiplicado por su duración.

Para un trabajo que utiliza 30 cores en una cola de 32 cores, el consumo de recursos se contabilizará con base en 30 cores.