À propos du produit de matrices et de son optimisation...<br>Cas particulier d'un serveur Origin 2000

Notice: Undefined variable: SERVER_ADDR in /mnt/114/sda/5/e/thomas.leduc/constantes.php on line 20
À propos du produit de matrices et de son optimisation...<br>Cas particulier d'un serveur Origin 2000

[ accueil \| doctorat \| Java \| JavaScript \| faqs \| cours ]

rdv sur mon nouveau site - visit my new website

À propos du produit de matrices et de son optimisation...
Cas particulier d'un serveur Origin 2000

Notes importantes :

pour plus d'information concernant la "Performance Tuning Optimization for Origin2000" rendez-vous ici.
il s'agit ici d'optimiser le produit de deux matrices carrées. Nous étudions successivement plusieurs solutions séquentielles ou parallèles, avec ou sans option de compilation, avec ou sans les BLAS, avec ou sans OpenMP...,
la commande runon numéroCpu ./a.out listeDesArguments permet de lancer l'exécutable de nom a.out du répertoire courant sur le processeur de numéro numéroCpu. Les processeurs de numéro 16 à 31 et 48 à 63 sont des processeurs rapides cadencés à 250 MHz, tous les autres (de 0 à 15 et de 32 à 47) sont cadencés à 195 MHz.
comme le montre le tableau ci-après, le choix de la méthode de calcul n'est pas anodin puisque dans le cas d'un produit de matrices carrées à 2000x2000 éléments le même résultat peut-être obtenu en plus de 30 minutes ou en 5 secondes !

Remarque :

pour obtenir des temps de calcul "optimaux" dans le cas d'une exécution en parallèle sur 8 processeurs, nous avons "réservé" un jeu complet de 8 cpu cadencées à 250 MHz sur le même module (le numéro 8 en l'occurence) à l'aide de la commande miser_cpuset.

Taille	Temps en secondes
	Versions séquentielles						Versions parallèles
	Sans optimisation		-Ofast=ip27		CBLAS		OpenMP	OpenMP -Ofast=ip27	CBLAS-MP
	195 MHz	250 MHz	195 MHz	250 MHz	195 MHz	250 MHz	pour 8 processeurs (OMP_NUM_THREADS=8)
100	0.12	0.09	0	0	0	0	0.04	0.03	0.01
200	0.96	0.73	0.04	0.04	0.05	0.03	0.12	0.02	0.03
300	3.25	2.45	0.15	0.12	0.16	0.12	0.4	0.05	0.04
400	9.96	6.99	0.37	0.28	0.37	0.29	1.04	0.09	0.08
500	16.73	12.67	0.73	0.57	0.72	0.56	1.95	0.15	0.14
600	39.04	28.68	1.28	0.99	1.26	0.98	4.17	0.2	0.18
700	63.3	47.88	2.07	1.6	2.05	1.56	7.75	0.33	0.27
800	115.02	85.16	3.1	2.39	2.94	2.29	12.61	0.44	0.37
900	166.54	125.92	4.4	3.39	4.23	3.26	19.3	0.62	0.52
1000	240.27	185.88	6.06	4.69	6.21	4.72	29.41	0.9	0.71
2000	?	2061.73	63.13	48.63	49.54	37.84	313.21	7.59	5.08

Produit de matrice - le programme principal

#include <stdio.h>
#include <stdlib.h>
#include <time.h>

extern void produitMatrice(double *A,double *B,double *C,int n);

void initialisation(double *T,int n)
{
  double nn = n*n;
  int i;
  for(i=0 ; i<nn ; i++) 
    T[i] = (double) rand() / (double) RAND_MAX;
}

double trace(double* T,int n)
{
  int i;
  double sommeTermesDiagonaux = 0;
  for(i=0 ; i<n ; i++)
    sommeTermesDiagonaux += T[i*(n+1)];
  return sommeTermesDiagonaux;
}

int main(int argc,char *argv[])
{
  clock_t dateDebut,dateFin;
  int n = atoi(argv[1]);  
  double *A = (double*) calloc(n*n,sizeof(double));
  double *B = (double*) calloc(n*n,sizeof(double));
  double *C = (double*) calloc(n*n,sizeof(double));

  initialisation(A,n);
  initialisation(B,n);
  
  dateDebut = clock();
  produitMatrice(A,B,C,n);
  dateFin = clock();
  
  printf("Execution en %5.2f secondes - Trace(C) = %.4f\n",
	 (double) (dateFin-dateDebut)/(double) CLOCKS_PER_SEC,trace(C,n));

  free(A);
  free(B);
  free(C);    
  return EXIT_SUCCESS;
}

Le produit de matrice : version simple avec ou sans optimisation à la compilation

void produitMatrice(double *A,double *B,double *C,int n)
{
  int i,j,k,in=0,kn;
  register double tmp;
  
  for(i=0 ; i<n ; i++) {
    for(j=0 ; j<n ; j++) {
      tmp = 0;
      for(k=0 , kn = 0 ; k<n ; k++ , kn += n)
        tmp += A[in+k]*B[kn+j];
      C[in+j] = tmp;
    }
    in += n;
  }
}

résultats à l'exécution :

% . /opt/modules/modules/init/sh
% module load modules MIPSpro.7311 scsl
% cc produitMatricesMain.c produitMatricesSimple.c
% runon 10 ./a.out 2000

% runon 52 ./a.out 2000
Execution en 2061.73 secondes - Trace(C) = 999866.6307
% cc produitMatricesMain.c produitMatricesSimple.c -Ofast=ip27
% runon 10 ./a.out 2000
Execution en 63.13 secondes - Trace(C) = 999866.6307
% runon 52 ./a.out 2000
Execution en 48.63 secondes - Trace(C) = 999866.6307

Conclusions :

l'ajout de l'option -Ofast=ip27 (IP27 est le type générique des cartes nodales de bacchus) à la compilation permet d'accélérer l'exécution du code d'un facteur 37 dans le cas d'un produit de matrices carrées de taille 2000 !
il est préférable de travailler sur un processeur cadencé à 250 MHz (accélération de l'ordre de 1.3 par rapport à un processeur cadencé à 195 MHz).

Le produit de matrice : version OpenMP

#include <omp.h>

void produitMatrice(double *A,double *B,double *C,int n)
{
  int i,j,k,in=0,kn;
  double tmp;
  /* ATTENTION : ICI ON A MODIFIE LE CALCUL DE LA VALEUR DE LA VARIABLE "in" ! */
#pragma omp parallel for private(j,k,in,kn,tmp) shared(A,B,C)
  for(i=0 ; i<n ; i++) {
    in = i*n; 
    for(j=0 ; j<n ; j++) {
      tmp = 0;
      for(k=0 , kn = 0 ; k<n ; k++ , kn += n)
        tmp += A[in+k]*B[kn+j];
      C[in+j] = tmp;
    }
  }
}

résultats à l'exécution :

% cc produitMatricesMain.c produitMatricesOMP.c -mp
% OMP_NUM_THREADS=8 ./a.out 2000
Execution en 313.21 secondes - Trace(C) = 999866.6307
% cc produitMatricesMain.c produitMatricesOMP.c -mp -Ofast=ip27
% OMP_NUM_THREADS=8 ./a.out 2000
Execution en  7.59 secondes - Trace(C) = 999866.6307

Conclusions :

sans l'optimisation par l'option -Ofast=ip27 ajoutée à la compilation, la version OpenMP sur 8 processeurs n'accélère la version séquentielle que d'un facteur 6 !

Le produit de matrice : version CBLAS

#include <cblas.h>

void produitMatrice(double *A,double *B,double *C,int n)
{
  /* Utilisation des BLAS de niveau 3 - man dgemm pour plus de details */
  double alpha = 1., beta = 0.;
  cblas_dgemm(CblasRowMajor,CblasNoTrans,CblasNoTrans,n,n,n,alpha,A,n,B,n,beta,C,n);
}

résultats à l'exécution :

% cc produitMatricesMain.c produitMatricesCBLAS.c -lblas
% runon 40 ./a.out 2000
Execution en 49.54 secondes - Trace(C) = 999866.6307
% runon 62 ./a.out 2000
Execution en 37.84 secondes - Trace(C) = 999866.6307
% cc produitMatricesMain.c produitMatricesCBLAS.c -lblas_mp
% OMP_NUM_THREADS=8 ./a.out 2000
Execution en  5.08 secondes - Trace(C) = 999866.6307

Conclusions :

utilisez les BLAS (ou les CBLAS en l'occurence) pour obtenir un code performant !
pour plus de performance encore, je vous invite à utiliser les BLAS (ou CBLAS) parallèles, en précisant -lblas_mp (et non simplement -lblas) à l'édition de liens.

Notice: Undefined index: SCRIPT_FILENAME in /mnt/114/sda/5/e/thomas.leduc/lib/formatage.php on line 49

Copyright © Thomas LEDUC, version 0.2, le 1 janvier 1970.
Warning: mysql_connect() [function.mysql-connect]: Access denied for user 'thomas.leduc'@'172.20.245.56' (using password: YES) in /mnt/114/sda/5/e/thomas.leduc/lib/mysql.php on line 20

Notice: sql.free.fr thomas.leduc PASSWD ... est injoignable !; in /mnt/114/sda/5/e/thomas.leduc/lib/divers.php on line 6

À propos du produit de matrices et de son optimisation...Cas particulier d'un serveur Origin 2000

À propos du produit de matrices et de son optimisation...
Cas particulier d'un serveur Origin 2000