DHOB (IU5SGN): NVidia

Visualizzazione post con etichetta NVidia. Mostra tutti i post

lunedì 30 dicembre 2024

Ollama e Jetson Nano 4G

Ancora nel tentativo di utilizzare in modo serio la Jetson Nano ho provato ad usarla per Ollama seguendo le istruzioni da https://dev.to/ajeetraina/running-ollama-2-on-nvidia-jetson-nano-with-gpu-using-docker-hfi (e' stato usato il docker perche' usando lo script di installazione dal sito di Ollama fallisce per la necessita' di capabilitie maggiore di quella disponibile da Jetson Nano)

Per creare il docker si seguono i comandi

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey \
    | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list \
    | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' \
    | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update

sudo apt-get install -y nvidia-container-toolkit

sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

sudo docker run -d --gpus=all --runtime nvidia -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

sudo docker exec -it ollama ollama run llama2

Alcune persone su Github si lamentano che il docker non sfrutti la GPU della Jetson ma installando il comando jtop (tramite  sudo pip3 install -U jetson-stats) si vede che il carico sulla GPU non e' a zero

schermata di jtop

Per vedere se ollama e' in fuzione basta bussare alla porta 11434

La mia Jetson ha una ram di 4Gb ma solo pochi modelli sono in grado di girare (a meno di non quantizzarli)

Funzionano i seguenti modelli

tinyllama

llama3.2:1b

starcoder:1b

Non funzionano invece

orca-mini:3b (ncessita 5.1 GiB di ram )

mistral-small (necessita 14.4 Gib)

llama3.2

Per interagire si puo' installare web ui (che e' in generale decisamente piu' lenta della linea di comando) tramite il docker

docker run -d -p 3000:8080 --runtime=nvidia --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui2 --restart always ghcr.io/open-webui/open-webui:cuda

docker run -d -p 3000:8080 --gpus all --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:cuda

L'unico aspetto veramente positivo di Jetson nano e' il consumo massimo di 5W

comunque a questo semplice prompt l'AI TinyLLama ha fatto una serie veramente sanguionosa di errori

>>> raccontami la storia di Albert Einstein

Einstein, uno dei più grandi pensatori e fisici del XX secolo, nacque nel 1879 a Ulm, in Germania. La sua infanzia fu caratterizzata da una forte intesa con gli elementi naturali e una grande affinità per la matematica.Nel 1890 Einstein iniziò le sue scuole medie a Kiel e Karlsruhe, dove cominciò a studiare fisica e matematica. Nel 1896 si unì al Liceo Max Planck di Göttingene, dove incontrò il suo futuro compagno di insegnamento, Max Planck.Einstein studiò filosofia, letteratura e lingue, ma la sua vera passione era la fisica. Durante i suoi primi anni universitari, si avvicinò alla teoria della relatività Speciala di Albert Michelson e George Gamow, che cercavano di spiegare l'effetto fotoelettrico.Nel 1905 Einstein pubblicò i suoi esperimenti sull'effetto elettronico, che dimostrarono la connessione tra le onde e le particelle. Questa scoperta lo aprì alla teoria della relatività generale di Albert Einstein, sviluppata dopo il 1905. Nel 1914 Einstein si unì al corpo terrestre militare tedesco durante la Prima Guerra Mondiale e fu catturato dai soldati austriaci. Durante l'arresto Einstein scrisse la sua famosa lettera a Max Planck, in cui chiese di essere reso responsabile per il tempo di vita che aveva trascorso nella prigione. Nel 1919 Einstein ricevette la medaglia Nobel per la fisica per la sua teoria della relatività generale. Tuttavia, ricevette anche una serie di minacce e messaggi oscure, tra cui un'ultima minaccia che lo costringe a lasciare l'Austria nel 1933.Durante il regime nazista, Einstein si ritirò in Svizzera, dove continuò a studiare fisica. Nel 1932 ricevette la medaglia Copley per la sua carriera accademica. Tuttavia, si unì all'Ordine di Malta nel 1933 e fu invitato a lasciare gli Stati Uniti. Nel 1935 Einstein pubblicò il suo libro "La relatività generale", che divenne un successo internazionale. Tuttavia, ricevette sempre più minacce e messaggi oscari, e nel 1938 scrisse la sua famosa formula dell'Einstein-Rosen bridge. Durante l'Anno di Natale 1939 Einstein fu attaccato con una bomba atomica a Praga, in Cecoslovacchia. La sua salute si deteriorò ulteriormente negli anni successivi e morì il 18 April 1955 a Princeton, nel New Jersey. Einstein lasciò un'impronta indelebile sulla scienza e nella cultura, e la sua teoria della relatività generale rimane una delle fondamenta fondazionali dell'attuale fisica. La sua storia è un esempio di come la curiosità, l'iniziativa e la determinazione possano portare a grandi risultati scientifici.

lunedì 16 ottobre 2023

NVidia su Debian 12

Non pensavo che sarei riuscito a montare le librerie NVidia su Debian (di solito usavo Ubuntu per semplicita') ma alla fine con il passare del tempo le cose sono migliorate molto anche in Debian

Come macchina di prova ho utilizzato un Thinkpad 550 con una GeForce 940M (384 cores 1 Gb)

Per prima cosa si devono modificare i repositories per includere contrib e non-free

apt install nvidia-driver firmware-misc-nonfree

apt-get install freeglut3-dev build-essential libx11-dev libxmu-dev libxi-dev libgl1-mesa-glx libglu1-mesa libglu1-mesa-dev libglfw3-dev libgles2-mesa-dev

apt -y install nvidia-cuda-toolkit nvidia-cuda-dev

Per testare ho provato a compilare gli esempi delle CUDA libraries

git clone https://github.com/zchee/cuda-sample.git

Per compilare gli esempi si deve modificare il Makefile presente in ogni directory modificando

CUDA_PATH?=/usr

ed eliminando in SMS ?= tutti i valori ad esclusione di 50 e 52 (20 e 30 sono considerati obsoleti e non compilano piu', i restanti sono indicati come deprecati)

Si lancia quindi il make aggiungendo prima la GLPATH

GLPATH=/usr/lib make

Il problema finale e' stato che gli esempi che usano le OpenGL non riuscivano ad aprirsi mostrando l'errore code=46(cudaErrorDevicesUnavailable)

La soluzione e' quella di far precedere al comando le indicazioni

__NV_PRIME_RENDER_OFFLOAD=1 __GLX_VENDOR_LIBRARY_NAME=nvidia

per lanciare Mandelbrot si usera' quindi

__NV_PRIME_RENDER_OFFLOAD=1 __GLX_VENDOR_LIBRARY_NAME=nvidia ./Mandelbrot

giovedì 18 novembre 2021

Mandelbrot Cuda su Nvidia Jetson Nano

Ho ripreso in mano la scheda Jetson Nano per iniziare a programmare in CUDA

Gli esempi di CUDA hanno gia' un sorgente per l'insieme di Mandelbrot ma visto che era a scopo didattico sono partito da zero

L'idea e' quella di usare la GPU per i calcoli. Ogni thread calcola una riga dell'immagine. Visto che ogni block della Nvidia puo' gestire al massimo 1024 thread la massima dimensione che il sorgente puo' generare e' 1024x1024

Per condividere una memoria tra la GPU e la CPU (ognuna puo' accere solo alle proprie risorse) si usa cudaMallocManaged. CudaMemset port i valori della matrice tutti a zero

la funzione kernel e'e quella che viene eseguita dalla GPU. Una volta lanciato il kernel la GPU restituisce il controllo alla CPU solo quando tutti i threads sono terminati. La variabile threadIdx viene utilizzate come indice di colonna dell'immagine

al termine l'array viene convertito in una immagine ppm a scala di grigio (nello specifico si sono solo due colori)

per compilare si usa nvcc con gli switch per indicano la compilazione sull'architettura 50 (relativa alla GPU sulla Jetson) con l'ottimizzazione fast_math

nvcc -use_fast_math -arch=sm_50 mand.cu -o mand

Ho usato VSCode con il terminale ma per programmare Cuda si puo' usare NSight (una versione di Eclipse con plugin NVidia) contenuto nei Cuda Tools

questo il codice

#include <stdio.h>
#include <time.h>

__global__ void kernel (int max, char *matrice)

{
   int id = threadIdx.x;

   /*zoom1
   const double CxMin=-0.3041;
   const double CxMax=-0.1874;
   const double CyMin=-0.8867;
   const double CyMax=-0.7699;*/

  /*zoom2*/
   const double CxMin=-0.2;
   const double CxMax=-0.074;
   const double CyMin=-1.058;
   const double CyMax=-0.933;

   /*insieme completo
   const double CxMin=-2.5;
   const double CxMax=1.5;
   const double CyMin=-2.0;
   const double CyMax=2.0;*/
   
   const int iterazioni = 4096;
   double x_new,y_new,x,y;
   double a,b;

   double PixelWidth=(CxMax-CxMin)/max;
   double PixelHeight=(CyMax-CyMin)/max;

   
   for (int s=0;s<max;s++)
   {
    x = 0;
    y = 0;
    a = CxMin + (PixelWidth*id);
    b = CyMin + (PixelHeight*s);
    for (int k=0;k<iterazioni;k++)
      {
      x_new = (x*x)-(y*y)+a;
      y_new = (2*x*y)+b;
      if (((x_new*x_new)+(y_new*y_new))>4)
         {
            // colora il punto
            matrice[id*max+s] =(k%2)*255;
            k=iterazioni;
         }
      x = x_new;
      y = y_new;
      }
   }
}

int main(void)
{

  clock_t tic = clock();
  // crea la matrice in GPU
  int dimensione = 1000; 
  char *matcuda;
  // crea un array Cuda
  cudaMallocManaged(&matcuda,dimensione*dimensione*sizeof(char));
  // azzera tutti i valori dell'array 
  cudaMemset(matcuda,0,dimensione*dimensione*sizeof(char));
  

 // 1024 e' il numero di threads che vengono eseguiti in contemporanea
 // e' il valore massimo per ogni block della NVidia
 // tra parentesi si possono passare variabili al kernel 
 kernel <<<1, dimensione>>>(dimensione,matcuda);
 
cudaDeviceSynchronize();
clock_t toc = clock();
/*
for (int s=0;s<dimensione;s++)
   {
      for (int t=0;t<dimensione;t++)
         {
         printf("%i",matcuda[(dimensione*s)+t]);
         }
   printf("\n");
   }
*/
printf("Elapsed: %f seconds\n", (double)(toc - tic) / CLOCKS_PER_SEC);

FILE *fpi = fopen("mand.ppm", "wb"); 
fprintf(fpi, "P5\n%d %d\n255\n", dimensione, dimensione);
fwrite(matcuda, 1, dimensione*dimensione, fpi);
fclose(fpi);


cudaFree(matcuda);
return 0;
}

venerdì 27 dicembre 2019

Tensorflow GPU in NVidia Jetson Nano

Uno degli aspetti che piu' mi intrigava nella Jetson Nano era quello di poter creare modelli di reti neurali e non sono di usarli come accede in Intel Neural e Google Cal
La cosa ancora piu' interessante e' quello di poter utilizzare l'accelerazione GPU data dai Cuda core...ma e' tutto oro quello che luccica??

Per partire si inizia dall'installazione di Tensorflow su Jetson Nano. Dato che non si tratta di un processore x86 si deve ricompilare tutto da sorgenti od utilizzare i repository di NVidia
https://docs.nvidia.com/deeplearning/frameworks/install-tf-jetson-platform/index.html

Questa parte e' molto lunga...in particolare durante l'installazione di h5py il computer sembra stallare per oltre 15 minuti...pazienza, pazienza e pazienza

sudo apt-get update

sudo apt-get install libhdf5-serial-dev hdf5-tools libhdf5-dev zlib1g-dev zip libjpeg8-dev

sudo apt-get install python3-pip

sudo pip3 install -U pip testresources setuptools

sudo pip3 install -U numpy==1.16.1 future==0.17.1 mock==3.0.5 h5py==2.9.0 keras_preprocessing==1.0.5 keras_applications==1.0.8 gast==0.2.2 enum34 futures protobuf

sudo pip3 install --pre --extra-index-url https://developer.download.nvidia.com/compute/redist/jp/v43 tensorflow-gpu

La cosa che mi pone qualche sospetto e' la stringa

tensorflow was not compiled for cuda support jetson nano

Tensorflow puo' essere utilizzato all'esterno di un VirtualEnv (anche se e' sempre possibile creare VirtualEnv specialmente nel caso di installazioni multiple di Tensorflow)

In generale se si devono installare delle librerie Python accessorie (tipo SciPy) conviene utilizzare apt al posto di pip

Una volta lanciato Tensorflow si osserva il carico distribuito sui 4 core

tramite il comando tegrastats si puo' controllare l'hardware

------------------------------------------------------------------------------------

RAM 1264/3964MB (lfb 529x4MB) SWAP 0/10174MB (cached 0MB) IRAM 0/252kB(lfb 252kB) CPU [40%@518,14%@518,16%@518,18%@518] EMC_FREQ 2%@1600 GR3D_FREQ 0%@76 APE 25 PLL@19C CPU@21C PMIC@100C GPU@21C AO@25.5C thermal@21C POM_5V_IN 2301/2301 POM_5V_GPU 80/80 POM_5V_CPU 444/444

RAM 1264/3964MB (lfb 529x4MB) SWAP 0/10174MB (cached 0MB) IRAM 0/252kB(lfb 252kB) CPU [38%@204,10%@204,23%@204,9%@204] EMC_FREQ 3%@1600 GR3D_FREQ 5%@76 APE 25 PLL@19.5C CPU@21.5C PMIC@100C GPU@21C AO@25.5C thermal@21C POM_5V_IN 2143/2222 POM_5V_GPU 40/60 POM_5V_CPU 323/383

RAM 1264/3964MB (lfb 529x4MB) SWAP 0/10174MB (cached 0MB) IRAM 0/252kB(lfb 252kB) CPU [44%@307,7%@307,9%@307,1%@307] EMC_FREQ 3%@1600 GR3D_FREQ 0%@153 APE 25 PLL@19.5C CPU@21C PMIC@100C GPU@21C AO@25.5C thermal@21.25C POM_5V_IN 2103/2182 POM_5V_GPU 40/53 POM_5V_CPU 323/363

RAM 1264/3964MB (lfb 529x4MB) SWAP 0/10174MB (cached 0MB) IRAM 0/252kB(lfb 252kB) CPU [43%@403,7%@403,10%@403,4%@403] EMC_FREQ 2%@1600 GR3D_FREQ 0%@153 APE 25 PLL@19.5C CPU@20.5C PMIC@100C GPU@21C AO@25.5C thermal@20.5C POM_5V_IN 2224/2192 POM_5V_GPU 121/70 POM_5V_CPU 363/363

RAM 1284/3964MB (lfb 527x4MB) SWAP 0/10174MB (cached 0MB) IRAM 0/252kB(lfb 252kB) CPU [45%@1479,21%@1479,53%@1479,22%@1479] EMC_FREQ 2%@1600 GR3D_FREQ 0%@153 APE 25 PLL@19.5C CPU@21.5C PMIC@100C GPU@21C AO@25.5C thermal@21C POM_5V_IN 2853/2324 POM_5V_GPU 40/64 POM_5V_CPU 884/467

RAM 1306/3964MB (lfb 520x4MB) SWAP 0/10174MB (cached 0MB) IRAM 0/252kB(lfb 252kB) CPU [25%@1479,51%@1479,58%@1479,54%@1479] EMC_FREQ 3%@1600 GR3D_FREQ 0%@153 APE 25 PLL@20.5C CPU@22.5C PMIC@100C GPU@21C AO@26C thermal@21.5C POM_5V_IN 3787/2568 POM_5V_GPU 39/60 POM_5V_CPU 1870/701

------------------------------------------------------------------------------------

Da una prova a parita' di rete neurale Jetson Nano ha una velocita' comparabile con un I5 6 gen. quindi la presenza di una GPU non migliora in modo sensibile la velocita' di calcolo come nel caso di GPU legate a schede video (benchmark di riferimento)

martedì 24 dicembre 2019

Primi passi con NVidia Jetson Nano

L'impostazione di base e' stata ridotta al minimo. Il sistema e' basato sulla scheda Jetson Nano, una SD Card da 64 Gb, un dongle USB Wifi Edimax N150, una tastiera Logitech K400 Plus, un alimentatore esterno da 5V 4A

Per il case ho preso questo progetto https://www.thingiverse.com/thing:3518410
E' piuttosto delicato su alcuni dettagli ma in generale va bene

Il primo problema riguarda l'alimentazione. Visto che non mi fidavo di una alimentazione via USB visti i consumi della scheda ho utilizzato un alimentatore esterno. Il problema e' che per abilitare l'alimentazione esterna e' necessario chiudere con un Jumper J48...ed il jumper non e' incluso. Sono impazzito a trovare un jumper a giro per casa ed alla fine ho dovuto cannabalizzare un vecchio HD PATA (il jumper serviva a selezionare salve and master). La Jetson ha due modalita' di utilizzo 5W e 10 W (di default e' la seconda)

Da linea di comando si puo' modificare con (0=10W, 1=5W)

$ sudo nvpmodel -m 0

$ sudo jetson_clocks

Nonostante sia sconsigliato di usare un convertitore da HDMI a DVI io ho lo ho utilizzato con successo per la connessione ad vecchio monitor

Invece mi ha fatto impazzire la Edimax che continuava a disconettersi dall'hotpost. La soluzione e' stata mettere in blacklist il modulo con

echo "blacklist rtl8192cu" | sudo tee -a /etc/modprobe.d/blacklist.conf

Si puo' avere una modalita' headless semplicemente collegando un cavo microUSB e puntando il browser del portatile su 192.168.55.1:8888 e password dlinano

In ogni caso il server SSH e' gia' installato e disponibile (ho collegato un cavo cross con un indirizzo fisso per la rete via cavo per estendere la modalita' headless)

Per provare CUDA Jetson ha gia' tutto installato. Si deve pero' settare la Path e copiare gli esempi nella propria home

export PATH=${PATH}:/usr/local/cuda/bin
export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda/lib64

Per gli esempi di CUDA

/usr/local/cuda-10.0/bin/cuda-install-samples-10.0.sh . (attenzione al punto finale)

ATTENZIONE : operazione lenta in compilazione

Jetson Nano 4 Giga di Ram e puo' essere poca per reti neurali impegnativi. Si puo' aumentare usando uno swap file

$ sudo fallocate -l 8G /mnt/4GB.swap

$ sudo mkswap /mnt/4GB.swap

$ sudo swapon /mnt/4GB.swap

e modificando il file /etc/fstab aggiungendo

/mnt/4GB.swap none swap sw 0 0

Ultima cosa: di default l'uscita audio e' impostata su Analogico e non su HDMI.

link utile

https://github.com/jkjung-avt/jetson_nano.git

lunedì 16 dicembre 2019

Cuda Toolkit 8.0 su Ubuntu 18.04 LTS

Ho portatile T430 con scheda NVS 5400 M, una scheda con CUDA Capability 2.1 e Codename Fermi. Il supporto per queste schede e' terminato con Cuda Toolkit 8.0 e quindi non e' banale installare l'ambiente di sviluppo

Per prima cosa ovviamente si devono avere installati i driver proprietari di NVidia da Software&Updates

A questo punto si deve scaricare Cuda ToolKit 8, l'ultimo compatibile con Fermi ma si deve effettuare anche un downgrade di gcc (Cuda Toolkit 8 era compatibile con Ubuntu 16.04(

sudo apt-get install gcc-5 g++-5
sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-5 70
sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-5 70

sh ./cuda_8.0.61_375.26_linux.run --tar mxvf
sudo apt install libmodule-install-perl
sudo cp InstallUtils.pm /usr/lib/x86_64-linux-gnu/perl-base/
export $PERL5LIB
sh ./cuda_8.0.61_375.26_linux.run --override

sudo rm /usr/lib/x86_64-linux-gnu/perl-base/InstallUtils.pm

Durante l'installazione non si deve installare il driver e si deve accettare l'installazione su piattaforma non supportata