martedì 14 gennaio 2025

Llama.cpp Linux ed Apple

Su Linux la cosa piu' comoda e' scaricare i sorgenti da https://github.com/ggerganov/llama.cpp e compilando


mkdir build 

cd build
make
sudo make install
sudo ldconfig

Su Mac si puo' semplicemente brew install llama.cpp

a questo punto si devono scaricare i modelli in formato GGUF come per esempio

https://huggingface.co/bullerwins/Meta-Llama-3.1-8B-Instruct-GGUF

che pesa circa 4.47 Gb (per confronto gli altri modelli pesanno 2b = 3G 16b = 15Gb)

altrimenti si puo' usare il modello 3.2 (3.42 Gb)

https://huggingface.co/bartowski/Llama-3.2-3B-Instruct-GGUF?show_file_info=Llama-3.2-3B-Instruct-Q8_0.gguf

I file GGUF devono copiati nel folder models

Per interagire 

llama-cli -m models/Meta-Llama-3.1-8B-Instruct-Q4_K_S.gguf -p "You are a helpful assistant" --conversation 

llama-cli -m ./models/Llama-3.2-3B-Instruct-Q8_0.gguf -p "You are a helpful assistant" --conversation

Altrimenti per attivare LLama.cpp e scaricare in automatico il modello si usa

llama-cli \                

  --hf-repo "bullerwins/Meta-Llama-3.1-8B-Instruct-GGUF" \

  --hf-file Meta-Llama-3.1-8B-Instruct-Q2_K.gguf \

  -p "You are a helpful assistant" \

  --conversation

Oltre alla modalita' di shell puo' essere attivata la modalita' server 

Usando Homebrew su Mac si puo'usare 

llama-server \

  --hf-repo "bullerwins/Meta-Llama-3.1-8B-Instruct-GGUF" \

  --hf-file Meta-Llama-3.1-8B-Instruct-Q2_K.gguf 



Si punta quindi su http://localhost:8080



Nessun commento:

Posta un commento

Physics informed neural network Fukuzono

Visto che puro ML non funziona per le serie tempo di cui mi sto occupando ed le regressioni basate su formule analitiche mostrano dei limiti...