DHOB (IU5SGN): LLama.cpp

martedì 14 gennaio 2025

Su Linux la cosa piu' comoda e' scaricare i sorgenti da https://github.com/ggerganov/llama.cpp e compilando

mkdir build

cd build
make
sudo make install
sudo ldconfig

Su Mac si puo' semplicemente brew install llama.cpp

a questo punto si devono scaricare i modelli in formato GGUF come per esempio

che pesa circa 4.47 Gb (per confronto gli altri modelli pesanno 2b = 3G 16b = 15Gb)

altrimenti si puo' usare il modello 3.2 (3.42 Gb)

I file GGUF devono copiati nel folder models

Per interagire

llama-cli -m models/Meta-Llama-3.1-8B-Instruct-Q4_K_S.gguf -p "You are a helpful assistant" --conversation

llama-cli -m ./models/Llama-3.2-3B-Instruct-Q8_0.gguf -p "You are a helpful assistant" --conversation

Altrimenti per attivare LLama.cpp e scaricare in automatico il modello si usa

llama-cli \

--hf-repo "bullerwins/Meta-Llama-3.1-8B-Instruct-GGUF" \

--hf-file Meta-Llama-3.1-8B-Instruct-Q2_K.gguf \

-p "You are a helpful assistant" \

--conversation

Oltre alla modalita' di shell puo' essere attivata la modalita' server

Usando Homebrew su Mac si puo'usare

llama-server \

--hf-repo "bullerwins/Meta-Llama-3.1-8B-Instruct-GGUF" \

--hf-file Meta-Llama-3.1-8B-Instruct-Q2_K.gguf

Si punta quindi su http://localhost:8080

DHOB (IU5SGN)