Su Linux la cosa piu' comoda e' scaricare i sorgenti da https://github.com/ggerganov/llama.cpp e compilando
mkdir build
make
sudo make install
sudo ldconfig
Su Mac si puo' semplicemente brew install llama.cpp
a questo punto si devono scaricare i modelli in formato GGUF come per esempio
https://huggingface.co/bullerwins/Meta-Llama-3.1-8B-Instruct-GGUF
che pesa circa 4.47 Gb (per confronto gli altri modelli pesanno 2b = 3G 16b = 15Gb)
altrimenti si puo' usare il modello 3.2 (3.42 Gb)
https://huggingface.co/bartowski/Llama-3.2-3B-Instruct-GGUF?show_file_info=Llama-3.2-3B-Instruct-Q8_0.ggufI file GGUF devono copiati nel folder models
Per interagire
llama-cli -m models/Meta-Llama-3.1-8B-Instruct-Q4_K_S.gguf -p "You are a helpful assistant" --conversation
llama-cli -m ./models/Llama-3.2-3B-Instruct-Q8_0.gguf -p "You are a helpful assistant" --conversation
Altrimenti per attivare LLama.cpp e scaricare in automatico il modello si usa
llama-cli \
--hf-repo "bullerwins/Meta-Llama-3.1-8B-Instruct-GGUF" \
--hf-file Meta-Llama-3.1-8B-Instruct-Q2_K.gguf \
-p "You are a helpful assistant" \
--conversation
Oltre alla modalita' di shell puo' essere attivata la modalita' server
Usando Homebrew su Mac si puo'usare
llama-server \
--hf-repo "bullerwins/Meta-Llama-3.1-8B-Instruct-GGUF" \
--hf-file Meta-Llama-3.1-8B-Instruct-Q2_K.gguf
Si punta quindi su http://localhost:8080