Editer le fichier .devops/full-cuda.Dockerfile
ARG CUDA_VERSION=[11.7.1] <= modifier avec l'information donnée par nvidia-smi en cherchant ensuite le bon tag
https://hub.docker.com/r/nvidia/cuda/tags
docker build -t local/llama.cpp:full-cuda -f .devops/full-cuda.Dockerfile .
pour le run
docker run --gpus all -d --name llamacpp -p 8080:8080 --network bridge -v /srv/llama.cpp/models:/models/ local/llama.cpp:full-cuda --server -m /models/openchat_3.5.Q5_K_M.gguf -c 4096 -ngl 40 -mg 1 --host 0.0.0.0 --port 8080