本地 pc 跑大模型
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
# 如果要使用 gpu 计算 (gpu 硬件卸载(cpu)计算开销)
LLAMA_METAL=1 make
# -ngl 1 表示使用 gpu
./main -m ./models/7B/ggml-model-q4_0.bin -n 128 -ngl 1
当然 你也可以在没有 GPU 的 linux上跑,或者 windows, 甚至可以分布式的在多个机器上跑
参考: github.com/ggerganov/l…