4张 RTX 4090D (24GB) 部署 Qwen3-32B(fp1) + LoRA + vLLM PDF 下载
时间:2026-03-15 12:14
来源:http://www.java1234.com
作者:转载
侵权举报
4张 RTX 4090D (24GB) 部署 Qwen3-32B(fp1) + LoRA + vLLM
| 失效链接处理 |
4张 RTX 4090D (24GB) 部署 Qwen3-32B(fp1) + LoRA + vLLM PDF 下载
相关截图:
主要内容:
采用 vLLM 动态加载 LoRA
#!/bin/bash
source /root/autodl-tmp/qwen3-env/bin/activate
MODEL_PATH="/root/autodl-tmp/model_space/qwen3-32b/Qwen/Qwen3-32B"
LORA_PATH="/root/autodl-tmp/model_space/checkpoint-1500"
LOG_FILE="/root/autodl-tmp/lora_dynamic.log"
echo "="*60 | tee -a $LOG_FILE
echo "启动 vLLM 服务 - 动态加载 LoRA (BF16)" | tee -a $LOG_FILE
echo "基础模型: $MODEL_PATH" | tee -a $LOG_FILE
echo "LoRA路径: $LORA_PATH" | tee -a $LOG_FILE
echo "精度: bfloat16" | tee -a $LOG_FILE
echo "GPU: 4×RTX 4090D" | tee -a $LOG_FILE
echo "="*60 | tee -a $LOG_FILE
python -m vllm.entrypoints.openai.api_server \
--model $MODEL_PATH \
--tensor-parallel-size 4 \
--dtype bfloat16 \
--max-model-len 4096 \
--gpu-memory-utilization 0.85 \
--enable-lora \
--lora-modules \
ethics_v1=$LORA_PATH \
--max-lora-rank 32 \
--port 8000 \
--host 0.0.0.0 \
--trust-remote-code \
2>&1 | tee -a $LOG_FILE
EOF
chmod +x /root/autodl-tmp/deploy_lora_bf16.sh
|
------分隔线----------------------------