4张 RTX 4090D (24GB) 部署 Qwen3-32B（fp1） + LoRA + vLLM PDF 下载

4张 RTX 4090D (24GB) 部署 Qwen3-32B（fp1） + LoRA + vLLM PDF 下载

转载自：https://python222.java1234.com/article/1471

相关截图：

主要内容：

采用 vLLM 动态加载 LoRA

#!/bin/bash
source /root/autodl-tmp/qwen3-env/bin/activate
MODEL_PATH="/root/autodl-tmp/model_space/qwen3-32b/Qwen/Qwen3-32B"
LORA_PATH="/root/autodl-tmp/model_space/checkpoint-1500"
LOG_FILE="/root/autodl-tmp/lora_dynamic.log"
echo "="*60 | tee -a $LOG_FILE
echo "启动 vLLM 服务 - 动态加载 LoRA (BF16)" | tee -a $LOG_FILE
echo "基础模型: $MODEL_PATH" | tee -a $LOG_FILE
echo "LoRA路径: $LORA_PATH" | tee -a $LOG_FILE
echo "精度: bfloat16" | tee -a $LOG_FILE
echo "GPU: 4×RTX 4090D" | tee -a $LOG_FILE
echo "="*60 | tee -a $LOG_FILE
python -m vllm.entrypoints.openai.api_server \
--model $MODEL_PATH \
--tensor-parallel-size 4 \
--dtype bfloat16 \
--max-model-len 4096 \
--gpu-memory-utilization 0.85 \
--enable-lora \
--lora-modules \
ethics_v1=$LORA_PATH \
--max-lora-rank 32 \
--port 8000 \
--host 0.0.0.0 \
--trust-remote-code \
2>&1 | tee -a $LOG_FILE
EOF
chmod +x /root/autodl-tmp/deploy_lora_bf16.sh

IDEA永久激活

Java微信小程序电商实战课程(SpringBoot+VUe)

AI人工智能学习大礼包

PyCharm永久激活

66套java实战课程无套路领取

Cursor+Claude AI编程 1天快速上手视频教程

4张 RTX 4090D (24GB) 部署 Qwen3-32B（fp1） + LoRA + vLLM PDF 下载