docker+vllm部署qwen3模型（8G显存版本）

用git的lfs拉取模型文件（需要先安装git跟lfs）

本示例是将模型下载到 d:/data 目录下，后面docker运行时挂载模型目录需要使用

git lfs clone https://www.modelscope.cn/Qwen/Qwen3-4B-AWQ.git

强制移除旧的docker容器

docker rm -f vllm-qwen3-4b-awq

用docker运行vllm服务

其中--default-chat-template-kwargs '{"enable_thinking": false}'表示禁止模型思考，这样默认响应速度会更快

docker run -itd `
--name vllm-qwen3-4b-awq `
--gpus 0 `
--ipc=host `
-p 12345:8000 `
-v d:/data:/root/models `
-e CUDA_VISIBLE_DEVICES=0 `
--restart=unless-stopped `
--pull=missing `
vllm/vllm-openai:latest `
--model /root/models/Qwen3-4B-AWQ `
--served-model-name Qwen3-4B-AWQ `
--quantization awq `
--max-model-len 16384 `
--gpu-memory-utilization 0.90 `
--dtype half `
--api-key "sk-local-test" `
--default-chat-template-kwargs '{"enable_thinking": false}'

实时查看docker容器日志

（备注：vllm初始化模型api服务大概需要几分钟，需要耐心等待，看到Application startup complete.字样时说明启动完毕）

docker logs -f --tail 10 vllm-qwen3-4b-awq

测试运行后的模型

（电脑中如果没安装curl工具，则自行使用其他的工具进行测试）（单次输出汇总后的文本，如果模型需要输出的文本比较多，则显得比较耗时）

curl -X POST http://localhost:12345/v1/chat/completions -H "Authorization: Bearer sk-local-test" -H "Content-Type: application/json" -d '{"model": "Qwen3-4B-AWQ","messages": [{"content": "hi","role": "user"}]}'

测试运行后的模型-流式输出（能看到实时模型动态切片返回的文字）

curl -X POST http://localhost:12345/v1/chat/completions -H "Authorization: Bearer sk-local-test" -H "Content-Type: application/json" -d '{"model": "Qwen3-4B-AWQ", "messages": [{"content": "hi,讲个故事","role": "user"}],"stream": true}'

其他使用模型api的方式（可选）

访问 https://github.com/open-webui/open-webui 使用docker安装open-webui后，配置上面的模型，即可在web界面使用模型。
例如：

docker run -itd `
-p 30000:8080 `
-e OPENAI_API_KEY=sk-local-test `
-v d:/docker_data/open-webui:/app/backend/data `
--name open-webui `
--restart=unless-stopped `
--pull=missing `
ghcr.io/open-webui/open-webui:main

然后访问 http://localhost:30000 登录进去后配置自定义模型使用

目录CONTENT

8G显卡用VLLM部署Qwen3-4B-AWQ的记录

docker+vllm部署qwen3模型（8G显存版本）

评论区