侧边栏壁纸
博主头像
samge博主等级

祝愿这世界没有黑恶势力!

  • 累计撰写 11 篇文章
  • 累计创建 16 个标签
  • 累计收到 3 条评论

目 录CONTENT

文章目录
AI

8G显卡用VLLM部署Qwen3-4B-AWQ的记录

samge
2026-04-14 / 0 评论 / 0 点赞 / 7 阅读 / 615 字

docker+vllm部署qwen3模型(8G显存版本)

用git的lfs拉取模型文件(需要先安装git跟lfs)

本示例是将模型下载到 d:/data 目录下,后面docker运行时挂载模型目录需要使用

git lfs clone https://www.modelscope.cn/Qwen/Qwen3-4B-AWQ.git

强制移除旧的docker容器

docker rm -f vllm-qwen3-4b-awq

用docker运行vllm服务

其中--default-chat-template-kwargs '{"enable_thinking": false}'表示禁止模型思考,这样默认响应速度会更快

docker run -itd `
--name vllm-qwen3-4b-awq `
--gpus 0 `
--ipc=host `
-p 12345:8000 `
-v d:/data:/root/models `
-e CUDA_VISIBLE_DEVICES=0 `
--restart=unless-stopped `
--pull=missing `
vllm/vllm-openai:latest `
--model /root/models/Qwen3-4B-AWQ `
--served-model-name Qwen3-4B-AWQ `
--quantization awq `
--max-model-len 16384 `
--gpu-memory-utilization 0.90 `
--dtype half `
--api-key "sk-local-test" `
--default-chat-template-kwargs '{"enable_thinking": false}'

实时查看docker容器日志

(备注:vllm初始化模型api服务大概需要几分钟,需要耐心等待,看到Application startup complete.字样时说明启动完毕)

docker logs -f --tail 10 vllm-qwen3-4b-awq

测试运行后的模型

(电脑中如果没安装curl工具,则自行使用其他的工具进行测试)(单次输出汇总后的文本,如果模型需要输出的文本比较多,则显得比较耗时)

curl -X POST http://localhost:12345/v1/chat/completions -H "Authorization: Bearer sk-local-test" -H "Content-Type: application/json" -d '{"model": "Qwen3-4B-AWQ","messages": [{"content": "hi","role": "user"}]}'

测试运行后的模型-流式输出(能看到实时模型动态切片返回的文字)

curl -X POST http://localhost:12345/v1/chat/completions -H "Authorization: Bearer sk-local-test" -H "Content-Type: application/json" -d '{"model": "Qwen3-4B-AWQ", "messages": [{"content": "hi,讲个故事","role": "user"}],"stream": true}'

其他使用模型api的方式(可选)

访问 https://github.com/open-webui/open-webui 使用docker安装open-webui后,配置上面的模型,即可在web界面使用模型。
例如:

docker run -itd `
-p 30000:8080 `
-e OPENAI_API_KEY=sk-local-test `
-v d:/docker_data/open-webui:/app/backend/data `
--name open-webui `
--restart=unless-stopped `
--pull=missing `
ghcr.io/open-webui/open-webui:main

然后访问 http://localhost:30000 登录进去后配置自定义模型使用

0

评论区