跳到主要内容

模型搭建

本文介绍如何下载和启动本地模型


模型下载

推荐从魔搭社区模型库下载所需模型

下载方式见魔搭社区 文档模型的下载

模型启动

大语言模型

以启动 qwen3-vl-32b 作为示例:

VLLM_USE_V1=0 \
TORCH_COMPILE_DISABLE=1 \
VLLM_SOURCE_BROADCAST_TIMEOUT=600 \
nohup python3 -m vllm.entrypoints.openai.api_server \
--model /home/models/qwen3-vl-32b/ \
--served-model-name qwen-chat \
--tensor-parallel-size 4 \
--gpu-memory-utilization 0.8 \
--enable-auto-tool-choice \
--tool-call-parser hermes \
--port 8010 \
--host 0.0.0.0 \
--dtype bfloat16 \
--max-model-len 32768 \
--max-num-batched-tokens 16384 \
--limit-mm-per-prompt '{"image":2, "video":0}' \
--compilation_config '{"cudagraph_mode": "FULL_DECODE_ONLY", "level": 0}' \
--skip-mm-profiling > llm.log 2>&1 &

向量化模型

以启动 Qwen3-Embedding-0.6B 作为示例:

VLLM_USE_V1=0 TORCH_COMPILE_DISABLE=1  CUDA_VISIBLE_DEVICES=2 nohup python3 -m vllm.entrypoints.openai.api_server \
--model /home/models/Qwen3-Embedding-0.6B/ \
--served-model-name qwen-embedding \
--tensor-parallel-size 1 \
--max-model-len 4096 \
--gpu-memory-utilization 0.1 \
--enforce-eager \
--max-num-seqs 32 \
--port 8011 --host 0.0.0.0 > embed.log 2>&1 &

重排序模型启动

以启动 bge-reranker-v2-m3 作为示例:

 CUDA_VISIBLE_DEVICES=3 nohup python3 -m vllm.entrypoints.openai.api_server   --model /home/models/bge-reranker-v2-m3   --served-model-name bge-rerank   --runner pooling   --tensor-parallel-size 1   --max-model-len 4096   --gpu-memory-utilization 0.1   --max-num-seqs 10   --enforce-eager   --port 8013 --host 0.0.0.0 > bge-rerank.log 2>&1 &