模型搭建

本文介绍如何下载和启动本地模型

模型下载

推荐从魔搭社区模型库下载所需模型

下载方式见魔搭社区 文档 → 模型的下载

模型启动

大语言模型

以启动 qwen3-vl-32b 作为示例：

VLLM_USE_V1=0 \
TORCH_COMPILE_DISABLE=1 \
VLLM_SOURCE_BROADCAST_TIMEOUT=600 \
nohup python3 -m vllm.entrypoints.openai.api_server \
  --model /home/models/qwen3-vl-32b/ \
  --served-model-name qwen-chat \
  --tensor-parallel-size 4 \
  --gpu-memory-utilization 0.8 \
  --enable-auto-tool-choice \
  --tool-call-parser hermes \
  --port 8010 \
  --host 0.0.0.0 \
  --dtype bfloat16 \
  --max-model-len 32768 \
  --max-num-batched-tokens 16384 \
  --limit-mm-per-prompt '{"image":2, "video":0}' \
  --compilation_config '{"cudagraph_mode": "FULL_DECODE_ONLY", "level": 0}' \
  --skip-mm-profiling > llm.log 2>&1 &

向量化模型

以启动 Qwen3-Embedding-0.6B 作为示例：

VLLM_USE_V1=0 TORCH_COMPILE_DISABLE=1  CUDA_VISIBLE_DEVICES=2 nohup python3 -m vllm.entrypoints.openai.api_server \
    --model /home/models/Qwen3-Embedding-0.6B/ \
    --served-model-name qwen-embedding \
    --tensor-parallel-size 1 \
    --max-model-len 4096 \
    --gpu-memory-utilization 0.1 \
    --enforce-eager \
    --max-num-seqs 32 \
    --port 8011 --host 0.0.0.0 > embed.log 2>&1 &

重排序模型启动

以启动 bge-reranker-v2-m3 作为示例：

 CUDA_VISIBLE_DEVICES=3 nohup python3 -m vllm.entrypoints.openai.api_server   --model /home/models/bge-reranker-v2-m3   --served-model-name bge-rerank   --runner pooling   --tensor-parallel-size 1   --max-model-len 4096   --gpu-memory-utilization 0.1   --max-num-seqs 10   --enforce-eager   --port 8013 --host 0.0.0.0 > bge-rerank.log 2>&1 &

模型下载

模型启动

大语言模型​

向量化模型​

重排序模型启动​

大语言模型

向量化模型

重排序模型启动