模型推理介绍

什么是模型推理

平台提供一键推理功能，帮助用户在支持的模型页面快速分配算力并启动推理服务，无需复杂的环境配置。

框架	特点	适用场景
vLLM	高吞吐量、低延迟，支持连续批处理	生产级高并发推理服务
SGLang	针对结构化生成优化，支持 RadixAttention	复杂推理和结构化输出场景
TGI（Text Generation Inference）	Hugging Face 官方推理服务器	兼容 Hugging Face 生态的推理
llama.cpp	支持 GGUF 格式，CPU/GPU 均可运行	资源受限环境或 GGUF 格式模型

平台支持多种推理任务类型，请参考对应文档了解 API 使用方式：