创建推理实例

创建入口

在模型详情页，点击右上角模型部署按钮，在下拉菜单中选择推理实例，跳转至创建页面。

备注

仅部分模型支持创建推理实例。如果所需模型没有"推理实例"选项，请联系平台管理员。

配置参数说明

进入推理实例创建页面后，填写以下配置信息，完成后点击新建实例：

参数	说明
实例名称	自定义名称，不能与已有实例重复
模型 ID	平台中的模型标识，默认锁定当前模型
区域/资源配置	选择推理服务的算力资源规格（GPU 型号、显存大小）
运行时框架	选择推理框架：vLLM、SGLang、TGI 或 llama.cpp
安全级别	公开：可任意访问（默认）；私有：需要鉴权认证
弹性副本	实例副本数量，范围 1～5

查看实例列表

创建完成后，可通过顶部导航进入模型推理 → 推理实例查看所有已创建的实例及其运行状态；也可在资源管理页面的推理实例区块中统一查看。

调用推理服务

实例启动后，平台会提供：

Web 测试界面：在浏览器中直接对话测试模型效果。
API 接口：标准 OpenAI 兼容 API，供业务代码调用。

私有实例调用时需在请求头中携带访问令牌：

curl https://<实例地址>/v1/chat/completions \
  -H "Authorization: Bearer <访问令牌>" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "<模型名称>",
    "messages": [{"role": "user", "content": "你好"}]
  }'