创建推理实例
创建入口
在模型详情页,点击右上角模型部署按钮,在下拉菜单中选择推理实例,跳转至创建页面。
备注
仅部分模型支持创建推理实例。如果所需模型没有"推理实例"选项,请联系平台管理员。
配置参数说明
进入推理实例创建页面后,填写以下配置信息,完成后点击新建实例:
| 参数 | 说明 |
|---|---|
| 实例名称 | 自定义名称,不能与已有实例重复 |
| 模型 ID | 平台中的模型标识,默认锁定当前模型 |
| 区域/资源配置 | 选择推理服务的算力资源规格(GPU 型号、显存大小) |
| 运行时框架 | 选择推理框架:vLLM、SGLang、TGI 或 llama.cpp |
| 安全级别 | 公开:可任意访问(默认);私有:需要鉴权认证 |
| 弹性副本 | 实例副本数量,范围 1~5 |
查看实例列表
创建完成后,可通过顶部导航进入模型推理 → 推理实例查看所有已创建的实例及其运行状态;也可在资源管理页面的推理实例区块中统一查看。
调用推理服务
实例启动后,平台会提供:
- Web 测试界面:在浏览器中直接对话测试模型效果。
- API 接口:标准 OpenAI 兼容 API,供业务代码调用。
私有实例调用时需在请求头中携带访问令牌:
curl https://<实例地址>/v1/chat/completions \
-H "Authorization: Bearer <访问令牌>" \
-H "Content-Type: application/json" \
-d '{
"model": "<模型名称>",
"messages": [{"role": "user", "content": "你好"}]
}'