最新更新:

    创建推理实例

    创建入口

    在模型详情页,点击右上角模型部署按钮,在下拉菜单中选择推理实例,跳转至创建页面。

    备注

    仅部分模型支持创建推理实例。如果所需模型没有"推理实例"选项,请联系平台管理员。

    配置参数说明

    进入推理实例创建页面后,填写以下配置信息,完成后点击新建实例

    参数 说明
    实例名称 自定义名称,不能与已有实例重复
    模型 ID 平台中的模型标识,默认锁定当前模型
    区域/资源配置 选择推理服务的算力资源规格(GPU 型号、显存大小)
    运行时框架 选择推理框架:vLLM、SGLang、TGI 或 llama.cpp
    安全级别 公开:可任意访问(默认);私有:需要鉴权认证
    弹性副本 实例副本数量,范围 1~5

    查看实例列表

    创建完成后,可通过顶部导航进入模型推理 → 推理实例查看所有已创建的实例及其运行状态;也可在资源管理页面的推理实例区块中统一查看。

    调用推理服务

    实例启动后,平台会提供:

    • Web 测试界面:在浏览器中直接对话测试模型效果。
    • API 接口:标准 OpenAI 兼容 API,供业务代码调用。

    私有实例调用时需在请求头中携带访问令牌:

    curl https://<实例地址>/v1/chat/completions \
      -H "Authorization: Bearer <访问令牌>" \
      -H "Content-Type: application/json" \
      -d '{
        "model": "<模型名称>",
        "messages": [{"role": "user", "content": "你好"}]
      }'
    

    相关文档