使用推理实例
概览页面
实例部署成功并进入 Running 状态后,点击实例名称进入概览页面,可查看以下信息:
| 字段 | 说明 |
|---|---|
| 推理 API 地址 | 实例提供的推理服务 URL,可直接用于 API 调用 |
| 运行状态 | 当前实例的运行状态(Running、Stopped、Error 等) |
| 推理框架 | 创建时选择的推理框架(如 vLLM、SGLang、TGI 等) |
| 资源配置 | 分配的 GPU/CPU/内存资源规格 |
| 副本数量 | 当前运行的推理服务副本数 |
Playground 测试
平台提供交互式 Playground(沙箱)功能,无需编写代码即可测试模型推理效果:
- 在实例详情页切换到 Playground 页签。
- 在输入框中输入提示词(Prompt)。
- 调整推理参数(如 Temperature、Top-P、Max Tokens 等)。
- 点击发送按钮,查看模型推理结果。
提示
Playground 适用于快速验证模型效果和调试提示词,正式生产环境建议通过 API 调用。
API 调用文档
在实例详情页切换到 API 页签,可查看完整的 API 调用文档及多语言代码示例。
Python 示例
from openai import OpenAI
client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://<your-endpoint-url>/v1"
)
response = client.chat.completions.create(
model="your-model-name",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "你好,请介绍一下你自己。"}
],
temperature=0.7,
max_tokens=512
)
print(response.choices[0].message.content)
JavaScript 示例
import OpenAI from "openai";
const client = new OpenAI({
apiKey: "YOUR_API_KEY",
baseURL: "https://<your-endpoint-url>/v1",
});
const response = await client.chat.completions.create({
model: "your-model-name",
messages: [
{ role: "system", content: "You are a helpful assistant." },
{ role: "user", content: "你好,请介绍一下你自己。" },
],
temperature: 0.7,
max_tokens: 512,
});
console.log(response.choices[0].message.content);
cURL 示例
curl -X POST "https://<your-endpoint-url>/v1/chat/completions" \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "your-model-name",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "你好,请介绍一下你自己。"}
],
"temperature": 0.7,
"max_tokens": 512
}'
备注
将示例中的
<your-endpoint-url> 替换为概览页面中显示的推理 API 地址,YOUR_API_KEY 替换为平台生成的 API 密钥。实时监控
在实例详情页切换到分析页签,可查看实时运行指标:
| 监控指标 | 说明 |
|---|---|
| CPU 利用率 | 各副本的 CPU 使用百分比 |
| GPU 利用率 | GPU 计算核心的使用率 |
| 内存使用量 | 系统内存的占用情况 |
| 显存使用量 | GPU 显存的分配和使用情况 |
| 推理延迟 | 请求到返回结果的平均响应时间 |
| 吞吐量 | 每秒处理的推理请求数 |
监控数据可帮助评估模型服务的运行状态,并为资源扩缩容提供依据。
查看运行日志
在分析页签中,还可以查看每个副本的运行日志,包括模型加载信息、请求处理记录和错误信息,便于排查推理服务中的问题。
查看计费详情
在实例详情页切换到计费页签,查看资源使用和费用明细:
| 字段 | 说明 |
|---|---|
| 计费开始时间 | 实例开始占用算力的时间 |
| 计费结束时间 | 实例停止或释放资源的时间 |
| 资源规格 | 当前使用的算力配置 |
| 累计费用 | 截至当前的总费用 |
停止与删除实例
警告
推理实例在运行期间持续计费。为避免不必要的费用,请在不使用时及时停止实例。如果确认不再需要,可删除实例以永久释放资源。删除操作不可恢复。
- 停止:暂停推理服务,保留实例配置,计费暂停,可随时重新启动。
- 删除:永久移除实例及所有关联资源,操作不可逆。