特征提取

任务说明

特征提取（Feature Extraction）任务将文本转换为高维向量表示（Embeddings），适用于 Embedding 模型（如 BGE、E5、text-embedding 系列），常用于语义搜索、文档检索、相似度计算、RAG 等场景。

API 调用

curl https://<实例地址>/v1/embeddings \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer <访问令牌>" \
  -d '{
    "model": "<模型名称>",
    "input": "大语言模型的核心技术是什么？"
  }'

批量提取

curl https://<实例地址>/v1/embeddings \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer <访问令牌>" \
  -d '{
    "model": "<模型名称>",
    "input": [
      "第一段文本",
      "第二段文本",
      "第三段文本"
    ]
  }'

响应格式

{
  "object": "list",
  "data": [
    {
      "object": "embedding",
      "index": 0,
      "embedding": [0.023, -0.012, 0.045, ...]
    }
  ],
  "model": "<模型名称>",
  "usage": {
    "prompt_tokens": 8,
    "total_tokens": 8
  }
}

Python 示例

from openai import OpenAI

client = OpenAI(
    base_url="https://<实例地址>/v1",
    api_key="<访问令牌>"
)

response = client.embeddings.create(
    model="<模型名称>",
    input=["第一段文本", "第二段文本"]
)

for item in response.data:
    print(f"索引 {item.index}: 向量维度 {len(item.embedding)}")

使用场景

语义搜索：将文档和查询都转换为向量，通过余弦相似度检索最相关文档。
RAG（检索增强生成）：构建知识库向量索引，为大模型提供相关上下文。
文本聚类：对大量文本进行向量化后聚类分析。
相似度计算：计算两段文本的语义相似度。

特征提取

任务说明

API 调用

批量提取

响应格式

Python 示例

使用场景

相关文档