最新更新:

    特征提取

    任务说明

    特征提取(Feature Extraction)任务将文本转换为高维向量表示(Embeddings),适用于 Embedding 模型(如 BGE、E5、text-embedding 系列),常用于语义搜索、文档检索、相似度计算、RAG 等场景。

    API 调用

    curl https://<实例地址>/v1/embeddings \
      -H "Content-Type: application/json" \
      -H "Authorization: Bearer <访问令牌>" \
      -d '{
        "model": "<模型名称>",
        "input": "大语言模型的核心技术是什么?"
      }'
    

    批量提取

    curl https://<实例地址>/v1/embeddings \
      -H "Content-Type: application/json" \
      -H "Authorization: Bearer <访问令牌>" \
      -d '{
        "model": "<模型名称>",
        "input": [
          "第一段文本",
          "第二段文本",
          "第三段文本"
        ]
      }'
    

    响应格式

    {
      "object": "list",
      "data": [
        {
          "object": "embedding",
          "index": 0,
          "embedding": [0.023, -0.012, 0.045, ...]
        }
      ],
      "model": "<模型名称>",
      "usage": {
        "prompt_tokens": 8,
        "total_tokens": 8
      }
    }
    

    Python 示例

    from openai import OpenAI
    
    client = OpenAI(
        base_url="https://<实例地址>/v1",
        api_key="<访问令牌>"
    )
    
    response = client.embeddings.create(
        model="<模型名称>",
        input=["第一段文本", "第二段文本"]
    )
    
    for item in response.data:
        print(f"索引 {item.index}: 向量维度 {len(item.embedding)}")
    

    使用场景

    • 语义搜索:将文档和查询都转换为向量,通过余弦相似度检索最相关文档。
    • RAG(检索增强生成):构建知识库向量索引,为大模型提供相关上下文。
    • 文本聚类:对大量文本进行向量化后聚类分析。
    • 相似度计算:计算两段文本的语义相似度。

    相关文档