最新更新:

    算法模板

    概述

    算法模板支持用户将多种不同的模型算子组成工作流,完成数据清洗、自动数据增强及分析等工作。平台提供多种内置模板,用户也可以创建自定义模板,或基于内置模板进行修改,构建个性化的数据处理 Pipeline。

    内置模板

    平台内置了以下几类数据处理模板:

    模板类型 说明
    数据清洗-基础 包含文本标准化、特殊内容移除、长度过滤等基础清洗算子
    数据清洗-高阶 在基础清洗基础上增加重复率过滤、语言过滤等高级算子
    数据增强 基于种子数据自动生成更多训练数据,支持文本分类、抽取、创作等场景

    数据增强模板类型

    类型 说明
    文本分类 增强文本分类任务的训练数据,适用于情感分类、标签分类、商品分类等场景
    文本抽取 增强文本抽取类任务的训练数据,适用于特定格式抽取、实体抽取、要素提取等场景
    文本创作 增强文本创作类任务的训练数据,适用于新闻写作、广告稿生成、写作内容风格化等场景

    使用内置模板

    1. 数据工具 → 算法模板 → 内置模板页面,浏览可用模板。
    2. 点击模板卡片上的使用按钮,直接以该模板创建数据处理任务。
    3. 或点击复制,基于该模板创建自定义版本。

    创建自定义模板

    1. 算法模板 → 自定义模板页面,点击自定义模板按钮。
    2. 填写模板信息:
    参数 说明
    模板名称 唯一标识,不能与已有模板重名
    任务类型 数据清洗 / 数据增强 / 数据生成
    模板描述 说明模板的用途和适用场景
    1. 在工作流编辑器中,选择要使用的算子并设置执行顺序
    2. 配置各算子的参数(部分算子有必填参数)。
    3. 点击创建完成保存模板。

    管理自定义模板

    操作 说明
    使用 基于模板创建数据处理任务
    修改 编辑模板配置
    复制 创建模板的副本
    删除 删除不再使用的模板

    算子管理

    平台管理员可在算子管理页面对算子进行授权配置,控制哪些用户或组织可以使用特定算子。

    每个算子支持配置:

    • 算子描述文档:上传 Markdown 格式的算子说明文档
    • 授权对象:按个人或组织设置算子使用权限

    备注

    自定义模板可以发布为新模板供其他用户共享使用。在创建数据处理任务时,可以选择已发布的模板作为 Pipeline 起点。