算法模板
概述
算法模板支持用户将多种不同的模型算子组成工作流,完成数据清洗、自动数据增强及分析等工作。平台提供多种内置模板,用户也可以创建自定义模板,或基于内置模板进行修改,构建个性化的数据处理 Pipeline。
内置模板
平台内置了以下几类数据处理模板:
| 模板类型 | 说明 |
|---|---|
| 数据清洗-基础 | 包含文本标准化、特殊内容移除、长度过滤等基础清洗算子 |
| 数据清洗-高阶 | 在基础清洗基础上增加重复率过滤、语言过滤等高级算子 |
| 数据增强 | 基于种子数据自动生成更多训练数据,支持文本分类、抽取、创作等场景 |
数据增强模板类型
| 类型 | 说明 |
|---|---|
| 文本分类 | 增强文本分类任务的训练数据,适用于情感分类、标签分类、商品分类等场景 |
| 文本抽取 | 增强文本抽取类任务的训练数据,适用于特定格式抽取、实体抽取、要素提取等场景 |
| 文本创作 | 增强文本创作类任务的训练数据,适用于新闻写作、广告稿生成、写作内容风格化等场景 |
使用内置模板
- 在数据工具 → 算法模板 → 内置模板页面,浏览可用模板。
- 点击模板卡片上的使用按钮,直接以该模板创建数据处理任务。
- 或点击复制,基于该模板创建自定义版本。
创建自定义模板
- 在算法模板 → 自定义模板页面,点击自定义模板按钮。
- 填写模板信息:
| 参数 | 说明 |
|---|---|
| 模板名称 | 唯一标识,不能与已有模板重名 |
| 任务类型 | 数据清洗 / 数据增强 / 数据生成 |
| 模板描述 | 说明模板的用途和适用场景 |
- 在工作流编辑器中,选择要使用的算子并设置执行顺序。
- 配置各算子的参数(部分算子有必填参数)。
- 点击创建完成保存模板。
管理自定义模板
| 操作 | 说明 |
|---|---|
| 使用 | 基于模板创建数据处理任务 |
| 修改 | 编辑模板配置 |
| 复制 | 创建模板的副本 |
| 删除 | 删除不再使用的模板 |
算子管理
平台管理员可在算子管理页面对算子进行授权配置,控制哪些用户或组织可以使用特定算子。
每个算子支持配置:
- 算子描述文档:上传 Markdown 格式的算子说明文档
- 授权对象:按个人或组织设置算子使用权限
备注
自定义模板可以发布为新模板供其他用户共享使用。在创建数据处理任务时,可以选择已发布的模板作为 Pipeline 起点。