Skip to content
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
Original file line number Diff line number Diff line change
@@ -1,19 +1,19 @@
---
title: AWS - Credentials
title: Amazon S3 - 访问凭证
---

本页介绍如何创建 `AWS - Credentials` 数据源。该数据源用于保存访问 Amazon S3 所需的凭据,可供多个 S3 集成任务复用。
本页介绍如何创建 `Amazon S3 - 访问凭证` 数据源。该数据源用于保存访问 Amazon S3 所需的凭据,可供多个 S3 集成任务复用。

## 使用场景

- 为多个 S3 导入任务统一管理 AWS Access Key 和 Secret Key
- 避免在每个任务里重复填写同一组 S3 访问凭据
- 在凭据轮换后统一更新引用它的任务

## 创建 AWS - Credentials
## 创建 Amazon S3 - 访问凭证

1. 前往 **Data** > **Data Sources**,点击 **Create Data Source**。
2. 将服务类型选择为 **AWS - Credentials**,然后填写凭据信息:
2. 将服务类型选择为 **Amazon S3 - 访问凭证**,然后填写凭据信息:

| 字段 | 是否必填 | 说明 |
|------|----------|------|
Expand Down
Original file line number Diff line number Diff line change
@@ -1,10 +1,10 @@
---
title: Amazon SQS (S3)
title: Amazon SQS (S3) - IAM Role
---

本页介绍如何创建 `Amazon SQS (S3)` 数据源。该数据源用于保存访问 Amazon SQS 队列和对应 S3 存储桶所需的配置,适用于消费由 Amazon S3 发送到 SQS 的对象创建事件。
本页介绍如何创建 `Amazon SQS (S3) - IAM Role` 数据源。该数据源用于保存访问 Amazon SQS 队列和对应 S3 存储桶所需的配置,适用于消费由 Amazon S3 发送到 SQS 的对象创建事件。

`Amazon SQS (S3)` 只保存 SQS (S3) 接入所需的连接与授权信息,不会直接消费消息。实际读取 SQS 消息、解析 S3 ObjectCreated 事件并写入 Databend 的操作由 [Amazon SQS (S3) 集成任务](../task/04-sqs-s3.md) 执行。
`Amazon SQS (S3) - IAM Role` 只保存 SQS (S3) 接入所需的连接与授权信息,不会直接消费消息。实际读取 SQS 消息、解析 S3 ObjectCreated 事件并写入 Databend 的操作由 [Amazon SQS (S3) 集成任务](../task/02-sqs-s3.md) 执行。

## 使用场景

Expand All @@ -13,10 +13,10 @@ title: Amazon SQS (S3)
- 通过 S3 事件通知驱动数据接入,避免仅依赖轮询 S3 路径发现新文件
- 在 IAM Role、队列地址或路径范围变更后统一更新引用它的任务

## 创建 Amazon SQS (S3)
## 创建 Amazon SQS (S3) - IAM Role

1. 前往 **Data** > **Data Sources**,点击 **Create Data Source**。
2. 将服务类型选择为 **Amazon SQS (S3)**,然后填写连接信息:
2. 将服务类型选择为 **Amazon SQS (S3) - IAM Role**,然后填写连接信息:

| 字段 | 是否必填 | 说明 |
|------|----------|------|
Expand Down Expand Up @@ -61,13 +61,13 @@ export ROLE_NAME="databend-s3-sqs-consumer-role"
export PREFIX="<object-key-prefix>"
export SUFFIX="<object-key-suffix>"

export DATABEND_WEBAPI_ROLE_ARN="<databend-webapi-role-arn>"
export DATABEND_QUERY_ROLE_ARN="<databend-query-role-arn>"
export DATABEND_SETUP_ROLE_ARN="<databend-cloud-setup-role-arn>"
export DATABEND_LOAD_ROLE_ARN="<databend-cloud-load-role-arn>"
export EXTERNAL_ID="<databend-cloud-org-id>"
```

:::tip
`DATABEND_WEBAPI_ROLE_ARN` 和 `DATABEND_QUERY_ROLE_ARN` 以 Databend Cloud 控制台或产品页面展示的值为准。通常需要在用户 IAM Role 的信任策略中同时信任这两个平台角色:一个用于控制台测试、预览等操作,另一个用于 SQL 运行时
使用 Databend Cloud 提供的两个角色 ARN:`DATABEND_SETUP_ROLE_ARN` 对应 **Databend Cloud setup and validation role**,`DATABEND_LOAD_ROLE_ARN` 对应 **Databend Cloud data loading role**。通常需要在用户 IAM Role 的信任策略中同时信任这两个平台角色。
:::

## 步骤 1:创建或获取 SQS 标准队列
Expand Down Expand Up @@ -234,17 +234,17 @@ aws s3api get-bucket-notification-configuration \

```bash
jq -n \
--arg databendWebapiRoleArn "$DATABEND_WEBAPI_ROLE_ARN" \
--arg databendQueryRoleArn "$DATABEND_QUERY_ROLE_ARN" \
--arg databendSetupRoleArn "$DATABEND_SETUP_ROLE_ARN" \
--arg databendLoadRoleArn "$DATABEND_LOAD_ROLE_ARN" \
--arg externalId "$EXTERNAL_ID" \
'{
Version: "2012-10-17",
Statement: [
{
Sid: "AllowDatabendWebapiAssumeRole",
Sid: "AllowDatabendSetupAssumeRole",
Effect: "Allow",
Principal: {
AWS: $databendWebapiRoleArn
AWS: $databendSetupRoleArn
},
Action: "sts:AssumeRole",
Condition: {
Expand All @@ -254,10 +254,10 @@ jq -n \
}
},
{
Sid: "AllowDatabendQueryAssumeRole",
Sid: "AllowDatabendLoadAssumeRole",
Effect: "Allow",
Principal: {
AWS: $databendQueryRoleArn
AWS: $databendLoadRoleArn
},
Action: "sts:AssumeRole",
Condition: {
Expand Down Expand Up @@ -416,4 +416,4 @@ aws iam get-role \

## 后续操作

创建完成后,您可以基于该数据源创建 [Amazon SQS (S3) 集成任务](../task/04-sqs-s3.md)。
创建完成后,您可以基于该数据源创建 [Amazon SQS (S3) 集成任务](../task/02-sqs-s3.md)。
Original file line number Diff line number Diff line change
@@ -1,19 +1,19 @@
---
title: MySQL - Credentials
title: MySQL - 连接凭证
---

本页介绍如何创建 `MySQL - Credentials` 数据源。该数据源用于保存访问 MySQL 所需的连接信息,可供多个 MySQL 集成任务复用。
本页介绍如何创建 `MySQL - 连接凭证` 数据源。该数据源用于保存访问 MySQL 所需的连接信息,可供多个 MySQL 集成任务复用。

## 使用场景

- 为多个 MySQL 同步任务统一管理主机、端口和账号信息
- 避免在每个任务里重复填写数据库连接配置
- 在数据库地址或账号变更后统一更新引用它的任务

## 创建 MySQL - Credentials
## 创建 MySQL - 连接凭证

1. 前往 **Data** > **Data Sources**,点击 **Create Data Source**。
2. 将服务类型选择为 **MySQL - Credentials**,然后填写连接信息:
2. 将服务类型选择为 **MySQL - 连接凭证**,然后填写连接信息:

| 字段 | 是否必填 | 说明 |
|------|----------|------|
Expand All @@ -38,4 +38,4 @@ title: MySQL - Credentials

## 后续操作

创建完成后,您可以基于该数据源创建 [MySQL 集成任务](../task/02-mysql.md)。
创建完成后,您可以基于该数据源创建 [MySQL 集成任务](../task/03-mysql.md)。
Original file line number Diff line number Diff line change
Expand Up @@ -2,18 +2,18 @@
title: PostgreSQL - 连接凭证
---

本页介绍如何创建 `PostgreSQL - Credentials` 数据源。该数据源用于存储访问 PostgreSQL 所需的连接信息,可在多个 PostgreSQL 集成任务中复用。
本页介绍如何创建 `PostgreSQL - 连接凭证` 数据源。该数据源用于存储访问 PostgreSQL 所需的连接信息,可在多个 PostgreSQL 集成任务中复用。

## 使用场景

- 集中管理多个 PostgreSQL 同步任务的主机、端口和账户信息
- 避免在每个任务中重复输入相同的数据库连接配置
- 当数据库地址或账户发生变更时,只需在一处更新即可同步所有关联任务

## 创建 PostgreSQL - Credentials
## 创建 PostgreSQL - 连接凭证

1. 进入 **Data** > **Data Sources**,点击 **Create Data Source**。
2. 选择 **PostgreSQL - Credentials** 作为服务类型,然后填写连接信息:
2. 选择 **PostgreSQL - 连接凭证** 作为服务类型,然后填写连接信息:

| 字段 | 必填 | 说明 |
|------|------|------|
Expand All @@ -37,4 +37,4 @@ title: PostgreSQL - 连接凭证

## 后续步骤

创建数据源后,您可以使用它来创建 [PostgreSQL 集成任务](../task/03-postgres.md)。
创建数据源后,您可以使用它来创建 [PostgreSQL 集成任务](../task/04-postgres.md)。
12 changes: 6 additions & 6 deletions docs/cn/guides/10-cloud/05-data-integration/datasource/index.md
Original file line number Diff line number Diff line change
Expand Up @@ -12,13 +12,13 @@ Databend Cloud 数据源表示与外部系统建立的一条连接,其中保

| 类型 | 用途 |
|------|------|
| [AWS - Credentials](./01-aws.md) | 保存访问 Amazon S3 所需的 Access Key 和 Secret Key,可供多个 S3 导入任务复用。 |
| [Amazon SQS (S3)](./05-sqs-s3.md) | 保存 SQS (S3) 接入所需的队列地址、Region、IAM Role 和 S3 路径范围,可用于消费 S3 对象创建事件。 |
| [MySQL - Credentials](./02-mysql.md) | 保存访问 MySQL 所需的主机、端口、用户名、密码和数据库信息,可供多个 MySQL 同步任务复用。 |
| [PostgreSQL - Credentials](./04-postgres.md) | 保存访问 PostgreSQL 所需的主机、端口、用户名、密码和数据库信息,可供多个 PostgreSQL 同步任务复用。 |
| [FeiShuBot](./03-feishu.md) | 保存飞书机器人地址和消息模板,用于任务失败通知等场景。 |
| [Amazon S3 - 访问凭证](./01-aws.md) | 保存访问 Amazon S3 所需的 Access Key 和 Secret Key,可供多个 S3 导入任务复用。 |
| [Amazon SQS (S3) - IAM Role](./02-sqs-s3.md) | 保存 SQS (S3) 接入所需的队列地址、Region、IAM Role 和 S3 路径范围,可用于消费 S3 对象创建事件。 |
| [MySQL - 连接凭证](./03-mysql.md) | 保存访问 MySQL 所需的主机、端口、用户名、密码和数据库信息,可供多个 MySQL 同步任务复用。 |
| [PostgreSQL - 连接凭证](./04-postgres.md) | 保存访问 PostgreSQL 所需的主机、端口、用户名、密码和数据库信息,可供多个 PostgreSQL 同步任务复用。 |
| [FeiShuBot](./05-feishu.md) | 保存飞书机器人地址和消息模板,用于任务失败通知等场景。 |

并非每种数据源都会对应一类集成任务。例如,`FeiShuBot` 用于通知配置,而 `AWS - Credentials`、`Amazon SQS (S3)`、`MySQL - Credentials` 和 `PostgreSQL - Credentials` 则会被实际的数据导入、同步或事件消费任务引用。
并非每种数据源都会对应一类集成任务。例如,`FeiShuBot` 用于通知配置,而 `Amazon S3 - 访问凭证`、`Amazon SQS (S3) - IAM Role`、`MySQL - 连接凭证` 和 `PostgreSQL - 连接凭证` 则会被实际的数据导入、同步或事件消费任务引用。

## 管理数据源

Expand Down
6 changes: 3 additions & 3 deletions docs/cn/guides/10-cloud/05-data-integration/index.md
Original file line number Diff line number Diff line change
Expand Up @@ -23,9 +23,9 @@ Databend Cloud 的 Data Integration 功能通过可视化、无代码界面,
| 任务类型 | 说明 |
|----------|------|
| [Amazon S3](./task/01-s3.md) | 从 Amazon S3 导入 CSV、Parquet 或 NDJSON 文件,可选择一次性导入或持续导入。 |
| [Amazon SQS (S3)](./task/04-sqs-s3.md) | 消费 SQS 队列中的 S3 对象创建事件,并将对应对象数据写入 Databend。 |
| [MySQL](./task/02-mysql.md) | 从 MySQL 同步表数据,支持 `Snapshot`、`CDC Only` 和 `Snapshot + CDC` 模式。 |
| [PostgreSQL](./task/03-postgres.md) | 从 PostgreSQL 同步表数据,支持 `Snapshot`、`CDC Only` 和 `Snapshot + CDC` 模式。 |
| [Amazon SQS (S3)](./task/02-sqs-s3.md) | 消费 SQS 队列中的 S3 对象创建事件,并将对应对象数据写入 Databend。 |
| [MySQL](./task/03-mysql.md) | 从 MySQL 同步表数据,支持 `Snapshot`、`CDC Only` 和 `Snapshot + CDC` 模式。 |
| [PostgreSQL](./task/04-postgres.md) | 从 PostgreSQL 同步表数据,支持 `Snapshot`、`CDC Only` 和 `Snapshot + CDC` 模式。 |

## 推荐使用流程

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -53,6 +53,6 @@ Data Integration 页面会展示所有任务及其当前状态:
有关具体字段和配置项,请继续阅读对应任务类型页面:

- [Amazon S3 集成任务](./01-s3.md)
- [MySQL 集成任务](./02-mysql.md)
- [PostgreSQL 集成任务](./03-postgres.md)
- [Amazon SQS (S3) 集成任务](./04-sqs-s3.md)
- [MySQL 集成任务](./03-mysql.md)
- [PostgreSQL 集成任务](./04-postgres.md)
- [Amazon SQS (S3) 集成任务](./02-sqs-s3.md)
6 changes: 3 additions & 3 deletions docs/cn/guides/10-cloud/05-data-integration/task/01-s3.md
Original file line number Diff line number Diff line change
Expand Up @@ -5,7 +5,7 @@ slug: /cloud/data-integration/s3

本页介绍如何创建一个 Amazon S3 集成任务,将 S3 存储桶中的文件导入 Databend。当前支持 CSV、Parquet 和 NDJSON 文件格式,并可选择一次性导入或持续导入模式。

如需先创建可复用的 AWS 凭据配置,请参见 [AWS - Credentials](../datasource/01-aws.md)。
如需先创建可复用的 AWS 凭据配置,请参见 [Amazon S3 - 访问凭证](../datasource/01-aws.md)。

## 支持的文件格式

Expand All @@ -17,7 +17,7 @@ slug: /cloud/data-integration/s3

## 前置条件

- 已创建 **AWS - Credentials** 数据源
- 已创建 **Amazon S3 - 访问凭证** 数据源
- AWS 凭据对目标 S3 存储桶具备读取权限
- 如果计划启用 **Clean Up Original Files**,AWS 凭据还需要具备写入和删除权限

Expand All @@ -31,7 +31,7 @@ slug: /cloud/data-integration/s3

| 字段 | 是否必填 | 说明 |
|------|----------|------|
| **Data Source** | 是 | 从下拉列表中选择已有的 **AWS - Credentials** 数据源 |
| **Data Source** | 是 | 从下拉列表中选择已有的 **Amazon S3 - 访问凭证** 数据源 |
| **Name** | 是 | 当前集成任务名称 |
| **File Path** | 是 | S3 URI,可包含通配符(例如 `s3://mybucket/data/2025-*.csv`) |
| **File Type** | 自动 | 根据文件扩展名自动识别;当前支持 CSV、Parquet、NDJSON |
Expand Down
Original file line number Diff line number Diff line change
@@ -1,13 +1,13 @@
---
title: Amazon SQS (S3) 集成任务
slug: /cloud/data-integration/sqs-s3-event
slug: /cloud/data-integration/sqs-s3
---

本页介绍如何创建 Amazon SQS (S3) 集成任务,消费 SQS 队列中的 S3 对象创建事件,并将对应对象数据写入 Databend。

该任务面向 S3 事件驱动的数据接入场景:上游系统向 S3 写入对象后,S3 将 `ObjectCreated` 事件发送到 SQS,Databend Cloud 通过 AssumeRole 消费 SQS 消息,并基于事件中的存储桶和对象 key 将数据写入 Databend。

如需先创建可复用的 SQS (S3) 连接配置,请参见 [Amazon SQS (S3)](../datasource/05-sqs-s3.md)。
如需先创建可复用的 SQS (S3) 连接配置,请参见 [Amazon SQS (S3) - IAM Role](../datasource/02-sqs-s3.md)。

## 适用场景

Expand All @@ -32,7 +32,7 @@ S3 事件通知和 SQS 标准队列都可能产生重复消息。Databend 会处

在创建 SQS (S3) 集成任务前,请确保:

- 已创建 **Amazon SQS (S3)** 数据源
- 已创建 **Amazon SQS (S3) - IAM Role** 数据源
- S3 存储桶已配置 `ObjectCreated` 事件通知,并将事件发送到目标 SQS 队列
- SQS 队列策略允许 Amazon S3 执行 `sqs:SendMessage`
- 用户 IAM Role 允许 Databend 平台角色通过 `sts:AssumeRole` 访问
Expand All @@ -49,7 +49,7 @@ S3 事件通知和 SQS 标准队列都可能产生重复消息。Databend 会处

| 字段 | 是否必填 | 说明 |
|------|----------|------|
| **Data Source** | 是 | 从下拉列表中选择已有的 **Amazon SQS (S3)** 数据源 |
| **Data Source** | 是 | 从下拉列表中选择已有的 **Amazon SQS (S3) - IAM Role** 数据源 |
| **Name** | 是 | 当前集成任务名称 |
| **File Format** | 是 | S3 对象的文件格式,例如 CSV、Parquet 或 NDJSON |
| **Object Key Prefix** | 否 | 仅处理指定前缀的对象事件,例如 `raw/events/`。应与数据源和 S3 notification filter 保持一致 |
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -5,7 +5,7 @@ slug: /cloud/data-integration/mysql

本页介绍如何创建一个 MySQL 集成任务,将 MySQL 数据库中的数据同步到 Databend。MySQL 任务支持全量 `Snapshot` 加载、持续 `Change Data Capture (CDC)`,或两者结合的模式。

如需先创建可复用的 MySQL 连接配置,请参见 [MySQL - Credentials](../datasource/02-mysql.md)。
如需先创建可复用的 MySQL 连接配置,请参见 [MySQL - 连接凭证](../datasource/03-mysql.md)。

## 同步模式

Expand All @@ -19,7 +19,7 @@ slug: /cloud/data-integration/mysql

在配置 MySQL 数据集成前,请确保您的 MySQL 实例满足以下要求:

- 已创建 **MySQL - Credentials** 数据源
- 已创建 **MySQL - 连接凭证** 数据源
- Databend Cloud 可以通过网络访问目标 MySQL 实例

### 启用 Binlog
Expand Down Expand Up @@ -62,7 +62,7 @@ FLUSH PRIVILEGES;

| 字段 | 是否必填 | 说明 |
|------|----------|------|
| **Data Source** | 是 | 从下拉列表中选择已有的 **MySQL - Credentials** 数据源 |
| **Data Source** | 是 | 从下拉列表中选择已有的 **MySQL - 连接凭证** 数据源 |
| **Name** | 是 | 当前集成任务名称 |
| **Source Database** | — | 根据所选数据源自动显示 |
| **Source Table** | 是 | 选择要从 MySQL 数据库同步的表 |
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -19,7 +19,7 @@ slug: /cloud/data-integration/postgres

在设置 PostgreSQL 数据集成之前,请确保您的 PostgreSQL 实例满足以下要求:

- 已创建 **PostgreSQL - Credentials** 数据源
- 已创建 **PostgreSQL - 连接凭证** 数据源
- 目标 PostgreSQL 实例可从 Databend Cloud 访问
- PostgreSQL 版本 10 或更高

Expand Down Expand Up @@ -88,7 +88,7 @@ CREATE PUBLICATION bend_cdc_pub FOR TABLE table1, table2;

| 字段 | 必填 | 说明 |
|------|------|------|
| **Data Source** | 是 | 从下拉列表中选择已有的 **PostgreSQL - Credentials** 数据源 |
| **Data Source** | 是 | 从下拉列表中选择已有的 **PostgreSQL - 连接凭证** 数据源 |
| **Name** | 是 | 集成任务的名称 |
| **Source Database** | — | 根据所选数据源自动显示 |
| **Source Table** | 是 | 从 PostgreSQL 数据库中选择要同步的表 |
Expand Down
6 changes: 3 additions & 3 deletions docs/cn/guides/10-cloud/05-data-integration/task/index.md
Original file line number Diff line number Diff line change
Expand Up @@ -13,9 +13,9 @@ Databend Cloud 集成任务定义了数据如何从源端流入 Databend 中的
| 任务类型 | 说明 |
|----------|------|
| [Amazon S3](./01-s3.md) | 从 Amazon S3 导入 CSV、Parquet 或 NDJSON 文件,支持一次性导入和持续导入。 |
| [Amazon SQS (S3)](./04-sqs-s3.md) | 消费 SQS 队列中的 S3 对象创建事件,并将对应对象数据写入 Databend。 |
| [MySQL](./02-mysql.md) | 从 MySQL 表同步数据到 Databend,支持 `Snapshot`、`CDC Only` 和 `Snapshot + CDC`。 |
| [PostgreSQL](./03-postgres.md) | 从 PostgreSQL 表同步数据到 Databend,支持 `Snapshot`、`CDC Only` 和 `Snapshot + CDC`。 |
| [Amazon SQS (S3)](./02-sqs-s3.md) | 消费 SQS 队列中的 S3 对象创建事件,并将对应对象数据写入 Databend。 |
| [MySQL](./03-mysql.md) | 从 MySQL 表同步数据到 Databend,支持 `Snapshot`、`CDC Only` 和 `Snapshot + CDC`。 |
| [PostgreSQL](./04-postgres.md) | 从 PostgreSQL 表同步数据到 Databend,支持 `Snapshot`、`CDC Only` 和 `Snapshot + CDC`。 |

## 阅读建议

Expand Down
Original file line number Diff line number Diff line change
@@ -1,19 +1,19 @@
---
title: AWS - Credentials
title: Amazon S3 - Credentials
---

This page describes how to create an `AWS - Credentials` data source. This data source stores the credentials required to access Amazon S3 and can be reused across multiple S3 integration tasks.
This page describes how to create an `Amazon S3 - Credentials` data source. This data source stores the credentials required to access Amazon S3 and can be reused across multiple S3 integration tasks.

## Use Cases

- Manage one set of AWS Access Key and Secret Key credentials for multiple S3 import tasks
- Avoid re-entering the same S3 access credentials in every task
- Update credentials centrally when they are rotated

## Create AWS - Credentials
## Create Amazon S3 - Credentials

1. Navigate to **Data** > **Data Sources** and click **Create Data Source**.
2. Select **AWS - Credentials** as the service type, then fill in the credentials:
2. Select **Amazon S3 - Credentials** as the service type, then fill in the credentials:

| Field | Required | Description |
|-------|----------|-------------|
Expand Down
Loading
Loading