Skip to content

Commit 830156b

Browse files
authored
Merge pull request #55 from yhm-amber/patch-1
Enhance clarity and language in data lake documentation
2 parents 1397ffb + 8549fcf commit 830156b

File tree

1 file changed

+25
-24
lines changed

1 file changed

+25
-24
lines changed
Lines changed: 25 additions & 24 deletions
Original file line numberDiff line numberDiff line change
@@ -1,73 +1,74 @@
11
# 面向现代数据湖的 RustFS
22

3-
现代数据湖和数据湖仓一体建立在现代对象存储之上。这意味着它们建立在 RustFS 之上。
3+
现代数据湖和数据湖仓一体架构建立在现代对象存储之上。这意味着它们可建立在 RustFS 之上。
44

5-
**RustFS 为现代数据湖/湖仓一体提供统一的存储解决方案,这些可以在任何地方运行:私有云、公共云、Colos、裸机 - 甚至在边缘。是的,快速、可扩展、云原生且随时可用 - 包括所有电池**
5+
**RustFS 为现代数据湖/湖仓一体提供统一的存储解决方案,可以在任何地方运行:私有云、公共云、机柜、裸金属 ―― 甚至可以在边缘。是的,快速、可扩展、云原生且随时可用 ―― 内置电池**
66

77
![数据湖架构](images/data-lake-architecture.png)
88

9-
## 打开表格格式就绪
9+
## 开放表格格式就绪
1010

1111
![表格格式](images/table-formats.png)
1212

13-
现代数据湖是多引擎的,这些引擎(Spark、Flink、Trino、Arrow、Dask 等)都需要以某种方式绑定成一个有凝聚力的建筑。现代数据湖必须提供中央表存储,便携式通勤、门禁控制和持久结构。这就是 Iceberg、Hudi 和 Delta Lake 等格式开始发挥作用。它们是为现代数据湖设计的,它们是 RustFS 支持每个。我们可能会对哪一方获胜有意见(你可以随时问我们...但我们致力于支持他们,直到它没有意义(参见 Docker Swarm 和 Mesosphere)。
13+
现代数据湖是多引擎的,这些引擎(Spark、Flink、Trino、Arrow、Dask 等)都需要在一个连贯的架构中绑定在一起。现代数据湖必须提供中央表存储、可移植元数据、访问控制和持久结构。这就是 Iceberg、Hudi 和 Delta Lake 等格式发挥作用的地方。它们是为现代数据湖设计的, RustFS 支持每一个。我们可能对哪一个会胜出有自己的看法(你随时可以问我们...),但我们致力于支持它们,直到这样做不再有意义(参见 Docker Swarm 和 Mesosphere)。
1414

1515
## 云原生
1616

17-
RustFS 诞生于云中,并坚持云的原则运营模型 - 容器化、编排、微服务、API、基础架构即代码和自动化。正因为如此,云原生生态系统与 RustFS "一起工作"——从 Spark 到 Presto/Trino,从 Snowflake 到 Dremio,从 Nifi 到 Kafka,从 Prometheus 到 OpenObserve,从 Istio 到 Linkerd,从 Hashicorp Vault 到 Keycloak。
17+
RustFS 出生于云端,并基于云原则运行 —— 容器化、编排、微服务、API、基础设施即代码和自动化。正因如此,云原生生态系统与 RustFS "无缝协作" —— 从 Spark 到 Presto/Trino,从 Snowflake 到 Dremio,从 NiFi 到 Kafka,从 Prometheus 到 OpenObserve,从 Istio 到 Linkerd,从 Hashicorp Vault 到 Keycloak。
1818

19-
不要相信我们的话 - 输入您最喜欢的云原生技术并让谷歌为你提供证据
19+
不要只听我们的说法 —— 输入你最喜欢的云原生技术,让 Google 提供证据
2020

2121
## 多引擎
2222

23-
RustFS 支持所有兼容 S3 的查询引擎,也就是说所有他们。没有看到您使用的 - 给我们留言,我们将进行调查
23+
RustFS 支持所有 S3 兼容的查询引擎,也就是说全部支持。没看到你使用的那个?联系我们,我们会进行调查
2424

2525
![多引擎支持](images/multi-engine-1.svg)
2626

2727
![多引擎支持](images/multi-engine-2.svg)
2828

2929
## 性能
3030

31-
现代数据湖需要一定程度的性能,甚至更多重要的是,大规模的性能,这是 Hadoop 梦寐以求的老式物品商店只是幻想。RustFS 已在多个基准测试表明它比 Hadoop 和迁移路径已明确记录。这意味着查询引擎(Spark、Presto、TrinoSnowflakeMicrosoft SQL ServerTeradata 等)。这也包括您的 AI/ML 平台 - 从 MLflow 到 Kubeflow。
31+
现代数据湖需要具备一定性能水平,更重要的是,需要具备传统 Hadoop 时代通用存储设备所无法想象的规模化性能。RustFS 在多个基准测试中已证明其性能优于 Hadoop,且迁移路径已有详细文档记录。这意味着查询引擎(Spark、Presto、TrinoSnowflakeMicrosoft SQL ServerTeradata 等)性能更佳。这同样适用于您的 AI/ML 平台——从 MLflow 到 Kubeflow。
3232

33-
我们发布我们的基准供全世界查看,并使其可重复。了解我们如何在 GET 上达到 325 GiB/s(349 GB/s)165 GiB/s(177 GB/s)在这篇文章中,只有 32 个现成的 NVMe SSD 节点的 PUT
33+
我们公开发布我们的基准测试结果,并确保其可重复性。本文将介绍我们如何仅使用 32 个现成的 NVMe SSD 节点,在 GET 操作上达到 325 GiB/s(349 GB/s),在 PUT 操作上达到 165 GiB/s(177 GB/s)。
3434

35-
##
35+
## 轻量
3636

37-
RustFS 的服务器二进制文件全部为 < 100 MB。尽管它很大,但它是强大到足以在数据中心运行,但仍然足够小,可以生存舒适地在边缘。在 Hadoop 中没有这样的替代方案世界。这对企业来说意味着您的 S3 应用程序可以随时随地使用相同的 API 访问数据。实施 RustFS 边缘位置和复制功能,我们可以捕获和过滤数据在边缘,并将其传送到母集群进行聚合,以及进一步的分析实施
37+
RustFS 的服务器二进制文件整体小于 100 MB。尽管它功能强大得足够健壮可以在数据中心运行,但它同时也足够小巧以至于可以在边缘舒适地运行。在 Hadoop 世界中没有这样的替代方案。对于企业而言,这意味着您的 S3 应用程序可以通过相同的 API 在任何地方访问数据。通过实现 RustFS 边缘位置和复制功能,我们可以在边缘捕获和过滤数据,并将其交付到父集群以进行聚合和进一步的分析实现
3838

3939
## 分解
4040

41-
现代数据湖扩展了 Hadoop 中的分解功能分手。现代数据湖具有高速查询处理引擎和它们具有高吞吐量存储。现代数据湖太大了以适合数据库,因此数据驻留在对象存储中。这方式,数据库可以专注于查询优化功能和将存储功能外包给高速对象存储。通过保持内存中数据的子集,并利用诸如谓词下推(S3 Select)和外部表 - 查询引擎具有更大的灵活性。
41+
现代数据湖扩展了打破 Hadoop 的分解能力。现代数据湖具有高速查询处理引擎和高吞吐量存储。现代数据湖规模太大,无法适应数据库,因此数据驻留在对象存储中。这样,数据库可以专注于查询优化功能,并将存储功能外包给高速对象存储。通过将数据子集保留在内存中,并利用谓词下推(S3 Select)和外部表等特性,查询引擎具有更大的灵活性。
4242

4343
## 开源
4444

45-
采用 Hadoop 的企业这样做是出于对开放源技术的偏好。作为合乎逻辑的继任者 - 企业希望他们的 DataLake 也将开源。这就是冰山蓬勃发展的原因以及 Databricks 开源 Deltalake 的原因。
45+
采用 Hadoop 的企业是出于对开源技术的偏好。作为逻辑上的继承者 —— 企业也希望他们的数据湖是开源的。这就是 Iceberg 兴盛的原因,也是 Databricks 开源 Delta Lake 的原因。
4646

47-
检查能力、无锁定和舒适性来自数以万计的用户,具有实实在在的价值。RustFS 也是 100% 开源,确保组织能够忠于他们的在投资现代数据湖时实现目标
47+
软件能力、无锁定的自由、以及自成千上万用户支持所带来的放心,都具有实实在在的价值。RustFS 也是 100% 开源的,确保组织在投资现代数据湖时能够坚持其目标
4848

49-
## 迅猛增长
49+
## 迅速猛增
5050

51-
数据是不断生成的,这意味着它必须不断地生成被摄入 - 不会引起消化不良。RustFS 就是为此而生的世界,开箱即用,可与 Kafka、Flink、RabbitMQ 和大量其他解决方案。结果是 datalake/datalakehouse 成为单一事实来源,可以无缝扩展到 EB 及其他领域
51+
数据在不断生成,这意味着必须不断进行数据摄取 —— 而又不会造成消化不良。RustFS 就是为这样的世界而构建的,并且可以开箱即用地与 Kafka、Flink、RabbitMQ 以及众多其他解决方案协同工作。其结果是,数据湖/数据湖屋变成了一个可以无缝扩展至艾字节及以上的单一事实来源
5252

53-
RustFS 有多个客户端,其每日数据摄取量超过 250PB。
53+
RustFS 拥有多家客户,其每日数据摄入量超过 250PB。
5454

55-
## 简单
55+
## 简洁性
5656

57-
简单是很难的。这需要工作、纪律,最重要的是,承诺。RustFS 的简单性是传奇的,是哲学承诺使我们的软件易于部署、使用、升级和扩展。现代数据湖不必很复杂。有一个少数部分,我们致力于确保 RustFS 是最容易采用和部署
57+
简洁并不容易。它需要工作、纪律,最重要的是,承诺。RustFS 的简洁性是传奇的,这是一个哲学上的承诺,使我们的软件易于部署、使用、升级和扩展。现代数据湖不必复杂。有几个部分,我们致力于确保 RustFS 是最易于采用和部署的
5858

59-
## ELT 或 ETL - 它只是工作
59+
## ELT 或 ETL ―― 它只是有效工作
6060

61-
RustFS 不仅适用于每个数据流协议,而且每个数据管道,都是每个数据流协议和数据管道与 RustFS 配合使用。每个供应商都进行了广泛的测试,并且通常,数据管道具有弹性和性能
61+
RustFS 不仅适用于所有数据流协议,还适用于所有数据处理管道——所有数据流协议和数据处理管道都与 RustFS 兼容。所有供应商都经过广泛测试,并且通常数据处理管道具有弹性和性能
6262

6363
## 弹性
6464

65-
RustFS 使用每个对象的内联纠删码来保护数据,这远远比复制后的 HDFS 替代方案更有效,并且从未被采用。此外,RustFS bitrot 检测确保它永远不会读取损坏的数据 - 捕获和修复损坏的数据动态对象。RustFS 还支持跨地域、主动-主动复制。最后,RustFS 支持完整的对象锁定框架提供法律保留和保留(具有治理和合规性)模式)。
65+
RustFS 通过对每个对象使用内联纠删码来保护数据,这比从未被采用的 HDFS 复制替代方案要高效得多。此外,RustFS 的位腐 (bitrot) 检测确保它永远不会读取损坏的数据 —— 它能动态地捕获并修复对象的损坏数据。RustFS 还支持跨地域 (cross-region) 与主动-主动 (active-active) 的复制。最后,RustFS 支持完整的对象锁定框架,提供法律保留和保留(具有治理和合规模式)。
6666

6767
## 软件定义
6868

69-
Hadoop HDFS 的继任者不是硬件设备,而是软件在商用硬件上运行。这就是 RustFS 的本质——软件。喜欢 Hadoop HDFS,RustFS 旨在充分利用商品的优势服务器。能够利用 NVMe 驱动器和 100 GbE 网络,RustFS 可以缩小数据中心,从而改善运营效率和可管理性。事实上,建立替代品的公司数据湖将其硬件占用空间减少 60% 或更多,同时改进性能并减少管理它所需的 FTE
69+
Hadoop HDFS 的继任者并非硬件设备,而是一套运行在通用硬件上的软件。这正是 RustFS 的本质 ―― 软件。 Hadoop HDFS 类似,RustFS 旨在充分利用通用服务器。由于能够利用 NVMe 驱动器和 100 GbE 网络,RustFS 可以缩小数据中心规模,从而提高运营效率和可管理性。事实上,正在构建替代型数据湖的公司在减少 60% 或更多的硬件占用的同时提升性能、并降低管理它们所需的全职员工(FTEs)
7070

7171
## 安全
7272

73-
RustFS 支持多种复杂的服务器端加密方案,以保护数据,无论数据位于何处,无论是在飞行中还是在静止状态。RustFS 的方法确保机密性、完整性和真实性性能开销可以忽略不计。服务器端和客户端加密支持使用 AES-256-GCM、ChaCha20-Poly1305 和 AES-CBC,确保应用程序兼容性。此外,RustFS 支持行业领先的密钥管理系统(KMS)。
73+
RustFS 支持多种复杂的服务端加密方案,以保护数据无论其存储于何处,不论数据在传输中还是静止状态。RustFS 的方法确保了机密性、完整性和真实性,且性能开销可以忽略不计。通过支持 AES-256-GCM、ChaCha20-Poly1305 和 AES-CBC 的服务器端和客户端加密,确保了应用程序的兼容性。此外,RustFS 还支持业界领先的密钥管理系统(KMS)。
74+

0 commit comments

Comments
 (0)