From 980f8405654884a33b1b463d1bfb2dc3994e9077 Mon Sep 17 00:00:00 2001
From: "Y.D.X." <73375426+YDX-2147483647@users.noreply.github.com>
Date: Fri, 10 Apr 2026 11:02:05 +0800
Subject: [PATCH] =?UTF-8?q?fix(zh-CN):=20Correct=20a=20typo=20(=E5=9B=A0?=
 =?UTF-8?q?=E5=9B=A0=E4=B8=BA=20=E2=86=92=20=E5=9B=A0=E4=B8=BA)=20and=20im?=
 =?UTF-8?q?prove=20the=20sentence?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 chapters/zh-CN/chapter1/4.mdx | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)
diff --git a/chapters/zh-CN/chapter1/4.mdx b/chapters/zh-CN/chapter1/4.mdx
index 827e23803..ba5d1011d 100644
--- a/chapters/zh-CN/chapter1/4.mdx
+++ b/chapters/zh-CN/chapter1/4.mdx
@@ -161,7 +161,7 @@ Transformer 架构最初是为翻译而设计的。在训练期间，编码器
 <img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers-dark.svg" alt="Architecture of a Transformers models"/>
 </div>
 
-注意，解码器块中的第一个注意力层关联到解码器的所有（过去的）输入，但是第二个注意力层只使用编码器的输出。因此，它在预测当前单词时，可以使用整个句子的信息。这是非常有用的，因因为不同的语言可以有把词放在不同顺序的语法规则，或者句子后面提供的一些上下文可能有助于确定给定单词的最佳翻译。
+注意，解码器块中的第一个注意力层关联到解码器的所有（过去的）输入，但是第二个注意力层只使用编码器的输出。因此，它在预测当前单词时，可以使用整个句子的信息。这非常有用，因为不同语言的语法规则可能按不同顺序排列单词，或者句子后面提供的一些上下文可能有助于确定给定单词的最佳翻译。
 
 也可以在编码器/解码器中使用*attention mask（注意力掩码层）*，以防止模型关注到某些特殊单词。例如，用于在批量处理句子时使所有输入长度一致的特殊填充词。