`loss_mask` not adjusted after target shift, causing loss on invalid padding

When preparing data for training, the code shifts `target` (logits) and `input_ids` to the left using `padding(tensor, left=False)`:

https://github.com/SafeAILab/EAGLE/blob/2866b68de2a80a6aa6d3a96a5a3d1e99ea4f8cb9/eagle/traineagle3/cnets.py#L722-L730

This left-shift is done for next-token prediction alignment. However, after shifting, the **last position** contains a **zero-padding value** (not a real token). If `loss_mask` still has `1` at the last position, the model computes loss on a meaningless padded target, potentially degrading training quality.

### Suggested fix

Exclude the last position from loss computation in the `dataprepare` function:

```python
target = outs.logits
target = padding(target, left=False)
input_ids = padding(input_ids, left=False)

if target is not None:
    target = target.to(device)
    loss_mask[..., -1] = 0  # Exclude last position (now contains padding)
    loss_mask = loss_mask[..., None]
    loss_mask = loss_mask.to(device)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

`loss_mask` not adjusted after target shift, causing loss on invalid padding #317

Suggested fix

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

	target = outs.logits
	target = padding(target, left=False)
	input_ids = padding(input_ids, left=False)

	if target is not None:
	target = target.to(device)
	loss_mask = loss_mask[..., None]
	loss_mask = loss_mask.to(device)

loss_mask not adjusted after target shift, causing loss on invalid padding #317

Description

Suggested fix

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions

`loss_mask` not adjusted after target shift, causing loss on invalid padding #317