[flink] Normalize restored lake split state

luoyuxia · luoyuxia · commit 9ce897ff9634 · 2026-05-25T17:55:34.000+08:00
diff --git a/fluss-flink/fluss-flink-common/src/main/java/org/apache/fluss/flink/source/FlinkSource.java b/fluss-flink/fluss-flink-common/src/main/java/org/apache/fluss/flink/source/FlinkSource.java
@@ -52,6 +52,9 @@
 
 import javax.annotation.Nullable;
 
+import java.util.Collections;
+import java.util.List;
+
 import static org.apache.fluss.config.ConfigOptions.CLIENT_SCANNER_IO_TMP_DIR;
 import static org.apache.fluss.flink.utils.FlinkConnectorOptionsUtils.getClientScannerIoTmpDir;
 
@@ -236,6 +239,14 @@ public SplitEnumerator<SourceSplitBase, SourceEnumeratorState> createEnumerator(
     public SplitEnumerator<SourceSplitBase, SourceEnumeratorState> restoreEnumerator(
             SplitEnumeratorContext<SourceSplitBase> splitEnumeratorContext,
             SourceEnumeratorState sourceEnumeratorState) {
+        List<SourceSplitBase> remainingHybridLakeFlussSplits =
+                sourceEnumeratorState.getRemainingHybridLakeFlussSplits();
+        // A fresh null means lake splits are not initialized yet. When restoring, null means
+        // nothing is pending, so normalize it here to avoid generating lake splits later.
+        if (remainingHybridLakeFlussSplits == null) {
+            remainingHybridLakeFlussSplits = Collections.emptyList();
+        }
+
         return new FlinkSourceEnumerator(
                 tablePath,
                 flussConf,
@@ -244,7 +255,7 @@ public SplitEnumerator<SourceSplitBase, SourceEnumeratorState> restoreEnumerator
                 splitEnumeratorContext,
                 sourceEnumeratorState.getAssignedBuckets(),
                 sourceEnumeratorState.getAssignedPartitions(),
-                sourceEnumeratorState.getRemainingHybridLakeFlussSplits(),
+                remainingHybridLakeFlussSplits,
                 offsetsInitializer,
                 scanPartitionDiscoveryIntervalMs,
                 splitPerAssignmentBatchSize,
diff --git a/fluss-flink/fluss-flink-common/src/main/java/org/apache/fluss/flink/source/enumerator/FlinkSourceEnumerator.java b/fluss-flink/fluss-flink-common/src/main/java/org/apache/fluss/flink/source/enumerator/FlinkSourceEnumerator.java
@@ -526,9 +526,8 @@ private void startInBatchMode() {
     private void startInStreamModeForNonPartitionedTable() {
         if (lakeSource != null) {
             // Generate lake splits synchronously so that they are available before the
-            // first checkpoint.  This is consistent with the partitioned-table path in
-            // start() and ensures generateHybridLakeFlussSplits() can safely use
-            // checkpointTriggeredBefore to distinguish fresh starts from restores.
+            // first checkpoint. This is consistent with the partitioned-table path in
+            // start().
             List<SourceSplitBase> splits = generateHybridLakeFlussSplits();
             if (splits == null) {
                 // no lake snapshot, fall back to normal Fluss splits
@@ -887,13 +886,6 @@ private List<SourceSplitBase> generateHybridLakeFlussSplits() {
             LOG.info("Still have pending lake fluss splits, shouldn't list splits again.");
             return pendingHybridLakeFlussSplits;
         }
-        // Restored from checkpoint but pending lake split is null(e.g. the source was
-        // originally started in Fluss-only mode without lake).  Do not generate lake
-        // splits for this restore; mark as initialized and return empty list.
-        if (checkpointTriggeredBefore) {
-            pendingHybridLakeFlussSplits = Collections.emptyList();
-            return pendingHybridLakeFlussSplits;
-        }
         try {
             LakeSplitGenerator lakeSplitGenerator =
                     new LakeSplitGenerator(
diff --git a/fluss-flink/fluss-flink-common/src/test/java/org/apache/fluss/flink/source/enumerator/FlinkSourceEnumeratorTest.java b/fluss-flink/fluss-flink-common/src/test/java/org/apache/fluss/flink/source/enumerator/FlinkSourceEnumeratorTest.java
@@ -25,6 +25,8 @@
 import org.apache.fluss.flink.FlinkConnectorOptions;
 import org.apache.fluss.flink.lake.split.LakeSnapshotAndFlussLogSplit;
 import org.apache.fluss.flink.lake.split.LakeSnapshotSplit;
+import org.apache.fluss.flink.source.FlinkSource;
+import org.apache.fluss.flink.source.deserializer.RowDataDeserializationSchema;
 import org.apache.fluss.flink.source.event.PartitionBucketsUnsubscribedEvent;
 import org.apache.fluss.flink.source.event.PartitionsRemovedEvent;
 import org.apache.fluss.flink.source.reader.LeaseContext;
@@ -54,8 +56,10 @@
 
 import org.apache.flink.api.connector.source.ReaderInfo;
 import org.apache.flink.api.connector.source.SourceEvent;
+import org.apache.flink.api.connector.source.SplitEnumerator;
 import org.apache.flink.api.connector.source.SplitsAssignment;
 import org.apache.flink.api.connector.source.mocks.MockSplitEnumeratorContext;
+import org.apache.flink.table.data.RowData;
 import org.junit.jupiter.api.BeforeAll;
 import org.junit.jupiter.api.Test;
 import org.junit.jupiter.api.io.TempDir;
@@ -244,48 +248,52 @@ void testRestoreFlussOnlySourceWithLakeSourceDoesNotGenerateLakeSplits(@TempDir
 
         SourceEnumeratorState checkpointState;
         try (MockSplitEnumeratorContext<SourceSplitBase> context =
-                new MockSplitEnumeratorContext<>(1)) {
-            FlinkSourceEnumerator enumerator =
-                    new FlinkSourceEnumerator(
-                            DEFAULT_TABLE_PATH,
-                            flussConf,
-                            true,
-                            false,
-                            context,
-                            OffsetsInitializer.timestamp(1000L),
-                            DEFAULT_SCAN_PARTITION_DISCOVERY_INTERVAL_MS,
-                            streaming,
-                            null,
-                            null,
-                            LeaseContext.DEFAULT,
-                            false);
-
+                        new MockSplitEnumeratorContext<>(1);
+                SplitEnumerator<SourceSplitBase, SourceEnumeratorState> enumerator =
+                        new FlinkSource<RowData>(
+                                        flussConf,
+                                        DEFAULT_TABLE_PATH,
+                                        false,
+                                        true,
+                                        DEFAULT_LOG_TABLE_SCHEMA.getRowType(),
+                                        null,
+                                        null,
+                                        OffsetsInitializer.timestamp(1000L),
+                                        0L,
+                                        new RowDataDeserializationSchema(),
+                                        streaming,
+                                        null,
+                                        LeaseContext.DEFAULT)
+                                .createEnumerator(context)) {
             checkpointState = enumerator.snapshotState(1L);
+            assertThat(checkpointState.getRemainingHybridLakeFlussSplits()).isNull();
         }
 
         try (MockSplitEnumeratorContext<SourceSplitBase> context =
                         new MockSplitEnumeratorContext<>(DEFAULT_BUCKET_NUM);
-                MockWorkExecutor workExecutor = new MockWorkExecutor(context);
-                FlinkSourceEnumerator restoredEnumerator =
-                        new FlinkSourceEnumerator(
-                                DEFAULT_TABLE_PATH,
-                                flussConf,
-                                false,
-                                true,
-                                context,
-                                checkpointState.getAssignedBuckets(),
-                                checkpointState.getAssignedPartitions(),
-                                checkpointState.getRemainingHybridLakeFlussSplits(),
-                                OffsetsInitializer.full(),
-                                DEFAULT_SCAN_PARTITION_DISCOVERY_INTERVAL_MS,
-                                streaming,
-                                null,
-                                lakeSource,
-                                workExecutor,
-                                LeaseContext.DEFAULT,
-                                true)) {
+                SplitEnumerator<SourceSplitBase, SourceEnumeratorState> restoredEnumerator =
+                        new FlinkSource<RowData>(
+                                        flussConf,
+                                        DEFAULT_TABLE_PATH,
+                                        false,
+                                        true,
+                                        DEFAULT_LOG_TABLE_SCHEMA.getRowType(),
+                                        null,
+                                        null,
+                                        OffsetsInitializer.full(),
+                                        0L,
+                                        new RowDataDeserializationSchema(),
+                                        streaming,
+                                        null,
+                                        lakeSource,
+                                        LeaseContext.DEFAULT)
+                                .restoreEnumerator(context, checkpointState)) {
+            assertThat(restoredEnumerator.snapshotState(1L).getRemainingHybridLakeFlussSplits())
+                    .isEmpty();
+
             restoredEnumerator.start();
-            runPeriodicPartitionDiscovery(workExecutor);
+            context.runNextOneTimeCallable();
+            context.runNextOneTimeCallable();
 
             for (int i = 0; i < DEFAULT_BUCKET_NUM; i++) {
                 registerReader(context, restoredEnumerator, i);
@@ -943,7 +951,7 @@ void testPartitionsExpiredInFlussButExistInLake(
     // ---------------------
     private void registerReader(
             MockSplitEnumeratorContext<SourceSplitBase> context,
-            FlinkSourceEnumerator enumerator,
+            SplitEnumerator<SourceSplitBase, SourceEnumeratorState> enumerator,
             int readerId) {
         context.registerReader(new ReaderInfo(readerId, "location " + readerId));
         enumerator.addReader(readerId);