diff --git a/ingestion/src/metadata/ingestion/source/database/datalake/clients/base.py b/ingestion/src/metadata/ingestion/source/database/datalake/clients/base.py
index 74a2aba784c3..e6abe8a466ab 100644
--- a/ingestion/src/metadata/ingestion/source/database/datalake/clients/base.py
+++ b/ingestion/src/metadata/ingestion/source/database/datalake/clients/base.py
@@ -14,12 +14,64 @@
 """
 
 from abc import ABC, abstractmethod
-from typing import Any, Callable, Iterable, Optional, Tuple  # noqa: UP035
+from typing import Any, Callable, Dict, Iterable, Optional, Tuple  # noqa: UP035
 
 
 class DatalakeBaseClient(ABC):
     """Base DL client implementation"""
 
+    _ICEBERG_METADATA_SUFFIX = ".metadata.json"
+    _ICEBERG_METADATA_DIR = "/metadata/"
+
+    @staticmethod
+    def _parse_iceberg_metadata(name: str) -> Optional[Tuple[str, int]]:  # noqa: UP006, UP045
+        """
+        Parse an Iceberg metadata path, returning (table_dir, version) or None.
+
+        Supports all standard Iceberg metadata filename formats:
+          - v{n}.metadata.json           (Hadoop catalog)
+          - v{n}-<UUID>.metadata.json    (Hive catalog)
+          - {n}-<UUID>.metadata.json     (REST/Nessie catalog)
+        """
+        if not name.endswith(DatalakeBaseClient._ICEBERG_METADATA_SUFFIX):
+            return None
+        metadata_idx = name.rfind(DatalakeBaseClient._ICEBERG_METADATA_DIR)
+        if metadata_idx < 0:
+            return None
+        table_dir = name[:metadata_idx]
+        filename = name[
+            metadata_idx + len(DatalakeBaseClient._ICEBERG_METADATA_DIR) : -len(
+                DatalakeBaseClient._ICEBERG_METADATA_SUFFIX
+            )
+        ]
+        if not filename:
+            return None
+        raw = filename.lstrip("v")
+        dash_pos = raw.find("-")
+        version_part = raw[:dash_pos] if dash_pos > 0 else raw
+        if not version_part.isdigit():
+            return None
+        return table_dir, int(version_part)
+
+    def _update_iceberg_entry(
+        self,
+        iceberg_tables: Dict[str, Tuple[int, str, Optional[int]]],  # noqa: UP006, UP045
+        name: str,
+        size: Optional[int],  # noqa: UP045
+    ) -> bool:
+        """
+        If name matches the Iceberg metadata pattern, update iceberg_tables with
+        the highest-version entry and return True. Otherwise return False.
+        """
+        parsed = self._parse_iceberg_metadata(name)
+        if not parsed:
+            return False
+        table_dir, version = parsed
+        existing = iceberg_tables.get(table_dir)
+        if existing is None or version > existing[0]:
+            iceberg_tables[table_dir] = (version, name, size)
+        return True
+
     def __init__(self, client: Any, session: Any = None, **kwargs):
         self._client = client
         self._session = session
diff --git a/ingestion/src/metadata/ingestion/source/database/datalake/clients/gcs.py b/ingestion/src/metadata/ingestion/source/database/datalake/clients/gcs.py
index b3c275ec061f..cb6cd24f6e75 100644
--- a/ingestion/src/metadata/ingestion/source/database/datalake/clients/gcs.py
+++ b/ingestion/src/metadata/ingestion/source/database/datalake/clients/gcs.py
@@ -16,7 +16,7 @@
 import os
 from copy import deepcopy
 from functools import partial
-from typing import Callable, Iterable, List, Optional, Set, Tuple  # noqa: UP035
+from typing import Any, Callable, Dict, Iterable, List, Optional, Set, Tuple  # noqa: UP035
 
 from google.cloud import storage
 
@@ -107,21 +107,51 @@ def get_database_schema_names(self, bucket_name: Optional[str]) -> Iterable[str]
             for bucket in self._client.list_buckets():
                 yield bucket.name
 
+    @staticmethod
+    def _should_skip_gcs_cold_storage(blob: Any) -> bool:
+        storage_class = getattr(blob, "storage_class", None)
+        return bool(storage_class and storage_class in GCS_COLD_STORAGE_CLASSES)
+
     def get_table_names(
         self,
         bucket_name: str,
         prefix: Optional[str],  # noqa: UP045
         skip_cold_storage: bool = False,
     ) -> Iterable[Tuple[str, Optional[int]]]:  # noqa: UP006, UP045
+        """
+        Lists tables in a GCS bucket using a single-pass approach.
+
+        Iterates all blobs once, collecting Iceberg metadata entries and
+        buffering regular files. After the pass, yields Iceberg tables
+        (highest version per directory) followed by regular files that
+        do not belong to any Iceberg directory.
+        """
         bucket = self._client.get_bucket(bucket_name)
-
-        for key in bucket.list_blobs(prefix=prefix):
-            if skip_cold_storage:
-                storage_class = getattr(key, "storage_class", None)
-                if storage_class and storage_class in GCS_COLD_STORAGE_CLASSES:
-                    logger.debug(f"Skipping cold storage object: {key.name} (storage_class: {storage_class})")
-                    continue
-            yield key.name, key.size
+        iceberg_tables: Dict[str, Tuple[int, str, int | None]] = {}  # noqa: UP006
+        cold_iceberg_dirs: Set[str] = set()  # noqa: UP006
+        regular_files: List[Tuple[str, Optional[int]]] = []  # noqa: UP006, UP045
+
+        for blob in bucket.list_blobs(prefix=prefix):
+            if skip_cold_storage and self._should_skip_gcs_cold_storage(blob):
+                logger.debug(
+                    f"Skipping cold storage object: {blob.name} (storage_class: {getattr(blob, 'storage_class', None)})"
+                )
+                parsed = self._parse_iceberg_metadata(blob.name)
+                if parsed:
+                    cold_iceberg_dirs.add(parsed[0])
+                continue
+            if not self._update_iceberg_entry(iceberg_tables, blob.name, blob.size):
+                regular_files.append((blob.name, blob.size))
+
+        iceberg_dirs: Set[str] = set(iceberg_tables.keys()) | cold_iceberg_dirs  # noqa: UP006
+
+        for _, metadata_blob_path, size in iceberg_tables.values():
+            yield metadata_blob_path, size
+
+        for name, size in regular_files:
+            if iceberg_dirs and any(name.startswith(d + "/") for d in iceberg_dirs):
+                continue
+            yield name, size
 
     def close(self, service_connection):
         os.environ.pop("GOOGLE_CLOUD_PROJECT", "")
diff --git a/ingestion/src/metadata/ingestion/source/database/datalake/clients/s3.py b/ingestion/src/metadata/ingestion/source/database/datalake/clients/s3.py
index 68f69225e894..e91569ef5208 100644
--- a/ingestion/src/metadata/ingestion/source/database/datalake/clients/s3.py
+++ b/ingestion/src/metadata/ingestion/source/database/datalake/clients/s3.py
@@ -14,7 +14,7 @@
 """
 
 from functools import partial
-from typing import Callable, Iterable, Optional, Set, Tuple  # noqa: UP035
+from typing import Callable, Dict, Iterable, List, Optional, Set, Tuple  # noqa: UP035
 
 from metadata.clients.aws_client import AWSClient
 from metadata.generated.schema.entity.services.connections.database.datalake.s3Config import (
@@ -61,31 +61,62 @@ def get_database_schema_names(self, bucket_name: Optional[str]) -> Iterable[str]
             for bucket in self._client.list_buckets()["Buckets"]:
                 yield bucket["Name"]
 
+    @staticmethod
+    def _should_skip_s3_cold_storage(key: dict) -> bool:
+        storage_class = key.get("StorageClass", "STANDARD")
+        archive_status = key.get("ArchiveStatus", "")
+        return storage_class in S3_COLD_STORAGE_CLASSES or archive_status in {
+            "ARCHIVE_ACCESS",
+            "DEEP_ARCHIVE_ACCESS",
+        }
+
     def get_table_names(
         self,
         bucket_name: str,
         prefix: Optional[str],  # noqa: UP045
         skip_cold_storage: bool = False,
     ) -> Iterable[Tuple[str, Optional[int]]]:  # noqa: UP006, UP045
-        kwargs = {"Bucket": bucket_name}
-
+        """
+        Lists tables in an S3 bucket using a single-pass approach.
+
+        Iterates all objects once, collecting Iceberg metadata entries and
+        buffering regular files. After the pass, yields Iceberg tables
+        (highest version per directory) followed by regular files that
+        do not belong to any Iceberg directory.
+        """
+        kwargs: Dict[str, str] = {"Bucket": bucket_name}  # noqa: UP006
         if prefix:
             kwargs["Prefix"] = prefix if prefix.endswith("/") else f"{prefix}/"
 
+        iceberg_tables: Dict[str, Tuple[int, str, int | None]] = {}  # noqa: UP006
+        cold_iceberg_dirs: Set[str] = set()  # noqa: UP006
+        regular_files: List[Tuple[str, Optional[int]]] = []  # noqa: UP006, UP045
+
         for key in list_s3_objects(self._client, **kwargs):
-            if skip_cold_storage:
-                storage_class = key.get("StorageClass", "STANDARD")
-                archive_status = key.get("ArchiveStatus", "")
-                if storage_class in S3_COLD_STORAGE_CLASSES or archive_status in {
-                    "ARCHIVE_ACCESS",
-                    "DEEP_ARCHIVE_ACCESS",
-                }:
-                    logger.debug(
-                        f"Skipping cold storage object: {key['Key']} "
-                        f"(StorageClass: {storage_class}, ArchiveStatus: {archive_status})"
-                    )
-                    continue
-            yield key["Key"], key.get("Size")
+            key_name = key["Key"]
+            size = key.get("Size")
+            if skip_cold_storage and self._should_skip_s3_cold_storage(key):
+                logger.debug(
+                    f"Skipping cold storage object: {key_name} "
+                    f"(StorageClass: {key.get('StorageClass', 'STANDARD')}, "
+                    f"ArchiveStatus: {key.get('ArchiveStatus', '')})"
+                )
+                parsed = self._parse_iceberg_metadata(key_name)
+                if parsed:
+                    cold_iceberg_dirs.add(parsed[0])
+                continue
+            if not self._update_iceberg_entry(iceberg_tables, key_name, size):
+                regular_files.append((key_name, size))
+
+        iceberg_dirs: Set[str] = set(iceberg_tables.keys()) | cold_iceberg_dirs  # noqa: UP006
+
+        for _, metadata_key, size in iceberg_tables.values():
+            yield metadata_key, size
+
+        for name, size in regular_files:
+            if iceberg_dirs and any(name.startswith(d + "/") for d in iceberg_dirs):
+                continue
+            yield name, size
 
     def get_folders_prefix(self, bucket_name: str, prefix: Optional[str]) -> Iterable[str]:  # noqa: UP045
         for page in self._client.get_paginator("list_objects_v2").paginate(
diff --git a/ingestion/src/metadata/ingestion/source/database/datalake/metadata.py b/ingestion/src/metadata/ingestion/source/database/datalake/metadata.py
index 402be49e210a..43dabd582ee1 100644
--- a/ingestion/src/metadata/ingestion/source/database/datalake/metadata.py
+++ b/ingestion/src/metadata/ingestion/source/database/datalake/metadata.py
@@ -16,7 +16,7 @@
 import json
 import traceback
 from hashlib import md5
-from typing import Any, Iterable, Optional, Tuple  # noqa: UP035
+from typing import Any, Dict, Iterable, Optional, Tuple  # noqa: UP035
 
 from metadata.generated.schema.api.data.createDatabase import CreateDatabaseRequest
 from metadata.generated.schema.api.data.createDatabaseSchema import (
@@ -59,7 +59,7 @@
     OPENMETADATA_TEMPLATE_FILE_NAME,
 )
 from metadata.readers.dataframe.models import DatalakeTableSchemaWrapper
-from metadata.readers.dataframe.reader_factory import SupportedTypes
+from metadata.readers.dataframe.reader_factory import SupportedTypes  # noqa: TC001
 from metadata.readers.file.base import ReadException
 from metadata.readers.file.config_source_factory import get_reader
 from metadata.utils import fqn
@@ -67,6 +67,7 @@
     DataFrameColumnParser,
     fetch_dataframe_first_chunk,
     get_file_format_type,
+    get_iceberg_table_name_from_metadata_path,
 )
 from metadata.utils.filters import filter_by_database, filter_by_schema, filter_by_table
 from metadata.utils.logger import ingestion_logger
@@ -95,6 +96,7 @@ def __init__(self, config: WorkflowSource, metadata: OpenMetadata):
         self.connection_obj = self.client
         self.test_connection()
         self.reader = get_reader(config_source=self.config_source, client=self.client.client)
+        self._table_info: Dict[str, Tuple[SupportedTypes, Optional[int]]] = {}  # noqa: UP006, UP045
 
     @classmethod
     def create(cls, config_dict, metadata: OpenMetadata, pipeline_name: Optional[str] = None):  # noqa: UP045
@@ -201,7 +203,7 @@ def yield_database_schema(self, schema_name: str) -> Iterable[Either[CreateDatab
 
     def get_tables_name_and_type(  # pylint: disable=too-many-branches
         self,
-    ) -> Iterable[Tuple[str, TableType, SupportedTypes, Optional[int]]]:  # noqa: UP006, UP045
+    ) -> Optional[Iterable[Tuple[str, TableType]]]:  # noqa: UP006, UP045
         """
         Handle table and views.
 
@@ -234,30 +236,39 @@ def get_tables_name_and_type(  # pylint: disable=too-many-branches
                 logger.info(f"Processing table: {table_name}")
                 file_extension = get_file_format_type(key_name=key_name, metadata_entry=metadata_entry)
 
-                if table_name.endswith("/") or not file_extension:
+                if key_name.endswith("/") or not file_extension:
                     logger.debug(f"Object filtered due to unsupported file type: {key_name}")
                     continue
 
-                yield table_name, TableType.Regular, file_extension, file_size
+                table_type = (
+                    TableType.Iceberg
+                    if get_iceberg_table_name_from_metadata_path(key_name) is not None
+                    else TableType.Regular
+                )
+                self._table_info[key_name] = (file_extension, file_size)
+                yield key_name, table_type
 
     def yield_table(
         self,
-        table_name_and_type: Tuple[str, TableType, SupportedTypes, Optional[int]],  # noqa: UP006, UP045
+        table_name_and_type: Tuple[str, TableType],  # noqa: UP006
     ) -> Iterable[Either[CreateTableRequest]]:
         """
         From topology.
         Prepare a table request and pass it to the sink.
         Uses first chunk only for schema inference to avoid loading entire file.
         """
-        table_name, table_type, table_extension, file_size = table_name_and_type
+        key_name, table_type = table_name_and_type
+        table_extension, file_size = self._table_info.pop(key_name, (None, None))
+        fetch_key = key_name
         schema_name = self.context.get().database_schema
+        table_name = self.standardize_table_name(schema_name, key_name)
         try:
             table_constraints = None
             data_frame, raw_data = fetch_dataframe_first_chunk(
                 config_source=self.config_source,
                 client=self.client.client,
                 file_fqn=DatalakeTableSchemaWrapper(
-                    key=table_name,
+                    key=fetch_key,
                     bucket_name=schema_name,
                     file_extension=table_extension,
                     file_size=file_size,
@@ -326,7 +337,8 @@ def standardize_table_name(
         schema: str,
         table: str,  # pylint: disable=unused-argument
     ) -> str:
-        return table
+        iceberg_name = get_iceberg_table_name_from_metadata_path(table)
+        return iceberg_name if iceberg_name is not None else table
 
     def filter_dl_table(self, table_name: str):
         """Filters Datalake Tables based on filterPattern"""
diff --git a/ingestion/src/metadata/readers/dataframe/json.py b/ingestion/src/metadata/readers/dataframe/json.py
index de87b4b95b13..4b8785efe916 100644
--- a/ingestion/src/metadata/readers/dataframe/json.py
+++ b/ingestion/src/metadata/readers/dataframe/json.py
@@ -120,7 +120,15 @@ def _read_json_object(
 
         content = content.decode(UTF_8, errors="ignore") if isinstance(content, bytes) else content
         data = json.loads(content)
-        raw_data = content if isinstance(data, dict) and data.get("$schema") else None
+        raw_data = (
+            content
+            if isinstance(data, dict)
+            and (
+                data.get("$schema") is not None  # JSON Schema files
+                or data.get("format-version") is not None  # Apache Iceberg table metadata
+            )
+            else None
+        )
         data = [data] if isinstance(data, dict) else data
 
         def chunk_generator():
@@ -140,9 +148,14 @@ def _is_json_lines(file_obj) -> bool:
             return True
         try:
             obj = json.loads(first_line)
-            return isinstance(obj, dict) and not obj.get("$schema")
         except json.JSONDecodeError:
             return False
+        else:
+            if not isinstance(obj, dict):
+                return False
+            if obj.get("$schema") is not None:
+                return False
+            return obj.get("format-version") is None
 
     def _read_json_smart(
         self,
diff --git a/ingestion/src/metadata/utils/datalake/datalake_utils.py b/ingestion/src/metadata/utils/datalake/datalake_utils.py
index f7da5cdae60f..8d02a2931446 100644
--- a/ingestion/src/metadata/utils/datalake/datalake_utils.py
+++ b/ingestion/src/metadata/utils/datalake/datalake_utils.py
@@ -18,7 +18,7 @@
 import json
 import random
 import traceback
-from typing import Any, Dict, List, Optional, Union, cast  # noqa: UP035
+from typing import Any, Dict, List, Optional, cast  # noqa: UP035
 
 from metadata.generated.schema.entity.data.table import Column, DataType
 from metadata.ingestion.source.database.column_helpers import truncate_column_name
@@ -159,6 +159,40 @@ def fetch_dataframe_first_chunk(
     return None
 
 
+_ICEBERG_METADATA_SUFFIX = ".metadata.json"
+_ICEBERG_METADATA_DIR = "/metadata/"
+
+
+def get_iceberg_table_name_from_metadata_path(metadata_path: str) -> str | None:
+    """
+    Extracts the Iceberg table directory name from a metadata file path.
+
+    Supports all standard Iceberg metadata filename formats:
+      "warehouse/orders/metadata/v2.metadata.json"                           -> "orders"
+      "warehouse/orders/metadata/v1-abc123.metadata.json"                    -> "orders"
+      "warehouse/orders/metadata/00015-8a14161c-65ad.metadata.json"          -> "orders"
+      "data/orders.json"                                                     -> None
+
+    Returns None if the path does not match the Iceberg metadata pattern.
+    """
+    if not metadata_path.endswith(_ICEBERG_METADATA_SUFFIX):
+        return None
+    metadata_idx = metadata_path.rfind(_ICEBERG_METADATA_DIR)
+    if metadata_idx < 0:
+        return None
+    filename = metadata_path[metadata_idx + len(_ICEBERG_METADATA_DIR) : -len(_ICEBERG_METADATA_SUFFIX)]
+    if not filename:
+        return None
+    raw = filename.lstrip("v")
+    dash_pos = raw.find("-")
+    version_part = raw[:dash_pos] if dash_pos > 0 else raw
+    if not version_part.isdigit():
+        return None
+    table_dir = metadata_path[:metadata_idx]
+    last_slash = table_dir.rfind("/")
+    return table_dir[last_slash + 1 :] if last_slash >= 0 else table_dir
+
+
 def get_file_format_type(key_name, metadata_entry=None):
     for supported_types in SupportedTypes:
         if key_name.lower().endswith(supported_types.value.lower()):
@@ -226,7 +260,7 @@ def create(
 
     @staticmethod
     def _get_data_frame(
-        data_frame: Union[List["DataFrame"], "DataFrame"],  # noqa: F821, UP006
+        data_frame: list[Any] | Any,
         sample: bool,
         shuffle: bool,  # noqa: F821, RUF100
     ):
@@ -281,6 +315,36 @@ def get_columns(self):
         """
         return self._get_columns(self.data_frame)
 
+    @classmethod
+    def _parse_column(cls, data_frame: Any, column: str) -> Optional[Column]:  # noqa: UP045
+        # use String by default
+        data_type = DataType.STRING
+        try:
+            if hasattr(data_frame[column], "dtypes"):
+                data_type = cls.fetch_col_types(data_frame, column_name=column)
+
+            parsed_string = {
+                "dataTypeDisplay": data_type.value,
+                "dataType": data_type,
+                "name": truncate_column_name(column),
+                "displayName": column,
+            }
+            if data_type == DataType.ARRAY:
+                parsed_string["arrayDataType"] = DataType.UNKNOWN
+                struct_children = cls._get_array_struct_children(data_frame[column].dropna()[:100])
+                if struct_children:
+                    parsed_string["arrayDataType"] = DataType.STRUCT
+                    parsed_string["children"] = struct_children
+
+            if data_type == DataType.JSON:
+                parsed_string["children"] = cls.get_children(data_frame[column].dropna()[:100])
+
+            return Column(**parsed_string)
+        except Exception as exc:
+            logger.debug(traceback.format_exc())
+            logger.warning(f"Unexpected exception parsing column [{column}]: {exc}")
+        return None
+
     @classmethod
     def _get_columns(cls, data_frame: "DataFrame"):  # noqa: F821
         """
@@ -291,34 +355,10 @@ def _get_columns(cls, data_frame: "DataFrame"):  # noqa: F821
         """
         cols = []
         if hasattr(data_frame, "columns"):
-            df_columns = list(data_frame.columns)
-            for column in df_columns:
-                # use String by default
-                data_type = DataType.STRING
-                try:
-                    if hasattr(data_frame[column], "dtypes"):
-                        data_type = cls.fetch_col_types(data_frame, column_name=column)
-
-                    parsed_string = {
-                        "dataTypeDisplay": data_type.value,
-                        "dataType": data_type,
-                        "name": truncate_column_name(column),
-                        "displayName": column,
-                    }
-                    if data_type == DataType.ARRAY:
-                        parsed_string["arrayDataType"] = DataType.UNKNOWN
-                        struct_children = cls._get_array_struct_children(data_frame[column].dropna()[:100])
-                        if struct_children:
-                            parsed_string["arrayDataType"] = DataType.STRUCT
-                            parsed_string["children"] = struct_children
-
-                    if data_type == DataType.JSON:
-                        parsed_string["children"] = cls.get_children(data_frame[column].dropna()[:100])
-
-                    cols.append(Column(**parsed_string))
-                except Exception as exc:
-                    logger.debug(traceback.format_exc())
-                    logger.warning(f"Unexpected exception parsing column [{column}]: {exc}")
+            for column in data_frame.columns:
+                parsed_col = cls._parse_column(data_frame, column)
+                if parsed_col:
+                    cols.append(parsed_col)
         return cols
 
     @classmethod
@@ -393,6 +433,21 @@ def fetch_col_types(cls, data_frame, column_name):
             logger.debug(traceback.format_exc())
         return data_type or DataType.STRING
 
+    @classmethod
+    def _process_unique_json_key(cls, result: Dict, key: str, value: Any) -> None:  # noqa: UP006
+        if isinstance(value, dict):
+            nested_json = result.get(key, {})
+            # `isinstance(nested_json, dict)` if for a key we first see a non dict value
+            # but then see a dict value later, we will consider the key to be a dict.
+            result[key] = cls.unique_json_structure([nested_json if isinstance(nested_json, dict) else {}, value])
+        elif isinstance(value, list) and value and all(isinstance(item, dict) for item in value):
+            merged_struct = cls.unique_json_structure(value)
+            existing = result.get(key)
+            existing_struct = existing.struct if isinstance(existing, _ArrayOfStruct) else {}
+            result[key] = _ArrayOfStruct(cls.unique_json_structure([existing_struct, merged_struct]))
+        else:
+            result[key] = value
+
     @classmethod
     def unique_json_structure(cls, dicts: List[Dict]) -> Dict:  # noqa: UP006
         """Given a sample of `n` json objects, return a json object that represents the unique
@@ -405,20 +460,7 @@ def unique_json_structure(cls, dicts: List[Dict]) -> Dict:  # noqa: UP006
         result = {}
         for dict_ in dicts:
             for key, value in dict_.items():
-                if isinstance(value, dict):
-                    nested_json = result.get(key, {})
-                    # `isinstance(nested_json, dict)` if for a key we first see a non dict value
-                    # but then see a dict value later, we will consider the key to be a dict.
-                    result[key] = cls.unique_json_structure(
-                        [nested_json if isinstance(nested_json, dict) else {}, value]
-                    )
-                elif isinstance(value, list) and value and all(isinstance(item, dict) for item in value):
-                    merged_struct = cls.unique_json_structure(value)
-                    existing = result.get(key)
-                    existing_struct = existing.struct if isinstance(existing, _ArrayOfStruct) else {}
-                    result[key] = _ArrayOfStruct(cls.unique_json_structure([existing_struct, merged_struct]))
-                else:
-                    result[key] = value
+                cls._process_unique_json_key(result, key, value)
         return result
 
     @classmethod
diff --git a/ingestion/tests/unit/readers/test_json_reader.py b/ingestion/tests/unit/readers/test_json_reader.py
index 6465cee006c5..2cd30eea3182 100644
--- a/ingestion/tests/unit/readers/test_json_reader.py
+++ b/ingestion/tests/unit/readers/test_json_reader.py
@@ -261,6 +261,86 @@ def test_empty_json_lines(self):
         total_rows = sum(len(chunk) for chunk in chunks)
         self.assertEqual(total_rows, 2)
 
+    def test_raw_data_set_for_iceberg_metadata(self):
+        iceberg_metadata = json.dumps(
+            {
+                "format-version": 2,
+                "table-uuid": "abc-123",
+                "location": "gs://bucket/warehouse/orders",
+                "schema": {
+                    "type": "struct",
+                    "schema-id": 0,
+                    "fields": [
+                        {"id": 1, "name": "id", "type": "long", "required": True},
+                        {"id": 2, "name": "name", "type": "string", "required": False},
+                    ],
+                },
+            }
+        ).encode("utf-8")
+
+        _, raw_data = JSONDataFrameReader._read_json_object(iceberg_metadata)
+
+        assert raw_data is not None
+
+    def test_iceberg_columns_parsed_correctly(self):
+        from metadata.utils.datalake.datalake_utils import JsonDataFrameColumnParser
+
+        iceberg_metadata = json.dumps(
+            {
+                "format-version": 2,
+                "table-uuid": "abc-123",
+                "location": "gs://bucket/warehouse/orders",
+                "schema": {
+                    "type": "struct",
+                    "schema-id": 0,
+                    "fields": [
+                        {"id": 1, "name": "id", "type": "long", "required": True},
+                        {"id": 2, "name": "name", "type": "string", "required": False},
+                    ],
+                },
+            }
+        ).encode("utf-8")
+
+        _, raw_data = JSONDataFrameReader._read_json_object(iceberg_metadata)
+        assert raw_data is not None
+
+        import pandas as pd
+
+        from metadata.generated.schema.entity.data.table import DataType
+
+        empty_df = pd.DataFrame()
+        parser = JsonDataFrameColumnParser(data_frame=empty_df, raw_data=raw_data)
+        columns = parser.get_columns()
+
+        assert len(columns) == 2
+        column_names = [col.name.root for col in columns]
+        assert "id" in column_names
+        assert "name" in column_names
+
+        id_col = next(col for col in columns if col.name.root == "id")
+        name_col = next(col for col in columns if col.name.root == "name")
+        assert id_col.dataType in {DataType.INT, DataType.BIGINT, DataType.LONG}
+        assert name_col.dataType in {DataType.STRING, DataType.VARCHAR, DataType.TEXT}
+
+    def test_raw_data_none_for_regular_json(self):
+        regular_json = json.dumps([{"col1": "val1", "col2": 42}]).encode("utf-8")
+
+        _, raw_data = JSONDataFrameReader._read_json_object(regular_json)
+
+        assert raw_data is None
+
+    def test_raw_data_set_for_json_schema(self):
+        json_schema = json.dumps(
+            {
+                "$schema": "http://json-schema.org/draft-07/schema",
+                "properties": {"id": {"type": "integer"}},
+            }
+        ).encode("utf-8")
+
+        _, raw_data = JSONDataFrameReader._read_json_object(json_schema)
+
+        assert raw_data is not None
+
 
 if __name__ == "__main__":
     unittest.main()
diff --git a/ingestion/tests/unit/source/database/test_iceberg_discovery.py b/ingestion/tests/unit/source/database/test_iceberg_discovery.py
new file mode 100644
index 000000000000..453b613cfe60
--- /dev/null
+++ b/ingestion/tests/unit/source/database/test_iceberg_discovery.py
@@ -0,0 +1,358 @@
+#  Copyright 2025 Collate
+#  Licensed under the Collate Community License, Version 1.0 (the "License");
+#  you may not use this file except in compliance with the License.
+#  You may obtain a copy of the License at
+#  https://github.com/open-metadata/OpenMetadata/blob/main/ingestion/LICENSE
+#  Unless required by applicable law or agreed to in writing, software
+#  distributed under the License is distributed on an "AS IS" BASIS,
+#  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+#  See the License for the specific language governing permissions and
+#  limitations under the License.
+
+"""
+Tests for Iceberg table directory detection in DatalakeGcsClient and DatalakeS3Client.
+"""
+
+import sys
+import types
+from unittest.mock import MagicMock, patch
+
+# Stub google.cloud.storage so this test file runs without the google-cloud-storage
+# package being installed. setdefault preserves the real module if it is already
+# present, which prevents breaking other tests or masking integration issues.
+_google_mod = sys.modules.setdefault("google", types.ModuleType("google"))
+_gcloud_mod = sys.modules.setdefault("google.cloud", types.ModuleType("google.cloud"))
+_storage_mod = sys.modules.setdefault("google.cloud.storage", types.ModuleType("google.cloud.storage"))
+if not hasattr(_storage_mod, "Client"):
+    _storage_mod.Client = MagicMock
+if not hasattr(_google_mod, "cloud"):
+    _google_mod.cloud = _gcloud_mod
+if not hasattr(_gcloud_mod, "storage"):
+    _gcloud_mod.storage = _storage_mod
+
+from metadata.ingestion.source.database.datalake.clients.gcs import (  # noqa: E402
+    DatalakeGcsClient,
+)
+from metadata.ingestion.source.database.datalake.clients.s3 import (  # noqa: E402
+    DatalakeS3Client,
+)
+
+
+def _make_blob(name: str, size: int = 1024, storage_class: str = "STANDARD") -> MagicMock:
+    blob = MagicMock()
+    blob.name = name
+    blob.size = size
+    blob.storage_class = storage_class
+    return blob
+
+
+def _make_gcs_client(blobs: list) -> DatalakeGcsClient:
+    mock_storage_client = MagicMock()
+    mock_bucket = MagicMock()
+    mock_storage_client.get_bucket.return_value = mock_bucket
+    mock_bucket.list_blobs.return_value = blobs
+    mock_bucket.get_blob.side_effect = lambda name: next((b for b in blobs if b.name == name), None)
+    client = DatalakeGcsClient.__new__(DatalakeGcsClient)
+    client._client = mock_storage_client
+    client._temp_credentials_file_path_list = []
+    return client
+
+
+class TestGcsIcebergDiscovery:
+    def test_gcs_iceberg_table_detected(self):
+        """Latest version of Iceberg metadata is yielded; data/ blobs are suppressed."""
+        blobs = [
+            _make_blob("warehouse/orders/metadata/v1.metadata.json", size=500),
+            _make_blob("warehouse/orders/metadata/v2.metadata.json", size=600),
+            _make_blob("warehouse/orders/data/00000-0-abc.parquet", size=8192),
+            _make_blob("warehouse/orders/data/00001-0-def.parquet", size=9216),
+        ]
+        client = _make_gcs_client(blobs)
+
+        results = list(client.get_table_names("my-bucket", prefix="warehouse"))
+
+        assert len(results) == 1
+        name, size = results[0]
+        assert name == "warehouse/orders/metadata/v2.metadata.json"
+        assert size == 600
+
+    def test_gcs_multiple_iceberg_tables(self):
+        blobs = [
+            _make_blob("warehouse/orders/metadata/v1.metadata.json", size=400),
+            _make_blob("warehouse/products/metadata/v1.metadata.json", size=500),
+            _make_blob("warehouse/products/metadata/v2.metadata.json", size=600),
+            _make_blob("warehouse/orders/data/00000.parquet", size=8192),
+            _make_blob("warehouse/products/data/00000.parquet", size=4096),
+        ]
+        client = _make_gcs_client(blobs)
+
+        results = list(client.get_table_names("my-bucket", prefix="warehouse"))
+
+        assert len(results) == 2
+        names = {r[0] for r in results}
+        assert "warehouse/orders/metadata/v1.metadata.json" in names
+        assert "warehouse/products/metadata/v2.metadata.json" in names
+
+    def test_gcs_fallback_for_non_iceberg(self):
+        blobs = [
+            _make_blob("data/orders.csv", size=1024),
+            _make_blob("data/products.parquet", size=2048),
+            _make_blob("data/users.json", size=512),
+        ]
+        client = _make_gcs_client(blobs)
+
+        results = list(client.get_table_names("my-bucket", prefix="data"))
+
+        assert len(results) == 3
+        names = {r[0] for r in results}
+        assert "data/orders.csv" in names
+        assert "data/products.parquet" in names
+        assert "data/users.json" in names
+
+    def test_gcs_mixed_iceberg_and_regular_files(self):
+        """
+        Regular files NOT under any Iceberg table directory are yielded
+        alongside the Iceberg metadata entries. Only blobs that fall under
+        an Iceberg table's own subdirectory (data/, metadata/) are suppressed.
+        """
+        blobs = [
+            _make_blob("warehouse/orders/metadata/v1.metadata.json", size=400),
+            _make_blob("regular_files/data.csv", size=1024),
+        ]
+        client = _make_gcs_client(blobs)
+
+        results = list(client.get_table_names("my-bucket", prefix=None))
+
+        assert len(results) == 2
+        names = {r[0] for r in results}
+        assert "warehouse/orders/metadata/v1.metadata.json" in names
+        assert "regular_files/data.csv" in names
+
+    def test_gcs_iceberg_version_comparison_v10(self):
+        """v10 must beat v9 — lexicographic comparison would fail here."""
+        blobs = [
+            _make_blob("warehouse/orders/metadata/v9.metadata.json", size=500),
+            _make_blob("warehouse/orders/metadata/v10.metadata.json", size=600),
+        ]
+        client = _make_gcs_client(blobs)
+
+        results = list(client.get_table_names("my-bucket", prefix="warehouse"))
+
+        assert len(results) == 1
+        name, size = results[0]
+        assert name == "warehouse/orders/metadata/v10.metadata.json"
+        assert size == 600
+
+    def test_gcs_iceberg_uuid_metadata_filenames(self):
+        """UUID-based metadata filenames (REST/Nessie catalog) are detected."""
+        blobs = [
+            _make_blob("warehouse/orders/metadata/00015-8a14161c-65ad.metadata.json", size=700),
+            _make_blob("warehouse/orders/data/00000.parquet", size=8192),
+        ]
+        client = _make_gcs_client(blobs)
+
+        results = list(client.get_table_names("my-bucket", prefix="warehouse"))
+
+        assert len(results) == 1
+        name, size = results[0]
+        assert name == "warehouse/orders/metadata/00015-8a14161c-65ad.metadata.json"
+        assert size == 700
+
+
+class TestS3IcebergDiscovery:
+    def _make_s3_client(self, keys: list, sizes: dict | None = None) -> DatalakeS3Client:
+        """Helper: create a DatalakeS3Client backed by a mocked boto3 client."""
+        mock_boto_client = MagicMock()
+        client = DatalakeS3Client.__new__(DatalakeS3Client)
+        client._client = mock_boto_client
+        client._session = None
+        self._mock_boto_client = mock_boto_client
+        sizes = sizes or {}
+        self._s3_objects = [{"Key": k, "Size": sizes.get(k, 1024)} for k in keys]
+        return client
+
+    def test_s3_iceberg_table_detected(self):
+        """Latest version of Iceberg metadata is yielded; data/ blobs are suppressed."""
+        keys = [
+            "warehouse/orders/metadata/v1.metadata.json",
+            "warehouse/orders/metadata/v2.metadata.json",
+            "warehouse/orders/data/00000-0-abc.parquet",
+        ]
+        client = self._make_s3_client(
+            keys,
+            sizes={"warehouse/orders/metadata/v2.metadata.json": 600},
+        )
+
+        with patch(
+            "metadata.ingestion.source.database.datalake.clients.s3.list_s3_objects",
+            return_value=self._s3_objects,
+        ):
+            results = list(client.get_table_names("my-bucket", prefix="warehouse"))
+
+        assert len(results) == 1
+        name, size = results[0]
+        assert name == "warehouse/orders/metadata/v2.metadata.json"
+        assert size == 600
+
+    def test_s3_fallback_for_non_iceberg(self):
+        keys = [
+            "data/orders.csv",
+            "data/products.parquet",
+            "data/users.json",
+        ]
+        client = self._make_s3_client(keys)
+
+        with patch(
+            "metadata.ingestion.source.database.datalake.clients.s3.list_s3_objects",
+            return_value=self._s3_objects,
+        ):
+            results = list(client.get_table_names("my-bucket", prefix="data"))
+
+        assert len(results) == 3
+        names = {r[0] for r in results}
+        assert "data/orders.csv" in names
+        assert "data/products.parquet" in names
+        assert "data/users.json" in names
+
+    def test_s3_iceberg_version_comparison_v10(self):
+        """v10 must beat v9 — lexicographic comparison would fail here."""
+        keys = [
+            "warehouse/orders/metadata/v9.metadata.json",
+            "warehouse/orders/metadata/v10.metadata.json",
+        ]
+        client = self._make_s3_client(
+            keys,
+            sizes={"warehouse/orders/metadata/v10.metadata.json": 600},
+        )
+
+        with patch(
+            "metadata.ingestion.source.database.datalake.clients.s3.list_s3_objects",
+            return_value=self._s3_objects,
+        ):
+            results = list(client.get_table_names("my-bucket", prefix="warehouse"))
+
+        assert len(results) == 1
+        name, size = results[0]
+        assert name == "warehouse/orders/metadata/v10.metadata.json"
+        assert size == 600
+
+
+class TestIcebergTableNameHelper:
+    """Tests for get_iceberg_table_name_from_metadata_path (Slice 3)."""
+
+    def test_iceberg_table_name_extracted_correctly(self):
+        from metadata.utils.datalake.datalake_utils import (
+            get_iceberg_table_name_from_metadata_path,
+        )
+
+        assert get_iceberg_table_name_from_metadata_path("warehouse/orders/metadata/v2.metadata.json") == "orders"
+        assert get_iceberg_table_name_from_metadata_path("my_prefix/sales/metadata/v1.metadata.json") == "sales"
+        assert get_iceberg_table_name_from_metadata_path("simple/metadata/v3.metadata.json") == "simple"
+
+    def test_uuid_based_metadata_filenames(self):
+        from metadata.utils.datalake.datalake_utils import (
+            get_iceberg_table_name_from_metadata_path,
+        )
+
+        assert (
+            get_iceberg_table_name_from_metadata_path("warehouse/orders/metadata/v1-abc123-def456.metadata.json")
+            == "orders"
+        )
+        assert (
+            get_iceberg_table_name_from_metadata_path(
+                "warehouse/orders/metadata/00015-8a14161c-65ad-45fc-b665-ec16dcbf647e.metadata.json"
+            )
+            == "orders"
+        )
+
+    def test_non_iceberg_path_returns_none(self):
+        from metadata.utils.datalake.datalake_utils import (
+            get_iceberg_table_name_from_metadata_path,
+        )
+
+        assert get_iceberg_table_name_from_metadata_path("data/orders.json") is None
+        assert get_iceberg_table_name_from_metadata_path("warehouse/orders.json") is None
+        assert get_iceberg_table_name_from_metadata_path("metadata/v1.json") is None
+        assert get_iceberg_table_name_from_metadata_path("orders/metadata/snapshot.avro") is None
+
+    def test_table_type_iceberg_for_metadata_files(self):
+        from metadata.generated.schema.entity.data.table import TableType
+        from metadata.utils.datalake.datalake_utils import (
+            get_iceberg_table_name_from_metadata_path,
+        )
+
+        key_name = "warehouse/orders/metadata/v1.metadata.json"
+        table_type = (
+            TableType.Iceberg if get_iceberg_table_name_from_metadata_path(key_name) is not None else TableType.Regular
+        )
+        assert table_type == TableType.Iceberg
+
+    def test_table_type_regular_for_normal_files(self):
+        from metadata.generated.schema.entity.data.table import TableType
+        from metadata.utils.datalake.datalake_utils import (
+            get_iceberg_table_name_from_metadata_path,
+        )
+
+        for key_name in ["data/orders.parquet", "data/users.csv", "logs/events.json"]:
+            table_type = (
+                TableType.Iceberg
+                if get_iceberg_table_name_from_metadata_path(key_name) is not None
+                else TableType.Regular
+            )
+            assert table_type == TableType.Regular, f"Expected Regular for {key_name}, got {table_type}"
+
+
+class TestSlice4FetchKeyCorrectness:
+    """
+    Regression tests for Slice 4: verifies that the blob key passed to
+    fetch_dataframe_first_chunk is always the original metadata path,
+    not the human-readable display name.
+    """
+
+    def test_yield_table_uses_metadata_path_not_display_name(self):
+        """
+        The key_name passed through the topology is the full blob path.
+        _table_info stores (file_extension, file_size) keyed by key_name.
+        yield_table must use key_name for DatalakeTableSchemaWrapper,
+        not the standardized display name.
+        """
+        from metadata.readers.dataframe.models import DatalakeTableSchemaWrapper
+        from metadata.readers.dataframe.reader_factory import SupportedTypes
+
+        original_key = "warehouse/orders/metadata/v2.metadata.json"
+        file_extension = SupportedTypes.JSON
+        file_size = 1024
+
+        wrapper = DatalakeTableSchemaWrapper(
+            key=original_key,
+            bucket_name="my-bucket",
+            file_extension=file_extension,
+            file_size=file_size,
+        )
+
+        assert wrapper.key == original_key
+        assert wrapper.key != "orders"
+
+    def test_non_iceberg_fetch_key_equals_table_name(self):
+        """
+        For non-Iceberg tables, key_name == table_name (standardize_table_name
+        returns the path unchanged), so the fetch key is the same as the name.
+        """
+        from metadata.readers.dataframe.models import DatalakeTableSchemaWrapper
+        from metadata.readers.dataframe.reader_factory import SupportedTypes
+        from metadata.utils.datalake.datalake_utils import (
+            get_iceberg_table_name_from_metadata_path,
+        )
+
+        key_name = "data/orders.parquet"
+
+        assert get_iceberg_table_name_from_metadata_path(key_name) is None
+
+        wrapper = DatalakeTableSchemaWrapper(
+            key=key_name,
+            bucket_name="my-bucket",
+            file_extension=SupportedTypes.PARQUET,
+            file_size=2048,
+        )
+
+        assert wrapper.key == "data/orders.parquet"
diff --git a/ingestion/tests/unit/topology/database/test_datalake.py b/ingestion/tests/unit/topology/database/test_datalake.py
index f3376baaf2fc..46b50e199c83 100644
--- a/ingestion/tests/unit/topology/database/test_datalake.py
+++ b/ingestion/tests/unit/topology/database/test_datalake.py
@@ -726,7 +726,8 @@ def _yield_table_request(self, table_name):
                 return_value="local_datalake.default.my_bucket",
             ),
         ):
-            results = list(self.source.yield_table((table_name, TableType.Regular, None, None)))
+            self.source._table_info[table_name] = (None, None)
+            results = list(self.source.yield_table((table_name, TableType.Regular)))
 
         rights = [r.right for r in results if r.right is not None]
         return rights[0] if rights else None