haystack/docs-website/reference_versioned_docs/version-2.29/experiments-api/experimental_preprocessors_api.md at f04ba18c50942524bdf6eff5b31b697a3e6866ed · deepset-ai/haystack

title	Preprocessors
id	experimental-preprocessors-api
description	Pipelines wrapped as components.
slug	/experimental-preprocessors-api

Module haystack_experimental.components.preprocessors.md_header_level_inferrer

MarkdownHeaderLevelInferrer

Infers and rewrites header levels in Markdown text to normalize hierarchy.

First header → Always becomes level 1 (#)
Subsequent headers → Level increases if no content between headers, stays same if content exists
Maximum level → Capped at 6 (######)

### Usage example
```python
from haystack import Document
from haystack_experimental.components.preprocessors import MarkdownHeaderLevelInferrer

# Create a document with uniform header levels
text = "## Title

Subheader

Section

Subheader

More Content" doc = Document(content=text)

# Initialize the inferrer and process the document
inferrer = MarkdownHeaderLevelInferrer()
result = inferrer.run([doc])

# The headers are now normalized with proper hierarchy
print(result["documents"][0].content)
> # Title

Subheader

Section

Subheader

MarkdownHeaderLevelInferrer.init

def __init__()

Initializes the MarkdownHeaderLevelInferrer.

MarkdownHeaderLevelInferrer.run

@component.output_types(documents=list[Document])
def run(documents: list[Document]) -> dict

Infers and rewrites the header levels in the content for documents that use uniform header levels.

Arguments:

documents: list of Document objects to process.

Returns:

dict: a dictionary with the key 'documents' containing the processed Document objects.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Module haystack_experimental.components.preprocessors.md_header_level_inferrer

MarkdownHeaderLevelInferrer

Subheader

Subheader

Subheader

Subheader

MarkdownHeaderLevelInferrer.init

MarkdownHeaderLevelInferrer.run

FilesExpand file tree

experimental_preprocessors_api.md

Latest commit

History

experimental_preprocessors_api.md

File metadata and controls

Module haystack_experimental.components.preprocessors.md_header_level_inferrer

MarkdownHeaderLevelInferrer

Subheader

Subheader

Subheader

Subheader

MarkdownHeaderLevelInferrer.__init__

MarkdownHeaderLevelInferrer.run

MarkdownHeaderLevelInferrer.init