opendataloader-project
diff --git a/‎content/docs/_generated/node-convert-options.mdx‎
Lines changed: 1 addition & 1 deletion b/‎content/docs/_generated/node-convert-options.mdx‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎content/docs/_generated/python-convert-options.mdx‎
Lines changed: 1 addition & 1 deletion b/‎content/docs/_generated/python-convert-options.mdx‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎content/docs/cli-options-reference.mdx‎
Lines changed: 1 addition & 1 deletion b/‎content/docs/cli-options-reference.mdx‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎java/opendataloader-pdf-cli/src/main/java/org/opendataloader/pdf/cli/CLIOptions.java‎
Lines changed: 1 addition & 1 deletion b/‎java/opendataloader-pdf-cli/src/main/java/org/opendataloader/pdf/cli/CLIOptions.java‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎java/opendataloader-pdf-core/src/main/java/org/opendataloader/pdf/html/HtmlGenerator.java‎
Lines changed: 24 additions & 5 deletions b/‎java/opendataloader-pdf-core/src/main/java/org/opendataloader/pdf/html/HtmlGenerator.java‎
Lines changed: 24 additions & 5 deletions
diff --git a/‎java/opendataloader-pdf-core/src/main/java/org/opendataloader/pdf/markdown/MarkdownGenerator.java‎
Lines changed: 19 additions & 2 deletions b/‎java/opendataloader-pdf-core/src/main/java/org/opendataloader/pdf/markdown/MarkdownGenerator.java‎
Lines changed: 19 additions & 2 deletions
diff --git a/‎java/opendataloader-pdf-core/src/main/java/org/opendataloader/pdf/processors/StrikethroughProcessor.java‎
Lines changed: 4 additions & 6 deletions b/‎java/opendataloader-pdf-core/src/main/java/org/opendataloader/pdf/processors/StrikethroughProcessor.java‎
Lines changed: 4 additions & 6 deletions
diff --git a/‎java/opendataloader-pdf-core/src/main/java/org/opendataloader/pdf/utils/GeneratorUtils.java‎
Lines changed: 53 additions & 0 deletions b/‎java/opendataloader-pdf-core/src/main/java/org/opendataloader/pdf/utils/GeneratorUtils.java‎
Lines changed: 53 additions & 0 deletions
diff --git a/‎java/opendataloader-pdf-core/src/main/java/org/opendataloader/pdf/utils/OutputType.java‎
Lines changed: 9 additions & 0 deletions b/‎java/opendataloader-pdf-core/src/main/java/org/opendataloader/pdf/utils/OutputType.java‎
Lines changed: 9 additions & 0 deletions
@@ -28,7 +28,7 @@ description: Options for the Node.js convert function
 | `imageDir`              | `string`             | -            | Directory for extracted images                                                                                                                                                                                       |
 | `pages`                 | `string`             | -            | Pages to extract (e.g., "1,3,5-7"). Default: all pages                                                                                                                                                               |
 | `includeHeaderFooter`   | `boolean`            | `false`      | Include page headers and footers in output                                                                                                                                                                           |
-| `detectStrikethrough`   | `boolean`            | `false`      | Detect strikethrough text and wrap with ~~ in Markdown output (experimental)                                                                                                                                         |
+| `detectStrikethrough`   | `boolean`            | `false`      | Detect strikethrough text and wrap with ~~ in Markdown output or &lt;del&gt;&lt;/del&gt; tag in HTML output (experimental)                                                                                           |
 | `hybrid`                | `string`             | `"off"`      | Hybrid backend (requires a running server). Quick start: pip install "opendataloader-pdf[hybrid]" && opendataloader-pdf-hybrid --port 5002. For remote servers use --hybrid-url. Values: off (default), docling-fast |
 | `hybridMode`            | `string`             | `"auto"`     | Hybrid triage mode. Values: auto (default, dynamic triage), full (skip triage, all pages to backend)                                                                                                                 |
 | `hybridUrl`             | `string`             | -            | Hybrid backend server URL (overrides default)                                                                                                                                                                        |
 
@@ -29,7 +29,7 @@ description: Options for the Python convert function
 | `image_dir`               | `str`                | -            | Directory for extracted images                                                                                                                                                                                       |
 | `pages`                   | `str`                | -            | Pages to extract (e.g., "1,3,5-7"). Default: all pages                                                                                                                                                               |
 | `include_header_footer`   | `bool`               | `False`      | Include page headers and footers in output                                                                                                                                                                           |
-| `detect_strikethrough`    | `bool`               | `False`      | Detect strikethrough text and wrap with ~~ in Markdown output (experimental)                                                                                                                                         |
+| `detect_strikethrough`    | `bool`               | `False`      | Detect strikethrough text and wrap with ~~ in Markdown output or &lt;del&gt;&lt;/del&gt; tag in HTML output (experimental)                                                                                           |
 | `hybrid`                  | `str`                | `"off"`      | Hybrid backend (requires a running server). Quick start: pip install "opendataloader-pdf[hybrid]" && opendataloader-pdf-hybrid --port 5002. For remote servers use --hybrid-url. Values: off (default), docling-fast |
 | `hybrid_mode`             | `str`                | `"auto"`     | Hybrid triage mode. Values: auto (default, dynamic triage), full (skip triage, all pages to backend)                                                                                                                 |
 | `hybrid_url`              | `str`                | -            | Hybrid backend server URL (overrides default)                                                                                                                                                                        |
 
@@ -32,7 +32,7 @@ This page documents all available CLI options for opendataloader-pdf.
 | `--image-dir`               | -     | `string`  | -            | Directory for extracted images                                                                                                                                                                                       |
 | `--pages`                   | -     | `string`  | -            | Pages to extract (e.g., "1,3,5-7"). Default: all pages                                                                                                                                                               |
 | `--include-header-footer`   | -     | `boolean` | `false`      | Include page headers and footers in output                                                                                                                                                                           |
-| `--detect-strikethrough`    | -     | `boolean` | `false`      | Detect strikethrough text and wrap with ~~ in Markdown output (experimental)                                                                                                                                         |
+| `--detect-strikethrough`    | -     | `boolean` | `false`      | Detect strikethrough text and wrap with ~~ in Markdown output or &lt;del&gt;&lt;/del&gt; tag in HTML output (experimental)                                                                                           |
 | `--hybrid`                  | -     | `string`  | `"off"`      | Hybrid backend (requires a running server). Quick start: pip install "opendataloader-pdf[hybrid]" && opendataloader-pdf-hybrid --port 5002. For remote servers use --hybrid-url. Values: off (default), docling-fast |
 | `--hybrid-mode`             | -     | `string`  | `"auto"`     | Hybrid triage mode. Values: auto (default, dynamic triage), full (skip triage, all pages to backend)                                                                                                                 |
 | `--hybrid-url`              | -     | `string`  | -            | Hybrid backend server URL (overrides default)                                                                                                                                                                        |
 
@@ -112,7 +112,7 @@ public class CLIOptions {
 
     // ===== Detect Strikethrough =====
     private static final String DETECT_STRIKETHROUGH_LONG_OPTION = "detect-strikethrough";
-    private static final String DETECT_STRIKETHROUGH_DESC = "Detect strikethrough text and wrap with ~~ in Markdown output (experimental)";
+    private static final String DETECT_STRIKETHROUGH_DESC = "Detect strikethrough text and wrap with ~~ in Markdown output or <del></del> tag in HTML output (experimental)";
 
     // ===== Hybrid Mode =====
     private static final String HYBRID_LONG_OPTION = "hybrid";
 
@@ -21,13 +21,15 @@
 import org.opendataloader.pdf.entities.SemanticPicture;
 import org.opendataloader.pdf.markdown.MarkdownSyntax;
 import org.opendataloader.pdf.utils.Base64ImageUtils;
+import org.opendataloader.pdf.utils.GeneratorUtils;
 import org.opendataloader.pdf.utils.ImagesUtils;
+import org.opendataloader.pdf.utils.OutputType;
 import org.verapdf.wcag.algorithms.entities.IObject;
 import org.verapdf.wcag.algorithms.entities.SemanticHeaderOrFooter;
 import org.verapdf.wcag.algorithms.entities.SemanticHeading;
 import org.verapdf.wcag.algorithms.entities.SemanticParagraph;
 import org.verapdf.wcag.algorithms.entities.SemanticTextNode;
-import org.verapdf.wcag.algorithms.entities.content.ImageChunk;
+import org.verapdf.wcag.algorithms.entities.content.*;
 import org.verapdf.wcag.algorithms.entities.lists.ListItem;
 import org.verapdf.wcag.algorithms.entities.lists.PDFList;
 import org.verapdf.wcag.algorithms.entities.tables.tableBorders.TableBorder;
@@ -74,6 +76,10 @@ public class HtmlGenerator implements Closeable {
     protected String imageFormat = Config.IMAGE_FORMAT_PNG;
     /** Whether to include page headers and footers in output. */
     protected boolean includeHeaderFooter = false;
+    /** Opening tag for strikethrough text*/
+    protected static final String strikethroughTextHtmlOpeningTag = "<del>";
+    /** Closing tag for strikethrough text*/
+    protected static final String strikethroughTextHtmlClosingTag = "</del>";;
 
     /**
      * Creates a new HtmlGenerator for the specified PDF file.
@@ -286,7 +292,8 @@ protected void writeList(PDFList list) throws IOException {
             htmlWriter.write(HtmlSyntax.HTML_LIST_ITEM_TAG);
 
             htmlWriter.write(HtmlSyntax.HTML_PARAGRAPH_TAG);
-            htmlWriter.write(getCorrectString(item.toString()));
+            String value = GeneratorUtils.getTextFromLines(item.getLines(), OutputType.HTML);
+            htmlWriter.write(getCorrectString(value));
             htmlWriter.write(HtmlSyntax.HTML_PARAGRAPH_CLOSE_TAG);
 
             for (IObject object : item.getContents()) {
@@ -307,7 +314,7 @@ protected void writeList(PDFList list) throws IOException {
      */
     protected void writeSemanticTextNode(SemanticTextNode textNode) throws IOException {
         htmlWriter.write(HtmlSyntax.HTML_FIGURE_CAPTION_TAG);
-        htmlWriter.write(getCorrectString(textNode.getValue()));
+        htmlWriter.write(getCorrectString(GeneratorUtils.getTextFromTextNode(textNode, OutputType.HTML)));
         htmlWriter.write(HtmlSyntax.HTML_FIGURE_CAPTION_CLOSE_TAG);
         htmlWriter.write(HtmlSyntax.HTML_LINE_BREAK);
     }
@@ -362,13 +369,13 @@ protected void writeTable(TableBorder table) throws IOException {
      * @throws IOException if unable to write to the output
      */
     protected void writeParagraph(SemanticParagraph paragraph) throws IOException {
-        String paragraphValue = paragraph.getValue();
         double paragraphIndent = paragraph.getColumns().get(0).getBlocks().get(0).getFirstLineIndent();
 
         htmlWriter.write(HtmlSyntax.HTML_PARAGRAPH_TAG);
         if (paragraphIndent > 0) {
             htmlWriter.write(HtmlSyntax.HTML_INDENT);
         }
+        String paragraphValue = GeneratorUtils.getTextFromTextNode(paragraph, OutputType.HTML);
 
         if (isInsideTable() && StaticContainers.isKeepLineBreaks()) {
             paragraphValue = paragraphValue.replace(HtmlSyntax.HTML_LINE_BREAK, HtmlSyntax.HTML_LINE_BREAK_TAG);
@@ -388,7 +395,7 @@ protected void writeParagraph(SemanticParagraph paragraph) throws IOException {
     protected void writeHeading(SemanticHeading heading) throws IOException {
         int headingLevel = Math.min(6, Math.max(1, heading.getHeadingLevel()));
         htmlWriter.write("<h" + headingLevel + ">");
-        htmlWriter.write(getCorrectString(heading.getValue()));
+        htmlWriter.write(getCorrectString(GeneratorUtils.getTextFromTextNode(heading, OutputType.HTML)));
         htmlWriter.write("</h" + headingLevel + ">");
         htmlWriter.write(HtmlSyntax.HTML_LINE_BREAK);
     }
@@ -467,6 +474,18 @@ protected String escapeHtmlAttribute(String value) {
             .replace("\r", "");
     }
 
+    public static void getTextFromLineForHTML(TextLine line, StringBuilder stringBuilder) {
+        for (TextChunk chunk : line.getTextChunks()) {
+            if (chunk.getIsStrikethroughText()) {
+                stringBuilder.append(strikethroughTextHtmlOpeningTag);
+            }
+            stringBuilder.append(chunk.getValue());
+            if (chunk.getIsStrikethroughText()) {
+                stringBuilder.append(strikethroughTextHtmlClosingTag);
+            }
+        }
+    }
+
     @Override
     public void close() throws IOException {
         if (htmlWriter != null) {
 
@@ -20,7 +20,9 @@
 import org.opendataloader.pdf.entities.SemanticFormula;
 import org.opendataloader.pdf.entities.SemanticPicture;
 import org.opendataloader.pdf.utils.Base64ImageUtils;
+import org.opendataloader.pdf.utils.GeneratorUtils;
 import org.opendataloader.pdf.utils.ImagesUtils;
+import org.opendataloader.pdf.utils.OutputType;
 import org.verapdf.wcag.algorithms.entities.IObject;
 import org.verapdf.wcag.algorithms.entities.SemanticHeaderOrFooter;
 import org.verapdf.wcag.algorithms.entities.SemanticHeading;
@@ -54,6 +56,7 @@ public class MarkdownGenerator implements Closeable {
     protected boolean embedImages = false;
     protected String imageFormat = Config.IMAGE_FORMAT_PNG;
     protected boolean includeHeaderFooter = false;
+    protected static final String strikethroughTextMD = "~~";
 
     MarkdownGenerator(File inputPdf, Config config) throws IOException {
         String cutPdfFileName = inputPdf.getName();
@@ -234,7 +237,7 @@ protected void writeList(PDFList list) throws IOException {
                 markdownWriter.write(MarkdownSyntax.LIST_ITEM);
                 markdownWriter.write(MarkdownSyntax.SPACE);
             }
-            markdownWriter.write(getCorrectMarkdownString(item.toString()));
+            markdownWriter.write(getCorrectMarkdownString(GeneratorUtils.getTextFromLines(item.getLines(), OutputType.MD)));
             writeLineBreak();
 
             List<IObject> itemContents = item.getContents();
@@ -246,7 +249,7 @@ protected void writeList(PDFList list) throws IOException {
     }
 
     protected void writeSemanticTextNode(SemanticTextNode textNode) throws IOException {
-        String value = textNode.getValue();
+        String value = GeneratorUtils.getTextFromTextNode(textNode, OutputType.MD);
         if (StaticContainers.isKeepLineBreaks()) {
             if (textNode instanceof SemanticHeading) {
                 value = value.replace(MarkdownSyntax.LINE_BREAK, MarkdownSyntax.SPACE);
@@ -261,6 +264,8 @@ protected void writeSemanticTextNode(SemanticTextNode textNode) throws IOExcepti
         markdownWriter.write(getCorrectMarkdownString(value));
     }
 
+
+
     protected void writeTable(TableBorder table) throws IOException {
         enterTable();
         for (int rowNumber = 0; rowNumber < table.getNumberOfRows(); rowNumber++) {
@@ -362,6 +367,18 @@ protected String getCorrectMarkdownString(String value) {
         return null;
     }
 
+    public static void getTextFromLineForMarkdown(TextLine line, StringBuilder stringBuilder) {
+        for (TextChunk chunk : line.getTextChunks()) {
+            if (chunk.getIsStrikethroughText()) {
+                stringBuilder.append(strikethroughTextMD);
+            }
+            stringBuilder.append(chunk.getValue());
+            if (chunk.getIsStrikethroughText()) {
+                stringBuilder.append(strikethroughTextMD);
+            }
+        }
+    }
+
     @Override
     public void close() throws IOException {
         if (markdownWriter != null) {
 
@@ -27,8 +27,8 @@
 
 /**
  * Detects strikethrough text by finding horizontal lines that pass through
- * the vertical center of text chunks. Marks affected TextChunks by wrapping
- * their values with ~~ markdown strikethrough syntax.
+ * the vertical center of text chunks. Marks affected TextChunks by setting
+ * their isStrikethroughText field to true.
  *
  * Filters to avoid false positives:
  * 1. Table border membership (via TableBordersCollection)
@@ -52,8 +52,8 @@ public class StrikethroughProcessor {
     private static final double MAX_STROKE_TO_TEXT_HEIGHT_RATIO = 1.3;
 
     /**
-     * Detects strikethrough lines among page contents and wraps affected
-     * TextChunk values with ~~ markdown syntax.
+     * Detects strikethrough lines among page contents and sets affected
+     * TextChunk isStrikethroughText field to true.
      *
      * @param pageContents the list of content objects for a page
      * @return the page contents (modified in place)
@@ -95,8 +95,6 @@ public static List<IObject> processStrikethroughs(List<IObject> pageContents) {
             if (!matchingChunks.isEmpty() && matchingChunks.size() <= MAX_TEXT_CHUNKS_PER_LINE) {
                 for (TextChunk chunk : matchingChunks) {
                     if (!chunk.getIsStrikethroughText()) {
-                        String value = chunk.getValue();
-                        chunk.setValue("~~" + value + "~~");
                         chunk.setIsStrikethroughText();
                     }
                 }
 
@@ -0,0 +1,53 @@
+package org.opendataloader.pdf.utils;
+
+import org.opendataloader.pdf.html.HtmlGenerator;
+import org.opendataloader.pdf.markdown.MarkdownGenerator;
+import org.verapdf.wcag.algorithms.entities.SemanticTextNode;
+import org.verapdf.wcag.algorithms.entities.content.TextBlock;
+import org.verapdf.wcag.algorithms.entities.content.TextColumn;
+import org.verapdf.wcag.algorithms.entities.content.TextLine;
+import org.verapdf.wcag.algorithms.semanticalgorithms.utils.TextChunkUtils;
+
+import java.util.List;
+
+public class GeneratorUtils {
+
+    public static String getTextFromTextNode(SemanticTextNode textNode, OutputType outputType) {
+        StringBuilder stringBuilder = new StringBuilder();
+        for (TextColumn column : textNode.getColumns()) {
+            List<TextBlock> blocks = column.getBlocks();
+            for (int i = 0; i < blocks.size() - 1; i++) {
+                TextBlock block = blocks.get(i);
+                stringBuilder.append(getTextFromLines(block.getLines(), outputType));
+                TextChunkUtils.formatLineEnd(stringBuilder);
+            }
+            stringBuilder.append(getTextFromLines(blocks.get(blocks.size() - 1).getLines(), outputType));
+        }
+        return stringBuilder.toString();
+    }
+
+    public static String getTextFromLines(List<TextLine> textLines, OutputType outputType) {
+        StringBuilder stringBuilder = new StringBuilder();
+        for (int i = 0; i < textLines.size() - 1; i++) {
+            TextLine line = textLines.get(i);
+            switch (outputType) {
+                case MD:
+                    MarkdownGenerator.getTextFromLineForMarkdown(line,  stringBuilder);
+                    break;
+                case HTML:
+                    HtmlGenerator.getTextFromLineForHTML(line, stringBuilder);
+                    break;
+            }
+            TextChunkUtils.formatLineEnd(stringBuilder);
+        }
+        switch (outputType) {
+            case MD:
+                MarkdownGenerator.getTextFromLineForMarkdown(textLines.get(textLines.size() - 1),  stringBuilder);
+                break;
+            case HTML:
+                HtmlGenerator.getTextFromLineForHTML(textLines.get(textLines.size() - 1), stringBuilder);
+                break;
+        }
+        return stringBuilder.toString();
+    }
+}
@@ -0,0 +1,9 @@
+package org.opendataloader.pdf.utils;
+
+public enum OutputType {
+    TXT,
+    MD,
+    HTML,
+    JSON,
+    PDF
+}
-Original file line number
+Diff line change
@@ @@ -0,0 +1,9 @@ @@
 +package org.opendataloader.pdf.utils;
++
 +public enum OutputType {
 +    TXT,
 +    MD,
 +    HTML,
 +    JSON,
 +    PDF
 +}