Fix .text, .iter for HTML fragments

rushter · rushter · commit 65d5096029c1 · 2026-01-23T23:52:12.000+04:00
Given multiple nodes at the root level.
diff --git a/CHANGES.md b/CHANGES.md
@@ -1,5 +1,7 @@
 # selectolax Changelog
 
+- Fix `.text()` and `iter()` for HTML fragments when there are multiple nodes at the root level.
+
 # Version 0.4.6
 
 
diff --git a/selectolax/lexbor/node.pxi b/selectolax/lexbor/node.pxi
@@ -168,7 +168,8 @@ cdef class LexborNode:
 
         """
         cdef unsigned char * text
-        cdef lxb_dom_node_t * node = <lxb_dom_node_t *> self.node.first_child
+        cdef LexborNode start_node = self._get_node()
+        cdef lxb_dom_node_t * node = <lxb_dom_node_t *> start_node.node.first_child
 
         if not deep:
             container = TextContainer(separator, strip)
@@ -197,7 +198,7 @@ cdef class LexborNode:
                         container.append(text.decode(_ENCODING))
 
             lxb_dom_node_simple_walk(
-                <lxb_dom_node_t *> self.node,
+                <lxb_dom_node_t *> start_node.node,
                 <lxb_dom_node_simple_walker_f> text_callback,
                 <void *> container
             )
@@ -468,7 +469,8 @@ cdef class LexborNode:
             to the provided options.
         """
 
-        cdef lxb_dom_node_t *node = self.node.first_child
+        cdef LexborNode start_node = self._get_node()
+        cdef lxb_dom_node_t *node = start_node.node.first_child
         cdef LexborNode next_node
 
         while node != NULL:
diff --git a/tests/test_lexbor_fragment.py b/tests/test_lexbor_fragment.py
@@ -1,6 +1,6 @@
 from inspect import cleandoc
 import pytest
-from selectolax.lexbor import LexborHTMLParser, SelectolaxError
+from selectolax.lexbor import LexborHTMLParser
 
 
 def clean_doc(text: str) -> str:
@@ -491,10 +491,14 @@ def test_fragment_create_node_with_attributes():
     assert 'class="link"' in html
 
 
-def test_fragment_create_node_empty_tag_name():
-    parser = LexborHTMLParser("<div></div>", is_fragment=True)
-    try:
-        parser.create_node("")
-        assert False, "Should have raised an exception"
-    except SelectolaxError:
-        pass
+def test_fragment_text_extraction_multiple_nodes():
+    html = "<p>1</p><p>2</p>"
+    p = LexborHTMLParser(html, is_fragment=True)
+    assert p.text(deep=False) == ""
+    assert p.text(deep=True, separator=" ", strip=True) == "1 2"
+
+
+def test_fragment_iter_multiple_nodes():
+    html = "<p>1</p><p>2</p>"
+    p = LexborHTMLParser(html, is_fragment=True)
+    assert len(list(p.root.iter())) == 2