feat: add AtomicGenerator

ChenZiHong-Gavin · ChenZiHong-Gavin · commit b4431a2aec28 · 2025-10-13T15:37:56.000+08:00
diff --git a/graphgen/bases/__init__.py b/graphgen/bases/__init__.py
@@ -1,3 +1,4 @@
+from .base_generator import BaseGenerator
 from .base_kg_builder import BaseKGBuilder
 from .base_llm_client import BaseLLMClient
 from .base_partitioner import BasePartitioner
diff --git a/graphgen/bases/base_generator.py b/graphgen/bases/base_generator.py
@@ -0,0 +1,82 @@
+from abc import ABC, abstractmethod
+from dataclasses import dataclass
+from typing import Any
+
+from graphgen.bases.base_llm_client import BaseLLMClient
+
+
+@dataclass
+class BaseGenerator(ABC):
+    """
+    Generate QAs based on given prompts.
+    """
+
+    llm_client: BaseLLMClient
+
+    @abstractmethod
+    def build_prompt(
+        self, batch: tuple[list[tuple[str, dict]], list[tuple[Any, Any, dict]]]
+    ) -> str:
+        """Build prompt for LLM based on the given batch"""
+
+    @abstractmethod
+    def parse_response(self, response: str) -> Any:
+        """Parse the LLM response and return the generated QAs"""
+
+    async def generate(
+        self,
+        batch: tuple[
+            list[tuple[str, dict]], list[tuple[Any, Any, dict] | tuple[Any, Any, Any]]
+        ],
+    ) -> dict[str, Any]:
+        """
+        Generate QAs based on a given batch.
+        :param batch
+        :return: QA pairs
+        """
+        result = {}
+        prompt = self.build_prompt(batch)
+        response = await self.llm_client.generate_answer(prompt)
+        qa_pairs = self.parse_response(response)  # generate one or more QA pairs
+        result.update(qa_pairs)
+        return result
+
+    @staticmethod
+    def format_generation_results(
+        results: list[dict], output_data_format: str
+    ) -> list[dict[str, Any]]:
+        if output_data_format == "Alpaca":
+            results = [
+                {
+                    "instruction": v["question"],
+                    "input": "",
+                    "output": v["answer"],
+                }
+                for item in results
+                for k, v in item.items()
+            ]
+        elif output_data_format == "Sharegpt":
+            results = [
+                {
+                    "conversations": [
+                        {"from": "human", "value": v["question"]},
+                        {"from": "gpt", "value": v["answer"]},
+                    ]
+                }
+                for item in results
+                for k, v in item.items()
+            ]
+        elif output_data_format == "ChatML":
+            results = [
+                {
+                    "messages": [
+                        {"role": "user", "content": v["question"]},
+                        {"role": "assistant", "content": v["answer"]},
+                    ]
+                }
+                for item in results
+                for k, v in item.items()
+            ]
+        else:
+            raise ValueError(f"Unknown output data format: {output_data_format}")
+        return results
diff --git a/graphgen/bases/base_partitioner.py b/graphgen/bases/base_partitioner.py
@@ -1,6 +1,6 @@
 from abc import ABC, abstractmethod
 from dataclasses import dataclass
-from typing import Any, List, Tuple
+from typing import Any, List
 
 from graphgen.bases.base_storage import BaseGraphStorage
 from graphgen.bases.datatypes import Community
diff --git a/graphgen/graphgen.py b/graphgen/graphgen.py
@@ -5,7 +5,6 @@
 from typing import Dict, cast
 
 import gradio as gr
-from jieba.lac_small.predict import results
 
 from graphgen.bases.base_storage import StorageNameSpace
 from graphgen.bases.datatypes import Chunk
@@ -19,18 +18,14 @@
 from graphgen.operators import (
     build_kg,
     chunk_documents,
+    generate_qas,
     judge_statement,
     partition_kg,
     quiz,
     read_files,
     search_all,
 )
-from graphgen.utils import (
-    async_to_sync_method,
-    compute_content_hash,
-    format_generation_results,
-    logger,
-)
+from graphgen.utils import async_to_sync_method, compute_content_hash, logger
 
 sys_path = os.path.abspath(os.path.join(os.path.dirname(__file__), ".."))
 
@@ -239,52 +234,17 @@ async def generate(self, partition_config: Dict, generate_config: Dict):
         batches = await partition_kg(self.graph_storage, partition_config)
 
         # Step 2： generate QA pairs
-        mode = generate_config["mode"]
-        logger.info("[Generation] mode: %s, batches: %d", mode, len(batches))
-        # results = generate_qa_pairs(generate_config)
-        # if mode == "atomic":
-        #     results = await traverse_graph_for_atomic(
-        #         self.synthesizer_llm_client,
-        #         self.tokenizer_instance,
-        #         self.graph_storage,
-        #         partition_config["method_params"],
-        #         self.text_chunks_storage,
-        #         self.progress_bar,
-        #     )
-        # elif mode == "multi_hop":
-        #     results = await traverse_graph_for_multi_hop(
-        #         self.synthesizer_llm_client,
-        #         self.tokenizer_instance,
-        #         self.graph_storage,
-        #         partition_config["method_params"],
-        #         self.text_chunks_storage,
-        #         self.progress_bar,
-        #     )
-        # elif mode == "aggregated":
-        #     results = await traverse_graph_for_aggregated(
-        #         self.synthesizer_llm_client,
-        #         self.tokenizer_instance,
-        #         self.graph_storage,
-        #         partition_config["method_params"],
-        #         self.text_chunks_storage,
-        #         self.progress_bar,
-        #     )
-        # elif mode == "cot":
-        #     results = await generate_cot(
-        #         self.graph_storage,
-        #         self.synthesizer_llm_client,
-        #         method_params=partition_config["method_params"],
-        #     )
-        # else:
-        #     raise ValueError(f"Unknown generation mode: {mode}")
-
-        # Step 3: format
-        # results = format_generation_results(
-        #     results, output_data_format=generate_config["data_format"]
-        # )
-        #
-        # await self.qa_storage.upsert(results)
-        # await self.qa_storage.index_done_callback()
+        results = await generate_qas(
+            self.synthesizer_llm_client, batches, generate_config
+        )
+
+        if not results:
+            logger.warning("No QA pairs generated")
+            return
+
+        # Step 3: store the generated QA pairs
+        await self.qa_storage.upsert(results)
+        await self.qa_storage.index_done_callback()
 
     @async_to_sync_method
     async def clear(self):
diff --git a/graphgen/models/__init__.py b/graphgen/models/__init__.py
@@ -1,4 +1,10 @@
 from .evaluator import LengthEvaluator, MTLDEvaluator, RewardEvaluator, UniEvaluator
+from .generator import (
+    AggregatedGenerator,
+    AtomicGenerator,
+    CoTGenerator,
+    MultiHopGenerator,
+)
 from .kg_builder import LightRAGKGBuilder
 from .llm.openai_client import OpenAIClient
 from .llm.topk_token_model import TopkTokenModel
@@ -14,6 +20,5 @@
 from .search.web.bing_search import BingSearch
 from .search.web.google_search import GoogleSearch
 from .splitter import ChineseRecursiveTextSplitter, RecursiveCharacterSplitter
-from .storage.json_storage import JsonKVStorage, JsonListStorage
-from .storage.networkx_storage import NetworkXStorage
+from .storage import JsonKVStorage, JsonListStorage, NetworkXStorage
 from .tokenizer import Tokenizer
diff --git a/graphgen/models/generator/__init__.py b/graphgen/models/generator/__init__.py
@@ -0,0 +1,4 @@
+from .aggregated_generator import AggregatedGenerator
+from .atomic_generator import AtomicGenerator
+from .cot_generator import CoTGenerator
+from .multi_hop_generator import MultiHopGenerator
diff --git a/graphgen/models/generator/aggregated_generator.py b/graphgen/models/generator/aggregated_generator.py
@@ -0,0 +1,9 @@
+from graphgen.bases import BaseGenerator
+
+
+class AggregatedGenerator(BaseGenerator):
+    def build_prompt(self, batch) -> str:
+        pass
+
+    def parse_response(self, response: str):
+        pass
diff --git a/graphgen/models/generator/atomic_generator.py b/graphgen/models/generator/atomic_generator.py
@@ -0,0 +1,49 @@
+from typing import Any
+
+from baselines.EntiGraph.tasks.baseline_task import compute_content_hash
+from graphgen.bases import BaseGenerator
+from graphgen.templates import ATOMIC_GENERATION_PROMPT
+from graphgen.utils import detect_main_language, logger
+
+
+class AtomicGenerator(BaseGenerator):
+    def build_prompt(
+        self, batch: tuple[list[tuple[str, dict]], list[tuple[Any, Any, dict]]]
+    ) -> str:
+        nodes, edges = batch
+        context = ""
+        for node in nodes:
+            context += f"- {node[0]}: {node[1]['description']}\n"
+        for edge in edges:
+            context += f"- {edge[0]} - {edge[1]}: {edge[2]['description']}\n"
+        language = detect_main_language(context)
+
+        prompt = ATOMIC_GENERATION_PROMPT[language].format(context=context)
+        return prompt
+
+    def parse_response(self, response: str) -> dict:
+        """
+        AtomicGenerator normally generates one QA pair per response.
+        So we just need to parse one QA pair from the response.
+        :param response:
+        :return:
+        """
+        if "Question:" in response and "Answer:" in response:
+            question = response.split("Question:")[1].split("Answer:")[0].strip()
+            answer = response.split("Answer:")[1].strip()
+        elif "问题：" in response and "答案：" in response:
+            question = response.split("问题：")[1].split("答案：")[0].strip()
+            answer = response.split("答案：")[1].strip()
+        else:
+            logger.warning("Failed to parse response: %s", response)
+            return None, None
+        question = question.strip('"')
+        answer = answer.strip('"')
+        logger.info("Question: %s", question)
+        logger.info("Answer: %s", answer)
+        return {
+            compute_content_hash(question): {
+                "question": question,
+                "answer": answer,
+            }
+        }
diff --git a/graphgen/models/generator/cot_generator.py b/graphgen/models/generator/cot_generator.py
@@ -0,0 +1,9 @@
+from graphgen.bases import BaseGenerator
+
+
+class CoTGenerator(BaseGenerator):
+    def build_prompt(self, batch) -> str:
+        pass
+
+    def parse_response(self, response: str):
+        pass
diff --git a/graphgen/models/generator/multi_hop_generator.py b/graphgen/models/generator/multi_hop_generator.py
@@ -0,0 +1,9 @@
+from graphgen.bases import BaseGenerator
+
+
+class MultiHopGenerator(BaseGenerator):
+    def build_prompt(self, batch) -> str:
+        pass
+
+    def parse_response(self, response: str):
+        pass
diff --git a/graphgen/models/storage/__init__.py b/graphgen/models/storage/__init__.py
@@ -0,0 +1,2 @@
+from .json_storage import JsonKVStorage, JsonListStorage
+from .networkx_storage import NetworkXStorage
diff --git a/graphgen/operators/__init__.py b/graphgen/operators/__init__.py
@@ -5,7 +5,7 @@
 )
 
 from .build_kg import build_kg
-from .generate import generate_cot
+from .generate import generate_qas
 from .judge import judge_statement
 from .partition import partition_kg
 from .quiz import quiz
diff --git a/graphgen/operators/generate/__init__.py b/graphgen/operators/generate/__init__.py
@@ -1 +1 @@
-from .generate_cot import generate_cot
+from .generate_qas import generate_qas
diff --git a/graphgen/operators/generate/generate_qas.py b/graphgen/operators/generate/generate_qas.py
@@ -0,0 +1,58 @@
+from typing import Any
+
+from graphgen.bases import BaseLLMClient
+from graphgen.models import (
+    AggregatedGenerator,
+    AtomicGenerator,
+    CoTGenerator,
+    MultiHopGenerator,
+)
+from graphgen.utils import logger, run_concurrent
+
+
+async def generate_qas(
+    llm_client: BaseLLMClient,
+    batches: list[
+        tuple[
+            list[tuple[str, dict]], list[tuple[Any, Any, dict] | tuple[Any, Any, Any]]
+        ]
+    ],
+    generation_config: dict,
+) -> None:
+    """
+    Generate question-answer pairs based on nodes and edges.
+    :param llm_client: LLM client
+    :param batches
+    :param generation_config
+    :return: QA pairs
+    """
+    mode = generation_config["mode"]
+    logger.info("[Generation] mode: %s, batches: %d", mode, len(batches))
+
+    if mode == "atomic":
+        generator = AtomicGenerator(llm_client)
+    elif mode == "aggregated":
+        generator = AggregatedGenerator(llm_client)
+    elif mode == "multi-hop":
+        generator = MultiHopGenerator(llm_client)
+    elif mode == "cot":
+        generator = CoTGenerator(llm_client)
+    else:
+        raise ValueError(f"Unsupported generation mode: {mode}")
+
+    results = await run_concurrent(
+        generator.generate,
+        batches,
+        desc="[4/4]Generating QAs",
+        unit="batch",
+    )
+
+    # format
+    data_format = generation_config["data_format"]
+    logger.info("Output data format: %s", data_format)
+
+    results = generator.format_generation_results(
+        results, output_data_format=data_format
+    )
+
+    return results
diff --git a/graphgen/templates/__init__.py b/graphgen/templates/__init__.py
@@ -1,4 +1,5 @@
 from .answer_rephrasing import ANSWER_REPHRASING_PROMPT
+from .atomic_generation import ATOMIC_GENERATION_PROMPT
 from .community import COT_GENERATION_PROMPT, COT_TEMPLATE_DESIGN_PROMPT
 from .coreference_resolution import COREFERENCE_RESOLUTION_PROMPT
 from .description_rephrasing import DESCRIPTION_REPHRASING_PROMPT
diff --git a/graphgen/templates/atomic_generation.py b/graphgen/templates/atomic_generation.py
diff --git a/graphgen/templates/question_generation.py b/graphgen/templates/question_generation.py
diff --git a/graphgen/utils/__init__.py b/graphgen/utils/__init__.py
diff --git a/graphgen/utils/format.py b/graphgen/utils/format.py

Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,4 @@`
	`1`	`+from .base_generator import BaseGenerator`
`1`	`2`	`from .base_kg_builder import BaseKGBuilder`
`2`	`3`	`from .base_llm_client import BaseLLMClient`
`3`	`4`	`from .base_partitioner import BasePartitioner`