parameterlab
diff --git a/‎CHANGELOG.md‎
Lines changed: 33 additions & 0 deletions b/‎CHANGELOG.md‎
Lines changed: 33 additions & 0 deletions
diff --git a/‎examples/five_a_day_benchmark/five_a_day_benchmark.ipynb‎
Lines changed: 4 additions & 181 deletions b/‎examples/five_a_day_benchmark/five_a_day_benchmark.ipynb‎
Lines changed: 4 additions & 181 deletions
diff --git a/‎examples/five_a_day_benchmark/five_a_day_benchmark.py‎
Lines changed: 2 additions & 1 deletion b/‎examples/five_a_day_benchmark/five_a_day_benchmark.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎examples/introduction/tutorial.ipynb‎
Lines changed: 2 additions & 14 deletions b/‎examples/introduction/tutorial.ipynb‎
Lines changed: 2 additions & 14 deletions
@@ -20,10 +20,43 @@ and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0
 - Handles Anthropic-specific message format conversion (system messages, tool_use/tool_result blocks) internally while accepting OpenAI-compatible input
 - Added `anthropic` optional dependency: `pip install maseval[anthropic]`
 
+**Benchmarks**
+
+- Tau2 Benchmark: Full implementation of the tau2-bench benchmark for evaluating LLM-based agents on customer service tasks across airline, retail, and telecom domains (PR: #16)
+- `Tau2Benchmark`, `Tau2Environment`, `Tau2User`, `Tau2Evaluator` components for framework-agnostic evaluation (PR: #16)
+- `DefaultAgentTau2Benchmark` using an agent setup closely resembeling to the original tau2-bench implementation (PR: #16)
+- Data loading utilities: `load_tasks()`, `ensure_data_exists()`, `configure_model_ids()` (PR: #16)
+- Metrics: `compute_benchmark_metrics()`, `compute_pass_at_k()`, `compute_pass_hat_k()` for tau2-style scoring (PR: #16)
+- Domain implementations with tool kits: `AirlineTools`, `RetailTools`, `TelecomTools` with full database simulation (PR: #16)
+
+**User**
+
+- `AgenticUser` class for users that can use tools during conversations (PR: #16)
+- Multiple stop token support: `User` now accepts `stop_tokens` (list) instead of single `stop_token`, enabling different termination reasons (PR: #16)
+- Stop reason tracking: `User` traces now include `stop_reason`, `max_turns`, `turns_used`, and `stopped_by_user` for detailed termination analysis (PR: #16)
+
+**Simulator**
+
+- `AgenticUserLLMSimulator` for LLM-based user simulation with tool use capabilities (PR: #16)
+
+**Examples**
+
+- Tau2 benchmark example with default agent implementation and result comparison scripts (PR: #16)
+
 ### Changed
 
+**Benchmark**
+
+- `Benchmark.agent_data` parameter is now optional (defaults to empty dict) (PR: #16)
+
+**Task**
+
+- `Task.id` is now `str` type instead of `UUID`. Benchmarks can provide human-readable IDs directly (e.g., `Task(id="retail_001", ...)`). Auto-generates UUID string if not provided. (PR: #16)
+
 ### Fixed
 
+- Task reports now use `task.id` directly instead of `metadata["task_id"]` (PR: #16)
+
 ### Removed
 
 ## [0.2.0] - 2025-12-05
 
@@ -71,136 +71,7 @@
    "id": "954a7569",
    "metadata": {},
    "outputs": [],
-   "source": [
-    "# ruff: noqa E402\n",
-    "# Setup: Set working directory to project root for proper imports\n",
-    "# This must happen FIRST before any other imports\n",
-    "import os\n",
-    "import sys\n",
-    "from pathlib import Path\n",
-    "import json\n",
-    "from typing import Any, Dict, List, Sequence\n",
-    "from rich.console import Console\n",
-    "from rich.panel import Panel\n",
-    "\n",
-    "# Determine notebook directory and set working directory to project root\n",
-    "_notebook_dir = Path(__file__).parent if \"__file__\" in dir() else Path.cwd()\n",
-    "if _notebook_dir.name == \"five_a_day_benchmark\":\n",
-    "    _project_root = _notebook_dir.parent.parent\n",
-    "    os.chdir(_project_root)\n",
-    "    # Add project root to path so `examples.five_a_day_benchmark.*` imports work\n",
-    "    if str(_project_root) not in sys.path:\n",
-    "        sys.path.insert(0, str(_project_root))\n",
-    "    # Also add the example directory for local imports (utils, tools, evaluators)\n",
-    "    if str(_notebook_dir) not in sys.path:\n",
-    "        sys.path.insert(0, str(_notebook_dir))\n",
-    "    print(f\"Working directory set to: {os.getcwd()}\")\n",
-    "\n",
-    "\n",
-    "# Utility functions from this example\n",
-    "# - derive_seed(): Creates reproducible seeds from task_id + agent_id\n",
-    "# - sanitize_name(): Cleans agent names for framework compatibility\n",
-    "from utils import derive_seed, sanitize_name\n",
-    "\n",
-    "# Tool collection classes and helpers\n",
-    "# - EmailToolCollection, BankingToolCollection: Pre-built tool groups\n",
-    "# - filter_tool_adapters_by_prefix(): Selects tools by name prefix\n",
-    "# - get_states(): Initializes tool state objects (email inboxes, bank accounts, etc.)\n",
-    "from tools import (\n",
-    "    EmailToolCollection,\n",
-    "    BankingToolCollection,\n",
-    "    CalculatorToolCollection,\n",
-    "    CodeExecutionToolCollection,\n",
-    "    FamilyInfoToolCollection,\n",
-    "    StockPriceToolCollection,\n",
-    "    CalendarToolCollection,\n",
-    "    HotelSearchToolCollection,\n",
-    "    MCPCalendarToolCollection,\n",
-    "    filter_tool_adapters_by_prefix,\n",
-    "    get_states,\n",
-    ")\n",
-    "\n",
-    "# smolagents: Our chosen agent framework\n",
-    "from smolagents import ToolCallingAgent, LiteLLMModel, FinalAnswerTool\n",
-    "\n",
-    "# MASEval core components\n",
-    "from maseval import Benchmark, Environment, Task, TaskCollection, AgentAdapter, Evaluator, ModelAdapter\n",
-    "from maseval.interface.agents.smolagents import SmolAgentAdapter\n",
-    "\n",
-    "# Import evaluators module (dynamically loaded later)\n",
-    "import evaluators\n",
-    "\n",
-    "\n",
-    "def load_benchmark_data(\n",
-    "    config_type: str = \"multi\",\n",
-    "    framework: str = \"smolagents\",\n",
-    "    model_id: str = \"gemini-2.5-flash\",\n",
-    "    temperature: float = 0.7,\n",
-    "    limit: int | None = None,\n",
-    "    seed: int | None = None,\n",
-    "    task_indices: list[int] | None = None,\n",
-    ") -> tuple[TaskCollection, list[Dict[str, Any]]]:\n",
-    "    \"\"\"Load tasks and agent configurations.\n",
-    "\n",
-    "    Args:\n",
-    "        config_type: 'single' or 'multi' agent configuration\n",
-    "        framework: Agent framework to use\n",
-    "        model_id: Model identifier\n",
-    "        temperature: Model temperature\n",
-    "        limit: Optional limit on number of tasks (None = all 5)\n",
-    "        seed: Random seed for reproducibility\n",
-    "        task_indices: Optional list of task indices to load (e.g., [0, 2, 4])\n",
-    "\n",
-    "    Returns:\n",
-    "        Tuple of (TaskCollection, list of agent configs)\n",
-    "    \"\"\"\n",
-    "    data_dir = Path(\"examples/five_a_day_benchmark/data\")\n",
-    "\n",
-    "    with open(data_dir / \"tasks.json\", \"r\") as f:\n",
-    "        tasks_raw = json.load(f)\n",
-    "    with open(data_dir / f\"{config_type}agent.json\", \"r\") as f:\n",
-    "        configs_raw = json.load(f)\n",
-    "\n",
-    "    # Apply limit first\n",
-    "    if limit:\n",
-    "        tasks_raw = tasks_raw[:limit]\n",
-    "        configs_raw = configs_raw[:limit]\n",
-    "\n",
-    "    # Then apply task_indices filter if specified\n",
-    "    if task_indices is not None:\n",
-    "        tasks_raw = [tasks_raw[i] for i in task_indices if i < len(tasks_raw)]\n",
-    "        configs_raw = [configs_raw[i] for i in task_indices if i < len(configs_raw)]\n",
-    "\n",
-    "    tasks_data = []\n",
-    "    configs_data = []\n",
-    "\n",
-    "    for task_dict, config in zip(tasks_raw, configs_raw):\n",
-    "        task_id = task_dict[\"metadata\"][\"task_id\"]\n",
-    "        task_dict[\"environment_data\"][\"agent_framework\"] = framework\n",
-    "\n",
-    "        # Create Task object\n",
-    "        tasks_data.append(\n",
-    "            Task(\n",
-    "                query=task_dict[\"query\"],\n",
-    "                environment_data=task_dict[\"environment_data\"],\n",
-    "                evaluation_data=task_dict[\"evaluation_data\"],\n",
-    "                metadata=task_dict[\"metadata\"],\n",
-    "            )\n",
-    "        )\n",
-    "\n",
-    "        # Enrich config with framework and model info\n",
-    "        config[\"framework\"] = framework\n",
-    "        config[\"model_config\"] = {\"model_id\": model_id, \"temperature\": temperature}\n",
-    "\n",
-    "        # Derive seeds for reproducibility\n",
-    "        if seed is not None:\n",
-    "            for agent_spec in config[\"agents\"]:\n",
-    "                agent_spec[\"seed\"] = derive_seed(seed, task_id, agent_spec[\"agent_id\"])\n",
-    "\n",
-    "        configs_data.append(config)\n",
-    "\n",
-    "    return TaskCollection(tasks_data), configs_data"
-   ]
+   "source": "# ruff: noqa E402\n# Setup: Set working directory to project root for proper imports\n# This must happen FIRST before any other imports\nimport os\nimport sys\nfrom pathlib import Path\nimport json\nfrom typing import Any, Dict, List, Sequence\nfrom rich.console import Console\nfrom rich.panel import Panel\n\n# Determine notebook directory and set working directory to project root\n_notebook_dir = Path(__file__).parent if \"__file__\" in dir() else Path.cwd()\nif _notebook_dir.name == \"five_a_day_benchmark\":\n    _project_root = _notebook_dir.parent.parent\n    os.chdir(_project_root)\n    # Add project root to path so `examples.five_a_day_benchmark.*` imports work\n    if str(_project_root) not in sys.path:\n        sys.path.insert(0, str(_project_root))\n    # Also add the example directory for local imports (utils, tools, evaluators)\n    if str(_notebook_dir) not in sys.path:\n        sys.path.insert(0, str(_notebook_dir))\n    print(f\"Working directory set to: {os.getcwd()}\")\n\n\n# Utility functions from this example\n# - derive_seed(): Creates reproducible seeds from task_id + agent_id\n# - sanitize_name(): Cleans agent names for framework compatibility\nfrom utils import derive_seed, sanitize_name\n\n# Tool collection classes and helpers\n# - EmailToolCollection, BankingToolCollection: Pre-built tool groups\n# - filter_tool_adapters_by_prefix(): Selects tools by name prefix\n# - get_states(): Initializes tool state objects (email inboxes, bank accounts, etc.)\nfrom tools import (\n    EmailToolCollection,\n    BankingToolCollection,\n    CalculatorToolCollection,\n    CodeExecutionToolCollection,\n    FamilyInfoToolCollection,\n    StockPriceToolCollection,\n    CalendarToolCollection,\n    HotelSearchToolCollection,\n    MCPCalendarToolCollection,\n    filter_tool_adapters_by_prefix,\n    get_states,\n)\n\n# smolagents: Our chosen agent framework\nfrom smolagents import ToolCallingAgent, LiteLLMModel, FinalAnswerTool\n\n# MASEval core components\nfrom maseval import Benchmark, Environment, Task, TaskCollection, AgentAdapter, Evaluator, ModelAdapter\nfrom maseval.interface.agents.smolagents import SmolAgentAdapter\n\n# Import evaluators module (dynamically loaded later)\nimport evaluators\n\n\ndef load_benchmark_data(\n    config_type: str = \"multi\",\n    framework: str = \"smolagents\",\n    model_id: str = \"gemini-2.5-flash\",\n    temperature: float = 0.7,\n    limit: int | None = None,\n    seed: int | None = None,\n    task_indices: list[int] | None = None,\n) -> tuple[TaskCollection, list[Dict[str, Any]]]:\n    \"\"\"Load tasks and agent configurations.\n\n    Args:\n        config_type: 'single' or 'multi' agent configuration\n        framework: Agent framework to use\n        model_id: Model identifier\n        temperature: Model temperature\n        limit: Optional limit on number of tasks (None = all 5)\n        seed: Random seed for reproducibility\n        task_indices: Optional list of task indices to load (e.g., [0, 2, 4])\n\n    Returns:\n        Tuple of (TaskCollection, list of agent configs)\n    \"\"\"\n    data_dir = Path(\"examples/five_a_day_benchmark/data\")\n\n    with open(data_dir / \"tasks.json\", \"r\") as f:\n        tasks_raw = json.load(f)\n    with open(data_dir / f\"{config_type}agent.json\", \"r\") as f:\n        configs_raw = json.load(f)\n\n    # Apply limit first\n    if limit:\n        tasks_raw = tasks_raw[:limit]\n        configs_raw = configs_raw[:limit]\n\n    # Then apply task_indices filter if specified\n    if task_indices is not None:\n        tasks_raw = [tasks_raw[i] for i in task_indices if i < len(tasks_raw)]\n        configs_raw = [configs_raw[i] for i in task_indices if i < len(configs_raw)]\n\n    tasks_data = []\n    configs_data = []\n\n    for task_dict, config in zip(tasks_raw, configs_raw):\n        task_id = task_dict[\"metadata\"][\"task_id\"]\n        task_dict[\"environment_data\"][\"agent_framework\"] = framework\n\n        # Create Task object with id from metadata\n        tasks_data.append(\n            Task(\n                query=task_dict[\"query\"],\n                id=task_id,\n                environment_data=task_dict[\"environment_data\"],\n                evaluation_data=task_dict[\"evaluation_data\"],\n                metadata=task_dict[\"metadata\"],\n            )\n        )\n\n        # Enrich config with framework and model info\n        config[\"framework\"] = framework\n        config[\"model_config\"] = {\"model_id\": model_id, \"temperature\": temperature}\n\n        # Derive seeds for reproducibility\n        if seed is not None:\n            for agent_spec in config[\"agents\"]:\n                agent_spec[\"seed\"] = derive_seed(seed, task_id, agent_spec[\"agent_id\"])\n\n        configs_data.append(config)\n\n    return TaskCollection(tasks_data), configs_data"
   },
   {
    "cell_type": "markdown",
@@ -558,41 +429,7 @@
    "id": "5fbb228f",
    "metadata": {},
    "outputs": [],
-   "source": [
-    "# Build the agents for task 0\n",
-    "# Note: model_config is already set by load_benchmark_data()\n",
-    "\n",
-    "# Create environment from task data\n",
-    "environment_0 = FiveADayEnvironment(\n",
-    "    {\n",
-    "        \"environment_data\": task_0.environment_data,\n",
-    "        \"query\": task_0.query,\n",
-    "        \"evaluation_data\": task_0.evaluation_data,\n",
-    "        \"metadata\": task_0.metadata,\n",
-    "    }\n",
-    ")\n",
-    "\n",
-    "# Build agents using the build_agents function\n",
-    "agents_to_run, agents_to_monitor = build_agents(config_0, environment_0)\n",
-    "\n",
-    "print(f\"\\nBuilt Agents for Task: {task_0.metadata['task_id']}\")\n",
-    "print(f\"{'=' * 60}\")\n",
-    "print(f\"\\nAgents to run: {[agent.name for agent in agents_to_run]}\")\n",
-    "print(f\"Agents to monitor: {list(agents_to_monitor.keys())}\")\n",
-    "\n",
-    "# Print details for each agent\n",
-    "for agent in agents_to_run:\n",
-    "    print(f\"\\n  Agent: {agent.name}\")\n",
-    "    # smolagents stores tools as a dict with string keys\n",
-    "    print(f\"    Tools: {list(agent.tools.keys())}\")\n",
-    "    if hasattr(agent, \"managed_agents\") and agent.managed_agents:\n",
-    "        # managed_agents is also a dict with string keys\n",
-    "        print(f\"    Managed agents: {list(agent.managed_agents.keys())}\")\n",
-    "        for agent_name, managed in agent.managed_agents.items():\n",
-    "            print(f\"      - {managed.name}: {list(managed.tools.keys())}\")\n",
-    "\n",
-    "print(\"\\nAll agents built successfully.\")"
-   ]
+   "source": "# Build the agents for task 0\n# Note: model_config is already set by load_benchmark_data()\n\n# Create environment from task data\nenvironment_0 = FiveADayEnvironment(\n    {\n        \"environment_data\": task_0.environment_data,\n        \"query\": task_0.query,\n        \"evaluation_data\": task_0.evaluation_data,\n        \"metadata\": task_0.metadata,\n    }\n)\n\n# Build agents using the build_agents function\nagents_to_run, agents_to_monitor = build_agents(config_0, environment_0)\n\nprint(f\"\\nBuilt Agents for Task: {task_0.id}\")\nprint(f\"{'=' * 60}\")\nprint(f\"\\nAgents to run: {[agent.name for agent in agents_to_run]}\")\nprint(f\"Agents to monitor: {list(agents_to_monitor.keys())}\")\n\n# Print details for each agent\nfor agent in agents_to_run:\n    print(f\"\\n  Agent: {agent.name}\")\n    # smolagents stores tools as a dict with string keys\n    print(f\"    Tools: {list(agent.tools.keys())}\")\n    if hasattr(agent, \"managed_agents\") and agent.managed_agents:\n        # managed_agents is also a dict with string keys\n        print(f\"    Managed agents: {list(agent.managed_agents.keys())}\")\n        for agent_name, managed in agent.managed_agents.items():\n            print(f\"      - {managed.name}: {list(managed.tools.keys())}\")\n\nprint(\"\\nAll agents built successfully.\")"
   },
   {
    "cell_type": "markdown",
@@ -707,21 +544,7 @@
    "id": "b04bbd0d",
    "metadata": {},
    "outputs": [],
-   "source": [
-    "# Reload all 5 tasks for the benchmark\n",
-    "tasks, agent_configs = load_benchmark_data(\n",
-    "    config_type=\"multi\",\n",
-    "    framework=\"smolagents\",\n",
-    "    model_id=\"gemini-2.5-flash\",\n",
-    "    temperature=0.7,\n",
-    "    seed=42,\n",
-    "    # No task_indices = load all tasks\n",
-    ")\n",
-    "\n",
-    "print(f\"Loaded {len(tasks)} tasks:\")\n",
-    "for i, task in enumerate(tasks):\n",
-    "    print(f\"  {i}. {task.metadata['task_id']}: {task.metadata['description']}\")"
-   ]
+   "source": "# Reload all 5 tasks for the benchmark\ntasks, agent_configs = load_benchmark_data(\n    config_type=\"multi\",\n    framework=\"smolagents\",\n    model_id=\"gemini-2.5-flash\",\n    temperature=0.7,\n    seed=42,\n    # No task_indices = load all tasks\n)\n\nprint(f\"Loaded {len(tasks)} tasks:\")\nfor i, task in enumerate(tasks):\n    print(f\"  {i}. {task.id}: {task.metadata['description']}\")"
   },
   {
    "cell_type": "markdown",
@@ -898,4 +721,4 @@
  },
  "nbformat": 4,
  "nbformat_minor": 5
-}
+}
@@ -873,10 +873,11 @@ def load_benchmark_data(
         task_id = task_dict["metadata"]["task_id"]
         task_dict["environment_data"]["agent_framework"] = framework
 
-        # Create task
+        # Create task with id from metadata
         tasks_data.append(
             Task(
                 query=task_dict["query"],
+                id=task_id,
                 environment_data=task_dict["environment_data"],
                 evaluation_data=task_dict["evaluation_data"],
                 metadata=task_dict["metadata"],
 
@@ -386,19 +386,7 @@
    "id": "f5498a8d",
    "metadata": {},
    "outputs": [],
-   "source": [
-    "# Create a Task instance\n",
-    "task = Task(\n",
-    "    query=task_data[\"query\"],\n",
-    "    environment_data=task_data[\"environment_data\"],\n",
-    "    evaluation_data=task_data[\"evaluation_data\"],\n",
-    "    metadata=task_data[\"metadata\"],\n",
-    ")\n",
-    "\n",
-    "print(f\"Created task: {task.metadata['task_id']}\")\n",
-    "print(f\"Complexity: {task.metadata['complexity']}\")\n",
-    "print(f\"Skills tested: {', '.join(task.metadata['skills_tested'])}\")"
-   ]
+   "source": "# Create a Task instance\ntask = Task(\n    query=task_data[\"query\"],\n    id=task_data[\"metadata\"][\"task_id\"],\n    environment_data=task_data[\"environment_data\"],\n    evaluation_data=task_data[\"evaluation_data\"],\n    metadata=task_data[\"metadata\"],\n)\n\nprint(f\"Created task: {task.id}\")\nprint(f\"Complexity: {task.metadata['complexity']}\")\nprint(f\"Skills tested: {', '.join(task.metadata['skills_tested'])}\")"
   },
   {
    "cell_type": "markdown",
@@ -745,4 +733,4 @@
  },
  "nbformat": 4,
  "nbformat_minor": 5
-}
+}