fix: add back 12 papers incorrectly filtered during migration

Zhaoyang-Chu · Zhaoyang-Chu · commit 5fe0bede896c · 2026-05-30T13:43:16.000Z
Classifier was too strict — surveys, empirical studies, and position
papers ABOUT code agents are also in scope.

Updated classifier prompt to include:
- Papers that survey/review/empirically evaluate code/CLI agents
- Papers studying impact or behaviour of AI coding tools

Manually classified and added 12 papers:
- 5x issue_resolution (surveys + empirical)
- 3x code_generation (empirical)
- 1x foundation_models (general LLM agent survey)
- 1x terminal (OS agents survey)
- 1x qa (empirical)
- 1x issue_resolution (position)
diff --git a/automation/classifier/llm.py b/automation/classifier/llm.py
@@ -84,9 +84,11 @@ def _build_user_prompt(
 - The primary contribution is a general NLP/ML method that happens to be evaluated
   on a code dataset, but the method itself is not about code-executing agents.
 
-Mark relevant=true if the agent uses code execution or CLI as a primary action,
-regardless of the end task (software engineering, data analysis, science, games,
-embodied control via code, web tasks via code, etc.).
+Mark relevant=true if ANY of the following:
+- The agent uses code execution or CLI as a primary action (regardless of end task).
+- The paper surveys, systematically reviews, or empirically evaluates code/CLI agents.
+- The paper proposes a benchmark or dataset for evaluating code/CLI agents.
+- The paper studies the impact, behaviour, or limitations of AI coding tools/agents.
 
 Other rules:
 - Choose the SINGLE most specific functional category (e.g. code_generation,
diff --git a/data/papers_code_generation.yaml b/data/papers_code_generation.yaml
@@ -1,3 +1,40 @@
+- title: Is Multi-Agent Debate (MAD) the Silver Bullet? An Empirical Analysis of MAD in Code Summarization and Translation
+  authors: Jina Chun, Qihong Chen, Jiawei Li, Iftekhar Ahmed
+  venue: arXiv 2025
+  tags:
+  - empirical
+  links:
+    paper: https://arxiv.org/abs/2503.12029
+    github: ''
+    website: ''
+- title: Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity
+  authors: Joel Becker, Nate Rush, Elizabeth Barnes, David Rein
+  venue: arXiv 2025
+  tags:
+  - empirical
+  links:
+    paper: https://arxiv.org/abs/2507.09089
+    github: ''
+    website: ''
+- title: Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows
+  authors: Valerie Chen, Ameet Talwalkar, Robert Brennan, Graham Neubig
+  venue: arXiv 2025
+  tags:
+  - empirical
+  links:
+    paper: https://arxiv.org/abs/2507.08149
+    github: ''
+    website: ''
+- title: Assessing and Advancing Benchmarks for Evaluating Large Language Models in Software Engineering Tasks
+  authors: Xing Hu, Feifei Niu, Junkai Chen, Xin Zhou, Junwei Zhang, Junda He, Xin Xia, David Lo
+  venue: arXiv 2025
+  tags:
+  - survey
+  - empirical
+  links:
+    paper: https://arxiv.org/abs/2505.08903
+    github: ''
+    website: ''
 - title: 'Vibe Checker: Aligning Code Evaluation with Human Preference'
   authors: Ming Zhong, Xiang Zhou, Ting-Yun Chang, Qingze Wang, Nan Xu, Xiance Si, Dan Garrette, Shyam Upadhyay, Jeremiah
     Liu, Jiawei Han, Benoit Schillings, Jiao Sun
diff --git a/data/papers_foundation_models.yaml b/data/papers_foundation_models.yaml
@@ -1,39 +1,55 @@
-- title: "CWM: An Open-Weights LLM for Research on Code Generation with World Models"
-  authors: "FAIR CodeGen team, Jade Copet, Quentin Carbonneaux, Gal Cohen, Jonas Gehring, Jacob Kahn, Jannik Kossen, Felix Kreuk, Emily McMilin, Michel Meyer, Yuxiang Wei, David Zhang, Kunhao Zheng, Jordi Armengol-Estapé, Pedram Bashiri, Maximilian Beck, Pierre Chambon, Abhishek Charnalia, Chris Cummins, Juliette Decugis, Zacharias V. Fisches, François Fleuret, Fabian Gloeckle, Alex Gu, Michael Hassid, Daniel Haziza, Badr Youbi Idrissi, Christian Keller, Rahul Kindi, Hugh Leather, Gallil Maimon, Aram Markosyan, Francisco Massa, Pierre-Emmanuel Mazaré, Vegard Mella, Naila Murray, Keyur Muzumdar, Peter O'Hearn, Matteo Pagliardini, Dmitrii Pedchenko, Tal Remez, Volker Seeker, Marco Selvi, Oren Sultan, Sida Wang, Luca Wehrstedt, Ori Yoran, Lingming Zhang, Taco Cohen, Yossi Adi, Gabriel Synnaeve"
-  venue: "arXiv 2025/09"
+- title: 'Large Language Model Agent: A Survey on Methodology, Applications and Challenges'
+  authors: Junyu Luo, Weizhi Zhang, Ye Yuan, Yusheng Zhao, Junwei Yang, Yiyang Gu, Bohan Wu, Binqi Chen, Ziyue Qiao, Qingqing
+    Long, Rongcheng Tu, Xiao Luo, Wei Ju, Zhiping Xiao, Yifan Wang, Meng Xiao, Chenwu Liu, Jingyang Yuan, Shichang Zhang,
+    Yiqiao Jin, Fan Zhang, Xian Wu, Hanqing Zhao, Dacheng Tao, Philip S. Yu, Ming Zhang
+  venue: arXiv 2025
+  tags:
+  - survey
   links:
-    paper: "https://arxiv.org/abs/2510.02387"
-    github: "https://github.com/facebookresearch/cwm"
-    website: ""
-
-- title: "Introducing: Devstral 2 and Mistral Vibe CLI"
-  authors: "Mistral"
-  venue: "2025/12"
+    paper: https://arxiv.org/abs/2503.21460
+    github: https://github.com/luo-junyu/Awesome-Agent-Papers
+    website: ''
+- title: 'CWM: An Open-Weights LLM for Research on Code Generation with World Models'
+  authors: FAIR CodeGen team, Jade Copet, Quentin Carbonneaux, Gal Cohen, Jonas Gehring, Jacob Kahn, Jannik Kossen, Felix
+    Kreuk, Emily McMilin, Michel Meyer, Yuxiang Wei, David Zhang, Kunhao Zheng, Jordi Armengol-Estapé, Pedram Bashiri, Maximilian
+    Beck, Pierre Chambon, Abhishek Charnalia, Chris Cummins, Juliette Decugis, Zacharias V. Fisches, François Fleuret, Fabian
+    Gloeckle, Alex Gu, Michael Hassid, Daniel Haziza, Badr Youbi Idrissi, Christian Keller, Rahul Kindi, Hugh Leather, Gallil
+    Maimon, Aram Markosyan, Francisco Massa, Pierre-Emmanuel Mazaré, Vegard Mella, Naila Murray, Keyur Muzumdar, Peter O'Hearn,
+    Matteo Pagliardini, Dmitrii Pedchenko, Tal Remez, Volker Seeker, Marco Selvi, Oren Sultan, Sida Wang, Luca Wehrstedt,
+    Ori Yoran, Lingming Zhang, Taco Cohen, Yossi Adi, Gabriel Synnaeve
+  venue: arXiv 2025/09
   links:
-    paper: "https://mistral.ai/news/devstral-2-vibe-cli"
-    github: ""
-    website: ""
-
-# - title: "Devstral: Fine-tuning Language Models for Coding Agent Applications"
-#   authors: "Abhinav Rastogi, Adam Yang, Albert Q. Jiang, Alexander H. Liu, Alexandre Sablayrolles, Amélie Héliou, Amélie Martin, Anmol Agarwal, Andy Ehrenberg, Andy Lo, Antoine Roux, Arthur Darcet, Arthur Mensch, Baptiste Bout, Baptiste Rozière, Baudouin De Monicault, Chris Bamford, Christian Wallenwein, Christophe Renaudin, Clémence Lanfranchi, Clément Denoix, Corentin Barreau, Darius Dabert, Devon Mizelle, Diego de las Casas, Elliot Chane-Sane, Emilien Fugier, Emma Bou Hanna, Gabrielle Berrada, Gauthier Delerce, Gauthier Guinet, Georgii Novikov, Graham Neubig, Guillaume Lample, Guillaume Martin, Himanshu Jaju, Jan Ludziejewski, Jason Rute, Jean-Malo Delignon, Jean-Hadrien Chabran, Joachim Studnia, Joep Barmentlo, Jonas Amar, Josselin Somerville Roberts, Julien Denize, Karan Saxena, Karmesh Yadav, Kartik Khandelwal, Khyathi Raghavi Chandu, Kush Jain, Lélio Renard Lavaud, Léonard Blier, Lingxiao Zhao, Louis Martin, Lucile Saulnier, Luyu Gao, Marie Pellat, Mathilde Guillaumin, Mathis Felardos, Matthieu Dinot, Maxime Darrin, Maximilian Augustin, Mickaël Seznec, Neha Gupta, Nikhil Raghuraman, Olivier Duchenne, Patricia Wang, Patrick von Platen, Patryk Saffer, Paul Jacob, Paul Wambergue, Paula Kurylowicz, Philomène Chagniot, Pierre Stock, Pravesh Agrawal, Rémi Delacourt, Roman Soletskyi, Romain Sauvestre, Sagar Vaze, Sanchit Gandhi, Sandeep Subramanian, Shashwat Dalal, Soham Ghosh, Srijan Mishra, Sumukh Aithal, Szymon Antoniak, Teven Le Scao, Thibaut Lavril, Thibault Schueller, Thomas Foubert, Thomas Robert, Thomas Wang, Timothée Lacroix, Tom Bewley, Valeriia Nemychnikova, Victor Paltz, Virgile Richard, Wen-Ding Li, William Marshall, Xuanyu Zhang, Yihan Wan, Yunhao Tang"
-#   venue: "arXiv 2025/09"
-#   links:
-#     paper: "https://arxiv.org/abs/2509.25193"
-#     github: ""
-#     website: ""
-
-- title: "Qwen3-Coder: Agentic Coding in the World"
-  authors: "QwenTeam"
-  venue: "2025/07"
+    paper: https://arxiv.org/abs/2510.02387
+    github: https://github.com/facebookresearch/cwm
+    website: ''
+- title: 'Introducing: Devstral 2 and Mistral Vibe CLI'
+  authors: Mistral
+  venue: 2025/12
   links:
-    paper: "https://qwen.ai/blog?id=qwen3-coder"
-    github: "https://github.com/QwenLM/Qwen3-Coder"
-    website: ""
-
-- title: "Kimi K2: Open Agentic Intelligence"
-  authors: "Kimi Team: Yifan Bai, Yiping Bao, Guanduo Chen, Jiahao Chen, Ningxin Chen, Ruijue Chen, Yanru Chen, Yuankun Chen, Yutian Chen, Zhuofu Chen, Jialei Cui, Hao Ding, Mengnan Dong, Angang Du, Chenzhuang Du, Dikang Du, Yulun Du, Yu Fan, Yichen Feng, Kelin Fu, Bofei Gao, Hongcheng Gao, Peizhong Gao, Tong Gao, Xinran Gu, Longyu Guan, Haiqing Guo, Jianhang Guo, Hao Hu, Xiaoru Hao, Tianhong He, Weiran He, Wenyang He, Chao Hong, Yangyang Hu, Zhenxing Hu, Weixiao Huang, Zhiqi Huang, Zihao Huang, Tao Jiang, Zhejun Jiang, Xinyi Jin, Yongsheng Kang, Guokun Lai, Cheng Li, Fang Li, Haoyang Li, Ming Li, Wentao Li, Yanhao Li, Yiwei Li, Zhaowei Li, Zheming Li, Hongzhan Lin, Xiaohan Lin, Zongyu Lin, Chengyin Liu, Chenyu Liu, Hongzhang Liu, Jingyuan Liu, Junqi Liu, Liang Liu, Shaowei Liu, T.Y. Liu, Tianwei Liu, Weizhou Liu, Yangyang Liu, Yibo Liu, Yiping Liu, Yue Liu, Zhengying Liu, Enzhe Lu, Lijun Lu, Shengling Ma, Xinyu Ma, Yingwei Ma, Shaoguang Mao, Jie Mei, Xin Men, Yibo Miao, Siyuan Pan, Yebo Peng, Ruoyu Qin, Bowen Qu, Zeyu Shang, Lidong Shi, Shengyuan Shi, Feifan Song, Jianlin Su, Zhengyuan Su, Xinjie Sun, Flood Sung, Heyi Tang, Jiawen Tao, Qifeng Teng, Chensi Wang, Dinglu Wang, Feng Wang, Haiming Wang et al."
-  venue: "arXiv 2025/07"
+    paper: https://mistral.ai/news/devstral-2-vibe-cli
+    github: ''
+    website: ''
+- title: 'Qwen3-Coder: Agentic Coding in the World'
+  authors: QwenTeam
+  venue: 2025/07
   links:
-    paper: "https://arxiv.org/abs/2507.20534"
-    github: ""
-    website: ""
+    paper: https://qwen.ai/blog?id=qwen3-coder
+    github: https://github.com/QwenLM/Qwen3-Coder
+    website: ''
+- title: 'Kimi K2: Open Agentic Intelligence'
+  authors: 'Kimi Team: Yifan Bai, Yiping Bao, Guanduo Chen, Jiahao Chen, Ningxin Chen, Ruijue Chen, Yanru Chen, Yuankun Chen,
+    Yutian Chen, Zhuofu Chen, Jialei Cui, Hao Ding, Mengnan Dong, Angang Du, Chenzhuang Du, Dikang Du, Yulun Du, Yu Fan, Yichen
+    Feng, Kelin Fu, Bofei Gao, Hongcheng Gao, Peizhong Gao, Tong Gao, Xinran Gu, Longyu Guan, Haiqing Guo, Jianhang Guo, Hao
+    Hu, Xiaoru Hao, Tianhong He, Weiran He, Wenyang He, Chao Hong, Yangyang Hu, Zhenxing Hu, Weixiao Huang, Zhiqi Huang, Zihao
+    Huang, Tao Jiang, Zhejun Jiang, Xinyi Jin, Yongsheng Kang, Guokun Lai, Cheng Li, Fang Li, Haoyang Li, Ming Li, Wentao
+    Li, Yanhao Li, Yiwei Li, Zhaowei Li, Zheming Li, Hongzhan Lin, Xiaohan Lin, Zongyu Lin, Chengyin Liu, Chenyu Liu, Hongzhang
+    Liu, Jingyuan Liu, Junqi Liu, Liang Liu, Shaowei Liu, T.Y. Liu, Tianwei Liu, Weizhou Liu, Yangyang Liu, Yibo Liu, Yiping
+    Liu, Yue Liu, Zhengying Liu, Enzhe Lu, Lijun Lu, Shengling Ma, Xinyu Ma, Yingwei Ma, Shaoguang Mao, Jie Mei, Xin Men,
+    Yibo Miao, Siyuan Pan, Yebo Peng, Ruoyu Qin, Bowen Qu, Zeyu Shang, Lidong Shi, Shengyuan Shi, Feifan Song, Jianlin Su,
+    Zhengyuan Su, Xinjie Sun, Flood Sung, Heyi Tang, Jiawen Tao, Qifeng Teng, Chensi Wang, Dinglu Wang, Feng Wang, Haiming
+    Wang et al.'
+  venue: arXiv 2025/07
+  links:
+    paper: https://arxiv.org/abs/2507.20534
+    github: ''
+    website: ''
diff --git a/data/papers_issue_resolution.yaml b/data/papers_issue_resolution.yaml
@@ -1,3 +1,60 @@
+- title: 'Position: Future Research and Challenges Remain Towards AI for Software Engineering'
+  authors: Alex Gu, Naman Jain, Wen-Ding Li, Manish Shetty, Kevin Ellis, Koushik Sen, Armando Solar-Lezama
+  venue: ICML 2025 Position Paper Track
+  tags:
+  - position
+  links:
+    paper: https://openreview.net/forum?id=RuLsq4LSZK
+    github: ''
+    website: ''
+- title: How can we assess human-agent interactions? Case studies in software agent design
+  authors: Valerie Chen, Rohit Malhotra, Xingyao Wang, Juan Michelini, Xuhui Zhou, Aditya Bharat Soni, Hoang H. Tran, Calvin
+    Smith, Ameet Talwalkar, Graham Neubig
+  venue: arXiv 2025
+  tags:
+  - empirical
+  links:
+    paper: https://arxiv.org/abs/2510.09801
+    github: ''
+    website: ''
+- title: Assessing and Advancing Benchmarks for Evaluating Large Language Models in Software Engineering Tasks
+  authors: Xing Hu, Feifei Niu, Junkai Chen, Xin Zhou, Junwei Zhang, Junda He, Xin Xia, David Lo
+  venue: arXiv 2025
+  tags:
+  - benchmark
+  - empirical
+  links:
+    paper: https://arxiv.org/abs/2505.08903
+    github: ''
+    website: ''
+- title: A Comprehensive Empirical Evaluation of Agent Frameworks on Code-centric Software Engineering Tasks
+  authors: Zhuowen Yin, Cuifeng Gao, Chunsong Fan, Wenzhang Yang, Yinxing Xue, Lijun Zhang
+  venue: arXiv 2025
+  tags:
+  - empirical
+  links:
+    paper: https://arxiv.org/abs/2511.00872
+    github: ''
+    website: ''
+- title: 'Large Language Model-Based Agents for Software Engineering: A Survey'
+  authors: Junwei Liu, Kaixin Wang, Yixuan Chen, Xin Peng, Zhenpeng Chen, Lingming Zhang, Yiling Lou
+  venue: arXiv 2024
+  tags:
+  - survey
+  links:
+    paper: https://arxiv.org/abs/2409.02977
+    github: ''
+    website: ''
+- title: A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System
+  authors: Jiale Guo, Suizhi Huang, Mei Li, Dong Huang, Xingsheng Chen, Regina Zhang, Zhijiang Guo, Han Yu, Siu-Ming Yiu,
+    Christian Jensen, Pietro Lio, Kwok-Yan Lam
+  venue: arXiv 2025
+  tags:
+  - survey
+  links:
+    paper: https://arxiv.org/abs/2510.09721
+    github: https://github.com/lisaGuojl/LLM-Agent-SE-Survey
+    website: ''
 - title: 'Agents in software engineering: survey, landscape, and vision'
   authors: Yanlin Wang, Wanjun Zhong, Yanxian Huang, Ensheng Shi, Min Yang, Jiachi Chen, Hui Li, Yuchi Ma, Qianxiang Wang,
     Zibin Zheng
diff --git a/data/papers_qa.yaml b/data/papers_qa.yaml
@@ -1,31 +1,30 @@
-# - title: "Uncovering Code Insights: Leveraging GitHub Artifacts for Deeper Code Understanding"
-#   authors: "Ziv Nevo, Orna Raz, Karen Yorav"
-#   venue: "AISM 2025"
-#   links:
-#     paper: "https://arxiv.org/abs/2511.03549"
-#     github: ""
-#     website: ""
-
-- title: "SWE-QA: Can Language Models Answer Repository-level Code Questions?"
-  authors: "Weihan Peng, Yuling Shi, Yuhang Wang, Xinyun Zhang, Beijun Shen, Xiaodong Gu"
-  venue: "arXiv 2025"
+- title: Can LLMs Replace Manual Annotation of Software Engineering Artifacts?
+  authors: Toufique Ahmed, Premkumar Devanbu, Christoph Treude, Michael Pradel
+  venue: MSR 2025
+  tags:
+  - empirical
   links:
-    paper: "https://arxiv.org/abs/2509.14635"
-    github: "https://github.com/peng-weihan/SWE-QA-Bench"
-    website: ""
-
-- title: "Benchmarking Long-Context Language Models on Long Code Understanding"
-  authors: "Jia Li, Xuyuan Guo, Lei Li, Kechi Zhang, Ge Li, Jia Li, Zhengwei Tao, Fang Liu, Chongyang Tao, Yuqi Zhu, Zhi Jin"
-  venue: "ACL 2025"
+    paper: https://ieeexplore.ieee.org/document/11025652
+    github: ''
+    website: ''
+- title: 'SWE-QA: Can Language Models Answer Repository-level Code Questions?'
+  authors: Weihan Peng, Yuling Shi, Yuhang Wang, Xinyun Zhang, Beijun Shen, Xiaodong Gu
+  venue: arXiv 2025
   links:
-    paper: "https://aclanthology.org/2025.acl-long.1324/"
-    github: ""
-    website: ""
-
-- title: "On Improving Repository-Level Code QA for Large Language Models"
-  authors: "Jan Strich, Florian Schneider, Irina Nikishina, Chris Biemann"
-  venue: "ACL 2024 Workshop"
+    paper: https://arxiv.org/abs/2509.14635
+    github: https://github.com/peng-weihan/SWE-QA-Bench
+    website: ''
+- title: Benchmarking Long-Context Language Models on Long Code Understanding
+  authors: Jia Li, Xuyuan Guo, Lei Li, Kechi Zhang, Ge Li, Jia Li, Zhengwei Tao, Fang Liu, Chongyang Tao, Yuqi Zhu, Zhi Jin
+  venue: ACL 2025
   links:
-    paper: "https://aclanthology.org/2024.acl-srw.28/"
-    github: ""
-    website: ""
+    paper: https://aclanthology.org/2025.acl-long.1324/
+    github: ''
+    website: ''
+- title: On Improving Repository-Level Code QA for Large Language Models
+  authors: Jan Strich, Florian Schneider, Irina Nikishina, Chris Biemann
+  venue: ACL 2024 Workshop
+  links:
+    paper: https://aclanthology.org/2024.acl-srw.28/
+    github: ''
+    website: ''
diff --git a/data/papers_system_engineering.yaml b/data/papers_system_engineering.yaml
@@ -0,0 +1,12 @@
+- title: 'OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use'
+  authors: Xueyu Hu, Tao Xiong, Biao Yi, Zishu Wei, Ruixuan Xiao, Yurun Chen, Jiasheng Ye, Meiling Tao, Xiangxin Zhou, Ziyu
+    Zhao, Yuhuai Li, Shengze Xu, Shenzhi Wang, Xinchen Xu, Shuofei Qiao, Zhaokai Wang, Kun Kuang, Tieyong Zeng, Liang Wang,
+    Jiwei Li, Yuchen Eleanor Jiang, Wangchunshu Zhou, Guoyin Wang, Keting Yin, Zhou Zhao, Hongxia Yang, Fan Wu, Shengyu Zhang,
+    Fei Wu
+  venue: ACL 2025
+  tags:
+  - survey
+  links:
+    paper: https://arxiv.org/abs/2508.04482
+    github: https://github.com/OS-Agent-Survey/OS-Agent-Survey
+    website: ''
diff --git a/data/papers_terminal.yaml b/data/papers_terminal.yaml
@@ -1,3 +1,15 @@
+- title: 'OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use'
+  authors: Xueyu Hu, Tao Xiong, Biao Yi, Zishu Wei, Ruixuan Xiao, Yurun Chen, Jiasheng Ye, Meiling Tao, Xiangxin Zhou, Ziyu
+    Zhao, Yuhuai Li, Shengze Xu, Shenzhi Wang, Xinchen Xu, Shuofei Qiao, Zhaokai Wang, Kun Kuang, Tieyong Zeng, Liang Wang,
+    Jiwei Li, Yuchen Eleanor Jiang, Wangchunshu Zhou, Guoyin Wang, Keting Yin, Zhou Zhao, Hongxia Yang, Fan Wu, Shengyu Zhang,
+    Fei Wu
+  venue: ACL 2025
+  tags:
+  - survey
+  links:
+    paper: https://arxiv.org/abs/2508.04482
+    github: https://github.com/OS-Agent-Survey/OS-Agent-Survey
+    website: ''
 - title: 'Terminal-Bench: A Benchmark for AI Agents in Terminal Environments'
   authors: The Terminal-Bench Team
   venue: '2025'