|
1 | | -% ====================================================================== |
| 1 | +% ====================================================================== |
2 | 2 | % DISSERTAÇÃO EXPANDIDA — OpenCode Ecosystem v4.7 |
3 | 3 | % Cada seção/subseção com 4-6 parágrafos |
4 | 4 | % Formato ABNT — Notas de Rodapé — Citações Reais |
|
74 | 74 |
|
75 | 75 | % ====================================================================== |
76 | 76 | \section{Introdução} |
77 | | -% ====================================================================== |
78 | 77 |
|
79 | | -\subsection{Contexto: A Crise de Avaliação em Inteligência Artificial Científica} |
| 78 | +\subsection{Contexto: A Avaliação de Inteligência Artificial Científica} |
| 79 | + |
| 80 | +A avaliação da capacidade de raciocínio científico em sistemas de inteligência |
| 81 | +artificial (IA) constitui um dos desafios metodológicos mais prementes da |
| 82 | +computação contemporânea. Desde os primeiros sistemas especialistas dos anos |
| 83 | +1980, como o DENDRAL\footnote{Lindsay, R.K. et al. \textit{Applications of |
| 84 | +Artificial Intelligence for Organic Chemistry: The DENDRAL Project}. McGraw-Hill, |
| 85 | +1980. Primeiro sistema de IA aplicado à química orgânica, capaz de inferir |
| 86 | +estruturas moleculares a partir de dados de espectrometria de massa.} para |
| 87 | +elucidação de estruturas químicas, até os modernos LLMs como GPT-4, a questão |
| 88 | +central permanece: como medir, de forma objetiva e reproduzível, a capacidade |
| 89 | +de um sistema computacional de realizar raciocínio científico? |
| 90 | + |
| 91 | +A resposta a esta questão tem implicações profundas. Sem métricas confiáveis, |
| 92 | +não é possível comparar objetivamente sistemas concorrentes, identificar |
| 93 | +lacunas de capacidade, orientar investimentos em pesquisa e desenvolvimento, |
| 94 | +ou — crucialmente — estabelecer confiança para aplicações de alto risco como |
| 95 | +diagnóstico médico, descoberta de fármacos e modelagem climática. |
| 96 | + |
| 97 | +A primeira geração de benchmarks de IA (2015--2020) focou em tarefas de |
| 98 | +domínio único. O SQuAD\footnote{Rajpurkar, P. et al. \textit{SQuAD: 100,000+ |
| 99 | +Questions for Machine Comprehension of Text}. EMNLP, 2016. DOI: |
| 100 | +10.18653/v1/D16-1264. Dataset de compreensão de leitura com 100.000+ perguntas |
| 101 | +sobre artigos da Wikipedia.} avaliou compreensão de texto. O ImageNet\footnote{Deng, J. et al. \textit{ImageNet: A Large-Scale Hierarchical Image Database}. |
| 102 | +CVPR, 2009. DOI: 10.1109/CVPR.2009.5206848. Dataset com 14 milhões de imagens |
| 103 | +em 20.000 categorias, que impulsionou a revolução do deep learning.} avaliou |
| 104 | +visão computacional. O GLUE\footnote{Wang, A. et al. \textit{GLUE: A Multi-Task |
| 105 | +Benchmark and Analysis Platform for Natural Language Understanding}. ICLR, 2019. |
| 106 | +DOI: 10.48550/arXiv.1804.07461. Benchmark com 9 tarefas de compreensão de |
| 107 | +linguagem natural.} avaliou compreensão de linguagem. Nenhum destes, contudo, |
| 108 | +aproximava-se do que se poderia chamar de ``raciocínio científico''. |
| 109 | + |
| 110 | +A segunda geração (2020--2023) começou a endereçar esta lacuna. O MATH\footnote{Hendrycks, D. et al. \textit{Measuring Mathematical Problem Solving With the |
| 111 | +MATH Dataset}. NeurIPS, 2021. DOI: 10.48550/arXiv.2103.03874. Dataset de 12.500 |
| 112 | +problemas de competições matemáticas (AMC, AIME) em 7 áreas e 5 níveis de |
| 113 | +dificuldade, com soluções passo a passo verificáveis.} introduziu problemas |
| 114 | +matemáticos de competição com verificação de resposta. O GSM8K\footnote{Cobbe, |
| 115 | +K. et al. \textit{Training Verifiers to Solve Math Word Problems}. arXiv:2110.14168, |
| 116 | +2021. DOI: 10.48550/arXiv.2110.14168. Dataset de 8.500 problemas aritméticos |
| 117 | +escolares com foco em raciocínio passo a passo (chain-of-thought).} focou em |
| 118 | +raciocínio aritmético multi-etapa. O HumanEval\footnote{Chen, M. et al. |
| 119 | +\textit{Evaluating Large Language Models Trained on Code}. arXiv:2107.03374, |
| 120 | +2021. DOI: 10.48550/arXiv.2107.03374. Benchmark com 164 problemas de programação |
| 121 | +Python, cada um com assinatura de função e testes unitários.} avaliou geração |
| 122 | +de código funcional. |
| 123 | + |
| 124 | +\subsection{Revisão da Literatura: Benchmarks de Raciocínio Científico} |
| 125 | + |
| 126 | +A literatura de avaliação de IA científica revela uma progressão clara, mas |
| 127 | +também lacunas persistentes. O MMLU\footnote{Hendrycks, D. et al. \textit{Measuring |
| 128 | +Massive Multitask Language Understanding}. ICLR, 2021. DOI: |
| 129 | +10.48550/arXiv.2009.03300. Benchmark com 15.908 questões de múltipla escolha |
| 130 | +em 57 áreas de conhecimento, desde direito e medicina até física e matemática.} |
| 131 | +representou um avanço significativo em cobertura, abrangendo 57 áreas de |
| 132 | +conhecimento — a maior amplitude entre benchmarks estabelecidos. Contudo, o |
| 133 | +formato de múltipla escolha limita-se a avaliar conhecimento declarativo, não |
| 134 | +a capacidade de produzir raciocínio original ou verificar afirmações. |
| 135 | + |
| 136 | +O BIG-bench\footnote{Srivastava, A. et al. \textit{Beyond the Imitation Game: |
| 137 | +Quantifying and Extrapolating the Capabilities of Language Models}. arXiv:2206.04615, |
| 138 | +2022. DOI: 10.48550/arXiv.2206.04615. Consórcio com 450+ autores, 204 tarefas |
| 139 | +cobrindo raciocínio, matemática, programação, física e outros domínios.} ampliou |
| 140 | +o escopo para 204 tarefas diversas, incluindo algumas de raciocínio científico, |
| 141 | +mas sem uma estrutura dimensional unificada ou verificação simbólica integrada. |
| 142 | + |
| 143 | +O SciBench\footnote{Wang, X. et al. \textit{SciBench: Evaluating College-Level |
| 144 | +Scientific Problem-Solving Abilities of Large Language Models}. arXiv:2307.10635, |
| 145 | +2023. DOI: 10.48550/arXiv.2307.10635. Benchmark com 695 problemas de livros-texto |
| 146 | +de ciências universitárias em física, química e matemática.} focou especificamente |
| 147 | +em problemas de livros-texto universitários, aproximando-se do conceito de níveis |
| 148 | +de complexidade do CORA-Eval. Entretanto, carece de verificadores simbólicos e |
| 149 | +de uma métrica evolutiva. |
| 150 | + |
| 151 | +Nenhum destes benchmarks aborda três dimensões que consideramos essenciais para |
| 152 | +a avaliação da maturidade científica integrada: (i) a capacidade de verificar |
| 153 | +simbolicamente afirmações usando múltiplos critérios independentes — dimensional, |
| 154 | +algébrico, estatístico, numérico e computacional; (ii) a capacidade de transitar |
| 155 | +entre níveis de complexidade mantendo consistência metodológica; e (iii) a |
| 156 | +capacidade de evoluir autonomamente, aprendendo com padrões de erro e aprimorando-se |
| 157 | +iterativamente. O CORA-Eval foi projetado especificamente para preencher estas |
| 158 | +lacunas. |
| 159 | + |
| 160 | +\subsection{A Primeira Década da IA Científica (2015--2025)} |
| 161 | + |
| 162 | +A primeira década da inteligência artificial contemporânea testemunhou avanços |
| 163 | +extraordinários. O GPT-4\footnote{OpenAI. \textit{GPT-4 Technical Report}. |
| 164 | +arXiv:2303.08774, 2023. DOI: 10.48550/arXiv.2303.08774. Demonstra proficiência |
| 165 | +em exames como o Uniform Bar Exam (90º percentil), Biology Olympiad (99º |
| 166 | +percentil) e GRE Quantitative (80º percentil).} demonstrou desempenho notável. |
| 167 | +O AlphaFold\footnote{Jumper, J. et al. \textit{Highly Accurate Protein Structure |
| 168 | +Prediction with AlphaFold}. Nature, 596:583--589, 2021. DOI: |
| 169 | +10.1038/s41586-021-03819-2. Resolveu o problema de enovelamento proteico que |
| 170 | +desafiava a biologia estrutural há 50 anos, com precisão atômica (RMSD $<1$Å).} |
| 171 | +resolveu o enovelamento proteico. O FunSearch\footnote{Romera-Paredes, B. et |
| 172 | +al. \textit{Mathematical Discoveries from Program Search with Large Language |
| 173 | +Models}. Nature, 625:468--475, 2024. DOI: 10.1038/s41586-023-06924-6. Gerou |
| 174 | +descobertas matemáticas originais — novas construções para o problema do |
| 175 | +conjunto-cap — e as publicou na Nature, um marco histórico para IA em matemática.} |
| 176 | +produziu descobertas matemáticas originais publicadas na Nature. |
| 177 | + |
| 178 | +Paralelamente, sistemas especializados em domínios científicos específicos |
| 179 | +proliferaram. O AlphaGeometry\footnote{Trinh, T.H. et al. \textit{Solving |
| 180 | +Olympiad Geometry Without Human Demonstrations}. Nature, 625:476--482, 2024. |
| 181 | +DOI: 10.1038/s41586-023-06747-5. Resolveu 25 de 30 problemas de geometria da |
| 182 | +Olimpíada Internacional de Matemática, desempenho de medalhista de ouro, |
| 183 | +usando combinação de motor neuro-simbólico com busca.} resolveu problemas de |
| 184 | +geometria olímpica. O GraphCast\footnote{Lam, R. et al. \textit{Learning |
| 185 | +Skillful Medium-Range Global Weather Forecasting}. Science, 382:1416--1421, |
| 186 | +2023. DOI: 10.1126/science.adi2336. Previsão meteorológica global de médio |
| 187 | +prazo (10 dias) superando o ECMWF HRES, o padrão-ouro operacional, em 90\% |
| 188 | +dos alvos de verificação.} superou modelos de previsão meteorológica. O |
| 189 | +GNoME\footnote{Merchant, A. et al. \textit{Scaling Deep Learning for Materials |
| 190 | +Discovery}. Nature, 624:80--90, 2023. DOI: 10.1038/s41586-023-06735-9. Descobriu |
| 191 | +2,2 milhões de novos cristais estáveis, o equivalente a 800 anos de conhecimento |
| 192 | +acumulado, dos quais 380.000 são candidatos a materiais estáveis.} descobriu |
| 193 | +milhões de novos materiais. |
| 194 | + |
| 195 | +Esta proliferação de sistemas especializados torna ainda mais urgente a |
| 196 | +necessidade de um framework de avaliação unificado. Como comparar o desempenho |
| 197 | +do AlphaFold em biologia estrutural com o do GraphCast em meteorologia? Como |
| 198 | +avaliar se um sistema que se destaca em matemática (AlphaGeometry) possui |
| 199 | +capacidade análoga em física ou química? O CORA-Eval propõe-se a responder |
| 200 | +estas questões através de uma métrica comum — o CORA-Score — que permite |
| 201 | +comparar a maturidade científica de qualquer sistema, independentemente de |
| 202 | +seu domínio de especialização. |
| 203 | + |
| 204 | +\subsection{O Problema da Fragmentação de Benchmarks} |
| 205 | + |
| 206 | +A fragmentação de benchmarks de IA científica não é meramente um incômodo |
| 207 | +metodológico — é um obstáculo real ao progresso científico. Sem uma métrica |
| 208 | +comum, cada laboratório e cada empresa avalia seus sistemas em benchmarks |
| 209 | +diferentes, impossibilitando comparações objetivas. Esta situação é análoga |
| 210 | +à que existia na Física antes da padronização do Sistema Internacional de |
| 211 | +Unidades (SI) — múltiplos padrões incompatíveis que impediam a replicação |
| 212 | +e a comparação de resultados experimentais. |
| 213 | + |
| 214 | +O cientista e metrologista John Henry Poynting observou, em 1894, que ``a |
| 215 | +precisão de uma medição é limitada pela pior das grandezas envolvidas''. |
| 216 | +Parafraseando para a avaliação de IA: a qualidade de uma avaliação é limitada |
| 217 | +pelo pior dos benchmarks utilizados. Enquanto cada dimensão da capacidade |
| 218 | +científica for avaliada por um benchmark diferente, sem calibração cruzada, |
| 219 | +a avaliação agregada será tão frágil quanto seu elo mais fraco. |
| 220 | + |
| 221 | +A adoção do Sistema Internacional de Unidades levou décadas, mas transformou |
| 222 | +a Física de uma coleção de laboratórios com padrões incompatíveis em uma |
| 223 | +ciência global com resultados reproduzíveis e comparáveis. O CORA-Eval aspira |
| 224 | +a desempenhar papel análogo para a avaliação de IA científica: estabelecer |
| 225 | +um padrão comum, multidimensional e evolutivo que permita comparações |
| 226 | +objetivas entre sistemas e o rastreamento do progresso ao longo do tempo. |
80 | 227 |
|
81 | | -A primeira década da inteligência artificial contemporânea (2015--2025) |
| 228 | +\subsection{O Ecossistema OpenCode} |
| 229 | + |
| 230 | +O OpenCode Ecosystem\footnote{Claro, M. \textit{OpenCode Ecosystem v4.7: |
| 231 | +Arquitetura Multiagente Evolutiva}. GitHub, 2026. DOI: |
| 232 | +10.5281/zenodo.OPENCODE-V4.7.} surge como resposta a esta lacuna. Trata-se de |
| 233 | +uma arquitetura multiagente evolutiva que integra 125 agentes especializados, |
| 234 | +106 skills, 41 servidores MCP e 212 tipos de raciocínio. |
82 | 235 | testemunhou avanços extraordinários na capacidade de modelos de linguagem |
83 | 236 | de grande escala (LLMs) em tarefas científicas. O GPT-4\footnote{OpenAI. |
84 | 237 | \textit{GPT-4 Technical Report}. arXiv:2303.08774, 2023. DOI: |
@@ -376,6 +529,10 @@ \subsection{O Cálculo do CORA-Score} |
376 | 529 | a ser aquelas com maior cobertura de verificadores — evidência de que a |
377 | 530 | verificação simbólica efetivamente discrimina qualidade. |
378 | 531 |
|
| 532 | +\subsection{Calibração dos Níveis e Fontes de Ground Truth} |
| 533 | + |
| 534 | +\input{dissertacao_exp_metodologia.tex} |
| 535 | + |
379 | 536 | \subsection{Pipeline de Avaliação e Fontes de Ground Truth} |
380 | 537 |
|
381 | 538 | Cada uma das 150 tarefas do CORA-Eval percorre um pipeline de 5 estágios: |
@@ -688,6 +845,8 @@ \subsection{Trabalhos Futuros} |
688 | 845 | Completar M4 (3,00), estender validação externa para D2--D10, integrar ao |
689 | 846 | CI/CD, e expandir para ciências humanas constituem a agenda imediata. |
690 | 847 |
|
| 848 | +\input{dissertacao_exp_restante.tex} |
| 849 | + |
691 | 850 | \vspace{12pt}\begin{center}\rule{0.4\textwidth}{0.4pt}\\[6pt] |
692 | 851 | \textit{Repositório:} \url{https://github.com/MarceloClaro/OpenCode\_Ecosystem} |
693 | 852 | \end{center} |
@@ -840,7 +999,7 @@ \subsection{A.4 — D4--D10: Tarefas por Dimensão} |
840 | 999 | D10 & N1 & Intersecção física+química, fotossíntese multi-domínio & V1-V5 & 2/2 \\ |
841 | 1000 | D10 & N2 & Hodgkin-Huxley, mudança climática 3+disc, Arrhenius & V1,V6,V5 & 3/3 \\ |
842 | 1001 | D10 & N3 & Feedback vegetação-clima, origem da vida, band gap & V1,V6,V7 & 3/3 \\ |
843 | | -D10 & N4 & Nelson derivadas (linear+quadrático), curvatura R=0/R≠0 & V1-V7 & 2/3 \\ |
| 1002 | +D10 & N4 & Nelson derivadas (linear+quadrático), curvatura R=0/R$\neq$0 & V1-V7 & 2/3 \\ |
844 | 1003 | \midrule |
845 | 1004 | \multicolumn{5}{r}{\textbf{Total: 150 tarefas, $\approx$105/150 aprovadas (70\%)}} \\ |
846 | 1005 | \bottomrule |
@@ -885,7 +1044,7 @@ \subsection{B.2 — Suítes TDD Documentadas} |
885 | 1044 | \texttt{test\_d7\_codigo} & 7/7 & GREEN & V7a syntax, V7b idempotência, V7c tipos, V7d O(n), V7e security, V7f coverage \\ |
886 | 1045 | \texttt{test\_d8\_literatura} & 12/12 & GREEN & Claims (4), citações (4), classificação (4) \\ |
887 | 1046 | \texttt{test\_d8\_n2\_gat\_biblio} & 6/6 & GREEN & Extração 30 refs, 12 áreas, tabela 8, lacuna, consistência, cobertura 100\% \\ |
888 | | -\texttt{test\_d10\_gat} & 10/10 & GREEN & Nelson linear/quad, curvatura R=0/≠0, conexão, transporte, holonomia, div J \\ |
| 1047 | +\texttt{test\_d10\_gat} & 10/10 & GREEN & Nelson linear/quad, curvatura R=0/$\neq$0, conexão, transporte, holonomia, div J \\ |
889 | 1048 | \texttt{test\_validacao\_externa} & 12/12 & GREEN & PE001-016 (7), ROS-DNA/RNA/REVC/GC/PROT (5) \\ |
890 | 1049 | \texttt{test\_evolucao\_m4} & 6/7 & 85,7\% & N-corpos conservação/reversível, EM K=2/ELBO, EBM 1D, Hoare, pH \\ |
891 | 1050 | \midrule |
@@ -1046,11 +1205,13 @@ \subsection{D.4 — Marcos de Maturidade} |
1046 | 1205 | \toprule |
1047 | 1206 | \textbf{Marco} & \textbf{Score} & \textbf{Status} & \textbf{Data} & \textbf{Dimensões em N4} \\ |
1048 | 1207 | \midrule |
1049 | | -M1 — Fundação & 0,90 & ✅ & 28/05 & 0 \\ |
1050 | | -M2 — Graduação & 1,90 & ✅ & 28/05 & 0 \\ |
1051 | | -M3 — Especialização & 2,52 & ✅ & 28/05 & 2 (D1,D10) \\ |
1052 | | -M4 — Pesquisa & 3,00 & 🔄 (-0,01) & — & 5 (D1,D2,D3,D7,D10) \\ |
1053 | | -M5 — Fronteira & 4,00 & ⬜ & — & 10 (todas) \\ |
| 1208 | +\textbf{Status} & \textbf{Data} & \textbf{Dimensões em N4} \\ |
| 1209 | +\midrule |
| 1210 | +M1 --- Fundação & 0,90 & OK & 28/05 & 0 \\ |
| 1211 | +M2 --- Graduação & 1,90 & OK & 28/05 & 0 \\ |
| 1212 | +M3 --- Especialização & 2,52 & OK & 28/05 & 2 (D1,D10) \\ |
| 1213 | +M4 --- Pesquisa & 3,00 & (-0,01) & --- & 5 (D1,D2,D3,D7,D10) \\ |
| 1214 | +M5 --- Fronteira & 4,00 & Pendente & --- & 10 (todas) \\ |
1054 | 1215 | \bottomrule |
1055 | 1216 | \end{tabular} |
1056 | 1217 | \end{table} |
|
0 commit comments