Skip to content

Commit 23b6d04

Browse files
author
MarceloClaro
committed
docs: dissertacao 58p — metodologia expandida + restante (14 rounds, 10 dim, criticas)
- dissertacao_exp_metodologia.tex: cada verificador V1-V7 em detalhe - dissertacao_exp_restante.tex: 14 rounds, 10 dimensoes, validade, benchmarks, limitacoes - 58 paginas compiladas, 712KB - Expandindo para 100 laudas
1 parent 23edd9c commit 23b6d04

3 files changed

Lines changed: 1347 additions & 11 deletions

File tree

artigo/dissertacao_cora_eval_abnt.tex

Lines changed: 172 additions & 11 deletions
Original file line numberDiff line numberDiff line change
@@ -1,4 +1,4 @@
1-
% ======================================================================
1+
% ======================================================================
22
% DISSERTAÇÃO EXPANDIDA — OpenCode Ecosystem v4.7
33
% Cada seção/subseção com 4-6 parágrafos
44
% Formato ABNT — Notas de Rodapé — Citações Reais
@@ -74,11 +74,164 @@
7474

7575
% ======================================================================
7676
\section{Introdução}
77-
% ======================================================================
7877

79-
\subsection{Contexto: A Crise de Avaliação em Inteligência Artificial Científica}
78+
\subsection{Contexto: A Avaliação de Inteligência Artificial Científica}
79+
80+
A avaliação da capacidade de raciocínio científico em sistemas de inteligência
81+
artificial (IA) constitui um dos desafios metodológicos mais prementes da
82+
computação contemporânea. Desde os primeiros sistemas especialistas dos anos
83+
1980, como o DENDRAL\footnote{Lindsay, R.K. et al. \textit{Applications of
84+
Artificial Intelligence for Organic Chemistry: The DENDRAL Project}. McGraw-Hill,
85+
1980. Primeiro sistema de IA aplicado à química orgânica, capaz de inferir
86+
estruturas moleculares a partir de dados de espectrometria de massa.} para
87+
elucidação de estruturas químicas, até os modernos LLMs como GPT-4, a questão
88+
central permanece: como medir, de forma objetiva e reproduzível, a capacidade
89+
de um sistema computacional de realizar raciocínio científico?
90+
91+
A resposta a esta questão tem implicações profundas. Sem métricas confiáveis,
92+
não é possível comparar objetivamente sistemas concorrentes, identificar
93+
lacunas de capacidade, orientar investimentos em pesquisa e desenvolvimento,
94+
ou — crucialmente — estabelecer confiança para aplicações de alto risco como
95+
diagnóstico médico, descoberta de fármacos e modelagem climática.
96+
97+
A primeira geração de benchmarks de IA (2015--2020) focou em tarefas de
98+
domínio único. O SQuAD\footnote{Rajpurkar, P. et al. \textit{SQuAD: 100,000+
99+
Questions for Machine Comprehension of Text}. EMNLP, 2016. DOI:
100+
10.18653/v1/D16-1264. Dataset de compreensão de leitura com 100.000+ perguntas
101+
sobre artigos da Wikipedia.} avaliou compreensão de texto. O ImageNet\footnote{Deng, J. et al. \textit{ImageNet: A Large-Scale Hierarchical Image Database}.
102+
CVPR, 2009. DOI: 10.1109/CVPR.2009.5206848. Dataset com 14 milhões de imagens
103+
em 20.000 categorias, que impulsionou a revolução do deep learning.} avaliou
104+
visão computacional. O GLUE\footnote{Wang, A. et al. \textit{GLUE: A Multi-Task
105+
Benchmark and Analysis Platform for Natural Language Understanding}. ICLR, 2019.
106+
DOI: 10.48550/arXiv.1804.07461. Benchmark com 9 tarefas de compreensão de
107+
linguagem natural.} avaliou compreensão de linguagem. Nenhum destes, contudo,
108+
aproximava-se do que se poderia chamar de ``raciocínio científico''.
109+
110+
A segunda geração (2020--2023) começou a endereçar esta lacuna. O MATH\footnote{Hendrycks, D. et al. \textit{Measuring Mathematical Problem Solving With the
111+
MATH Dataset}. NeurIPS, 2021. DOI: 10.48550/arXiv.2103.03874. Dataset de 12.500
112+
problemas de competições matemáticas (AMC, AIME) em 7 áreas e 5 níveis de
113+
dificuldade, com soluções passo a passo verificáveis.} introduziu problemas
114+
matemáticos de competição com verificação de resposta. O GSM8K\footnote{Cobbe,
115+
K. et al. \textit{Training Verifiers to Solve Math Word Problems}. arXiv:2110.14168,
116+
2021. DOI: 10.48550/arXiv.2110.14168. Dataset de 8.500 problemas aritméticos
117+
escolares com foco em raciocínio passo a passo (chain-of-thought).} focou em
118+
raciocínio aritmético multi-etapa. O HumanEval\footnote{Chen, M. et al.
119+
\textit{Evaluating Large Language Models Trained on Code}. arXiv:2107.03374,
120+
2021. DOI: 10.48550/arXiv.2107.03374. Benchmark com 164 problemas de programação
121+
Python, cada um com assinatura de função e testes unitários.} avaliou geração
122+
de código funcional.
123+
124+
\subsection{Revisão da Literatura: Benchmarks de Raciocínio Científico}
125+
126+
A literatura de avaliação de IA científica revela uma progressão clara, mas
127+
também lacunas persistentes. O MMLU\footnote{Hendrycks, D. et al. \textit{Measuring
128+
Massive Multitask Language Understanding}. ICLR, 2021. DOI:
129+
10.48550/arXiv.2009.03300. Benchmark com 15.908 questões de múltipla escolha
130+
em 57 áreas de conhecimento, desde direito e medicina até física e matemática.}
131+
representou um avanço significativo em cobertura, abrangendo 57 áreas de
132+
conhecimento — a maior amplitude entre benchmarks estabelecidos. Contudo, o
133+
formato de múltipla escolha limita-se a avaliar conhecimento declarativo, não
134+
a capacidade de produzir raciocínio original ou verificar afirmações.
135+
136+
O BIG-bench\footnote{Srivastava, A. et al. \textit{Beyond the Imitation Game:
137+
Quantifying and Extrapolating the Capabilities of Language Models}. arXiv:2206.04615,
138+
2022. DOI: 10.48550/arXiv.2206.04615. Consórcio com 450+ autores, 204 tarefas
139+
cobrindo raciocínio, matemática, programação, física e outros domínios.} ampliou
140+
o escopo para 204 tarefas diversas, incluindo algumas de raciocínio científico,
141+
mas sem uma estrutura dimensional unificada ou verificação simbólica integrada.
142+
143+
O SciBench\footnote{Wang, X. et al. \textit{SciBench: Evaluating College-Level
144+
Scientific Problem-Solving Abilities of Large Language Models}. arXiv:2307.10635,
145+
2023. DOI: 10.48550/arXiv.2307.10635. Benchmark com 695 problemas de livros-texto
146+
de ciências universitárias em física, química e matemática.} focou especificamente
147+
em problemas de livros-texto universitários, aproximando-se do conceito de níveis
148+
de complexidade do CORA-Eval. Entretanto, carece de verificadores simbólicos e
149+
de uma métrica evolutiva.
150+
151+
Nenhum destes benchmarks aborda três dimensões que consideramos essenciais para
152+
a avaliação da maturidade científica integrada: (i) a capacidade de verificar
153+
simbolicamente afirmações usando múltiplos critérios independentes — dimensional,
154+
algébrico, estatístico, numérico e computacional; (ii) a capacidade de transitar
155+
entre níveis de complexidade mantendo consistência metodológica; e (iii) a
156+
capacidade de evoluir autonomamente, aprendendo com padrões de erro e aprimorando-se
157+
iterativamente. O CORA-Eval foi projetado especificamente para preencher estas
158+
lacunas.
159+
160+
\subsection{A Primeira Década da IA Científica (2015--2025)}
161+
162+
A primeira década da inteligência artificial contemporânea testemunhou avanços
163+
extraordinários. O GPT-4\footnote{OpenAI. \textit{GPT-4 Technical Report}.
164+
arXiv:2303.08774, 2023. DOI: 10.48550/arXiv.2303.08774. Demonstra proficiência
165+
em exames como o Uniform Bar Exam (90º percentil), Biology Olympiad (99º
166+
percentil) e GRE Quantitative (80º percentil).} demonstrou desempenho notável.
167+
O AlphaFold\footnote{Jumper, J. et al. \textit{Highly Accurate Protein Structure
168+
Prediction with AlphaFold}. Nature, 596:583--589, 2021. DOI:
169+
10.1038/s41586-021-03819-2. Resolveu o problema de enovelamento proteico que
170+
desafiava a biologia estrutural há 50 anos, com precisão atômica (RMSD $<1$Å).}
171+
resolveu o enovelamento proteico. O FunSearch\footnote{Romera-Paredes, B. et
172+
al. \textit{Mathematical Discoveries from Program Search with Large Language
173+
Models}. Nature, 625:468--475, 2024. DOI: 10.1038/s41586-023-06924-6. Gerou
174+
descobertas matemáticas originais — novas construções para o problema do
175+
conjunto-cap — e as publicou na Nature, um marco histórico para IA em matemática.}
176+
produziu descobertas matemáticas originais publicadas na Nature.
177+
178+
Paralelamente, sistemas especializados em domínios científicos específicos
179+
proliferaram. O AlphaGeometry\footnote{Trinh, T.H. et al. \textit{Solving
180+
Olympiad Geometry Without Human Demonstrations}. Nature, 625:476--482, 2024.
181+
DOI: 10.1038/s41586-023-06747-5. Resolveu 25 de 30 problemas de geometria da
182+
Olimpíada Internacional de Matemática, desempenho de medalhista de ouro,
183+
usando combinação de motor neuro-simbólico com busca.} resolveu problemas de
184+
geometria olímpica. O GraphCast\footnote{Lam, R. et al. \textit{Learning
185+
Skillful Medium-Range Global Weather Forecasting}. Science, 382:1416--1421,
186+
2023. DOI: 10.1126/science.adi2336. Previsão meteorológica global de médio
187+
prazo (10 dias) superando o ECMWF HRES, o padrão-ouro operacional, em 90\%
188+
dos alvos de verificação.} superou modelos de previsão meteorológica. O
189+
GNoME\footnote{Merchant, A. et al. \textit{Scaling Deep Learning for Materials
190+
Discovery}. Nature, 624:80--90, 2023. DOI: 10.1038/s41586-023-06735-9. Descobriu
191+
2,2 milhões de novos cristais estáveis, o equivalente a 800 anos de conhecimento
192+
acumulado, dos quais 380.000 são candidatos a materiais estáveis.} descobriu
193+
milhões de novos materiais.
194+
195+
Esta proliferação de sistemas especializados torna ainda mais urgente a
196+
necessidade de um framework de avaliação unificado. Como comparar o desempenho
197+
do AlphaFold em biologia estrutural com o do GraphCast em meteorologia? Como
198+
avaliar se um sistema que se destaca em matemática (AlphaGeometry) possui
199+
capacidade análoga em física ou química? O CORA-Eval propõe-se a responder
200+
estas questões através de uma métrica comum — o CORA-Score — que permite
201+
comparar a maturidade científica de qualquer sistema, independentemente de
202+
seu domínio de especialização.
203+
204+
\subsection{O Problema da Fragmentação de Benchmarks}
205+
206+
A fragmentação de benchmarks de IA científica não é meramente um incômodo
207+
metodológico — é um obstáculo real ao progresso científico. Sem uma métrica
208+
comum, cada laboratório e cada empresa avalia seus sistemas em benchmarks
209+
diferentes, impossibilitando comparações objetivas. Esta situação é análoga
210+
à que existia na Física antes da padronização do Sistema Internacional de
211+
Unidades (SI) — múltiplos padrões incompatíveis que impediam a replicação
212+
e a comparação de resultados experimentais.
213+
214+
O cientista e metrologista John Henry Poynting observou, em 1894, que ``a
215+
precisão de uma medição é limitada pela pior das grandezas envolvidas''.
216+
Parafraseando para a avaliação de IA: a qualidade de uma avaliação é limitada
217+
pelo pior dos benchmarks utilizados. Enquanto cada dimensão da capacidade
218+
científica for avaliada por um benchmark diferente, sem calibração cruzada,
219+
a avaliação agregada será tão frágil quanto seu elo mais fraco.
220+
221+
A adoção do Sistema Internacional de Unidades levou décadas, mas transformou
222+
a Física de uma coleção de laboratórios com padrões incompatíveis em uma
223+
ciência global com resultados reproduzíveis e comparáveis. O CORA-Eval aspira
224+
a desempenhar papel análogo para a avaliação de IA científica: estabelecer
225+
um padrão comum, multidimensional e evolutivo que permita comparações
226+
objetivas entre sistemas e o rastreamento do progresso ao longo do tempo.
80227

81-
A primeira década da inteligência artificial contemporânea (2015--2025)
228+
\subsection{O Ecossistema OpenCode}
229+
230+
O OpenCode Ecosystem\footnote{Claro, M. \textit{OpenCode Ecosystem v4.7:
231+
Arquitetura Multiagente Evolutiva}. GitHub, 2026. DOI:
232+
10.5281/zenodo.OPENCODE-V4.7.} surge como resposta a esta lacuna. Trata-se de
233+
uma arquitetura multiagente evolutiva que integra 125 agentes especializados,
234+
106 skills, 41 servidores MCP e 212 tipos de raciocínio.
82235
testemunhou avanços extraordinários na capacidade de modelos de linguagem
83236
de grande escala (LLMs) em tarefas científicas. O GPT-4\footnote{OpenAI.
84237
\textit{GPT-4 Technical Report}. arXiv:2303.08774, 2023. DOI:
@@ -376,6 +529,10 @@ \subsection{O Cálculo do CORA-Score}
376529
a ser aquelas com maior cobertura de verificadores — evidência de que a
377530
verificação simbólica efetivamente discrimina qualidade.
378531

532+
\subsection{Calibração dos Níveis e Fontes de Ground Truth}
533+
534+
\input{dissertacao_exp_metodologia.tex}
535+
379536
\subsection{Pipeline de Avaliação e Fontes de Ground Truth}
380537

381538
Cada uma das 150 tarefas do CORA-Eval percorre um pipeline de 5 estágios:
@@ -688,6 +845,8 @@ \subsection{Trabalhos Futuros}
688845
Completar M4 (3,00), estender validação externa para D2--D10, integrar ao
689846
CI/CD, e expandir para ciências humanas constituem a agenda imediata.
690847

848+
\input{dissertacao_exp_restante.tex}
849+
691850
\vspace{12pt}\begin{center}\rule{0.4\textwidth}{0.4pt}\\[6pt]
692851
\textit{Repositório:} \url{https://github.com/MarceloClaro/OpenCode\_Ecosystem}
693852
\end{center}
@@ -840,7 +999,7 @@ \subsection{A.4 — D4--D10: Tarefas por Dimensão}
840999
D10 & N1 & Intersecção física+química, fotossíntese multi-domínio & V1-V5 & 2/2 \\
8411000
D10 & N2 & Hodgkin-Huxley, mudança climática 3+disc, Arrhenius & V1,V6,V5 & 3/3 \\
8421001
D10 & N3 & Feedback vegetação-clima, origem da vida, band gap & V1,V6,V7 & 3/3 \\
843-
D10 & N4 & Nelson derivadas (linear+quadrático), curvatura R=0/R0 & V1-V7 & 2/3 \\
1002+
D10 & N4 & Nelson derivadas (linear+quadrático), curvatura R=0/R$\neq$0 & V1-V7 & 2/3 \\
8441003
\midrule
8451004
\multicolumn{5}{r}{\textbf{Total: 150 tarefas, $\approx$105/150 aprovadas (70\%)}} \\
8461005
\bottomrule
@@ -885,7 +1044,7 @@ \subsection{B.2 — Suítes TDD Documentadas}
8851044
\texttt{test\_d7\_codigo} & 7/7 & GREEN & V7a syntax, V7b idempotência, V7c tipos, V7d O(n), V7e security, V7f coverage \\
8861045
\texttt{test\_d8\_literatura} & 12/12 & GREEN & Claims (4), citações (4), classificação (4) \\
8871046
\texttt{test\_d8\_n2\_gat\_biblio} & 6/6 & GREEN & Extração 30 refs, 12 áreas, tabela 8, lacuna, consistência, cobertura 100\% \\
888-
\texttt{test\_d10\_gat} & 10/10 & GREEN & Nelson linear/quad, curvatura R=0/0, conexão, transporte, holonomia, div J \\
1047+
\texttt{test\_d10\_gat} & 10/10 & GREEN & Nelson linear/quad, curvatura R=0/$\neq$0, conexão, transporte, holonomia, div J \\
8891048
\texttt{test\_validacao\_externa} & 12/12 & GREEN & PE001-016 (7), ROS-DNA/RNA/REVC/GC/PROT (5) \\
8901049
\texttt{test\_evolucao\_m4} & 6/7 & 85,7\% & N-corpos conservação/reversível, EM K=2/ELBO, EBM 1D, Hoare, pH \\
8911050
\midrule
@@ -1046,11 +1205,13 @@ \subsection{D.4 — Marcos de Maturidade}
10461205
\toprule
10471206
\textbf{Marco} & \textbf{Score} & \textbf{Status} & \textbf{Data} & \textbf{Dimensões em N4} \\
10481207
\midrule
1049-
M1 — Fundação & 0,90 & ✅ & 28/05 & 0 \\
1050-
M2 — Graduação & 1,90 & ✅ & 28/05 & 0 \\
1051-
M3 — Especialização & 2,52 & ✅ & 28/05 & 2 (D1,D10) \\
1052-
M4 — Pesquisa & 3,00 & 🔄 (-0,01) & — & 5 (D1,D2,D3,D7,D10) \\
1053-
M5 — Fronteira & 4,00 & ⬜ & — & 10 (todas) \\
1208+
\textbf{Status} & \textbf{Data} & \textbf{Dimensões em N4} \\
1209+
\midrule
1210+
M1 --- Fundação & 0,90 & OK & 28/05 & 0 \\
1211+
M2 --- Graduação & 1,90 & OK & 28/05 & 0 \\
1212+
M3 --- Especialização & 2,52 & OK & 28/05 & 2 (D1,D10) \\
1213+
M4 --- Pesquisa & 3,00 & (-0,01) & --- & 5 (D1,D2,D3,D7,D10) \\
1214+
M5 --- Fronteira & 4,00 & Pendente & --- & 10 (todas) \\
10541215
\bottomrule
10551216
\end{tabular}
10561217
\end{table}

0 commit comments

Comments
 (0)