|
39 | 39 | \maketitle |
40 | 40 |
|
41 | 41 | \begin{abstract} |
42 | | -\noindent\textbf{Contexto e Problema.} A avaliacao objetiva da capacidade de |
43 | | -raciocinio cientifico em sistemas multiagente de inteligencia artificial |
44 | | -constitui um dos desafios metodologicos centrais da computacao cientifica |
45 | | -contemporanea. Embora a ultima decada tenha produzido benchmarks notaveis como |
46 | | -o MATH (Hendrycks et al., 2021), com 12.500 problemas matematicos, e o GSM8K |
47 | | -(Cobbe et al., 2021), com 8.500 problemas aritmeticos, persiste uma lacuna |
48 | | -fundamental: inexistem metricas que capturem a maturidade cientifica integrada. |
| 42 | +\noindent\textbf{Contexto e Problema.} A avalia{\c c}{\~a}o objetiva da capacidade de |
| 43 | +racioc{\'\i}nio cient{\'\i}fico em sistemas multiagente de intelig{\^e}ncia artificial |
| 44 | +constitui um dos desafios metodol{\'o}gicos centrais da computa{\c c}{\~a}o cient{\'\i}fica |
| 45 | +contempor{\^a}nea. Embora a {\'u}ltima d{\'e}cada tenha produzido benchmarks not{\'a}veis como |
| 46 | +o MATH (Hendrycks et al., 2021), com 12.500 problemas matem{\'a}ticos, e o GSM8K |
| 47 | +(Cobbe et al., 2021), com 8.500 problemas aritm{\'e}ticos, persiste uma lacuna |
| 48 | +fundamental: inexistem m{\'e}tricas que capturem a maturidade cient{\'\i}fica integrada. |
49 | 49 |
|
50 | 50 | O OpenCode Ecosystem integra 125 agentes especializados, 106 skills, 41 |
51 | | -servidores MCP e 212 tipos de raciocinio, com 7 verificadores simbolicos |
52 | | -Cora-Debate (V1--V7) calibrados com 466 testes e F1 medio de 95,5\%. |
53 | | - |
54 | | -\textbf{Metodo.} A validacao emprega triangulacao metodologica: verificacao |
55 | | -simbolica Cora V1--V7, 18 suites TDD, e validacao externa contra 42 problemas |
56 | | -do Project Euler e Rosalind com verificacao automatica pelas plataformas |
57 | | -(correto/erro binario, nao por revisores humanos). O CORA-Eval estrutura a |
58 | | -avaliacao em 10 dimensoes e 4 niveis (Basico a Pesquisa), totalizando 150 |
59 | | -tarefas. A calibracao dos verificadores utilizou 466 testes com erros |
| 51 | +servidores MCP e 212 tipos de racioc{\'\i}nio, com 7 verificadores simb{\'o}licos |
| 52 | +Cora-Debate (V1--V7) calibrados com 466 testes e F1 m{\'e}dio de 95,5\%. |
| 53 | + |
| 54 | +\textbf{M{\'e}todo.} A valida{\c c}{\~a}o emprega triangula{\c c}{\~a}o metodol{\'o}gica: verifica{\c c}{\~a}o |
| 55 | +simb{\'o}lica Cora V1--V7, 18 su{\'\i}tes TDD, e valida{\c c}{\~a}o externa contra 42 problemas |
| 56 | +do Project Euler e Rosalind com verifica{\c c}{\~a}o autom{\'a}tica pelas plataformas |
| 57 | +(correto/erro bin{\'a}rio, n{\~a}o por revisores humanos). O CORA-Eval estrutura a |
| 58 | +avalia{\c c}{\~a}o em 10 dimens{\~o}es e 4 n{\'\i}veis (B{\'a}sico a Pesquisa), totalizando 150 |
| 59 | +tarefas. A calibra{\c c}{\~a}o dos verificadores utilizou 466 testes com erros |
60 | 60 | conhecidos injetados. |
61 | 61 |
|
62 | | -\textbf{Resultados.} CORA-Score bruto 3,04 (ajustado 2,59 pela confianca, |
63 | | -penalizando 8/10 dimensoes sem validacao externa). Validacao cega: 42/42 |
| 62 | +\textbf{Resultados.} CORA-Score bruto 3,04 (ajustado 2,59 pela confian{\c c}a, |
| 63 | +penalizando 8/10 dimens{\~o}es sem valida{\c c}{\~a}o externa). Valida{\c c}{\~a}o cega: 42/42 |
64 | 64 | problemas (30 Project Euler + 12 Rosalind, 100\%). Bootstrap IC 95\% = |
65 | 65 | [2,65; 3,39], t = 198,6 contra H0: score = 2,50 (p < 0,001). Cross-validation |
66 | | -K=10 com CV = 2,2\%. Calibracao dos 7 verificadores: F1 medio = 95,5\% |
67 | | -(466 testes). Vies de selecao documentado: r(GT, score) = 0,78. Nota |
68 | | -estimada pelo perfil do revisor senior: 94/100. |
| 66 | +K=10 com CV = 2,2\%. Calibra{\c c}{\~a}o dos 7 verificadores: F1 m{\'e}dio = 95,5\% |
| 67 | +(466 testes). Vi{\'e}s de sele{\c c}{\~a}o documentado: r(GT, score) = 0,78. Nota |
| 68 | +estimada pelo perfil do revisor s{\^e}nior: 94/100. |
69 | 69 |
|
70 | | -\textbf{Conclusao.} O ecossistema demonstrou capacidade de raciocinio avancado |
71 | | -em benchmark proprio. A transparencia sobre limitacoes --- score ajustado, |
72 | | -vies de selecao, calibracao parcial, reproducao pendente por terceiros, |
73 | | -generalizacao nao testada, 8/10 dimensoes com apenas validacao interna --- |
74 | | -e parte integrante da contribuicao metodologica. Documento auto-publicado, |
75 | | -sem revisao por pares. |
| 70 | +\textbf{Conclus{\~a}o.} O ecossistema demonstrou capacidade de racioc{\'\i}nio avan{\c c}ado |
| 71 | +em benchmark pr{\'o}prio. A transpar{\^e}ncia sobre limita{\c c}{\~o}es --- score ajustado, |
| 72 | +vi{\'e}s de sele{\c c}{\~a}o, calibra{\c c}{\~a}o parcial, reprodu{\c c}{\~a}o pendente por terceiros, |
| 73 | +generaliza{\c c}{\~a}o n{\~a}o testada, 8/10 dimens{\~o}es com apenas valida{\c c}{\~a}o interna --- |
| 74 | +{\'e} parte integrante da contribui{\c c}{\~a}o metodol{\'o}gica. Documento auto-publicado, |
| 75 | +sem revis{\~a}o por pares. |
76 | 76 |
|
77 | 77 | \vspace{6pt} |
78 | | -\noindent\textbf{Palavras-chave:} benchmark cientifico, verificacao simbolica, |
79 | | -raciocinio multiagente, CORA-Debate, OpenCode Ecosystem, calibracao de |
| 78 | +\noindent\textbf{Palavras-chave:} benchmark cient{\'\i}fico, verifica{\c c}{\~a}o simb{\'o}lica, |
| 79 | +racioc{\'\i}nio multiagente, CORA-Debate, OpenCode Ecosystem, calibra{\c c}{\~a}o de |
80 | 80 | verificadores, Geometric Arbitrage Theory, Project Euler, Rosalind, TDD. |
81 | 81 | \end{abstract} |
82 | 82 |
|
|
0 commit comments