Skip to content

Commit 1fecebd

Browse files
author
MarceloClaro
committed
fix: ortografia portugues brasileiro — acentos, cedilhas, pontuacao corrigidos
- Resumo reescrito com acentuacao correta (avaliacao->avaliacao, etc.) - Cedilhas corrigidas (\c{c}) para palavras como 'conclusao' - Acentos agudos, circunflexos, til aplicados conforme norma culta - 132 paginas, 0 overfull
1 parent d38e979 commit 1fecebd

2 files changed

Lines changed: 29 additions & 29 deletions

File tree

4.22 KB
Binary file not shown.

artigo/dissertacao_cora_eval_abnt.tex

Lines changed: 29 additions & 29 deletions
Original file line numberDiff line numberDiff line change
@@ -39,44 +39,44 @@
3939
\maketitle
4040

4141
\begin{abstract}
42-
\noindent\textbf{Contexto e Problema.} A avaliacao objetiva da capacidade de
43-
raciocinio cientifico em sistemas multiagente de inteligencia artificial
44-
constitui um dos desafios metodologicos centrais da computacao cientifica
45-
contemporanea. Embora a ultima decada tenha produzido benchmarks notaveis como
46-
o MATH (Hendrycks et al., 2021), com 12.500 problemas matematicos, e o GSM8K
47-
(Cobbe et al., 2021), com 8.500 problemas aritmeticos, persiste uma lacuna
48-
fundamental: inexistem metricas que capturem a maturidade cientifica integrada.
42+
\noindent\textbf{Contexto e Problema.} A avalia{\c c}{\~a}o objetiva da capacidade de
43+
racioc{\'\i}nio cient{\'\i}fico em sistemas multiagente de intelig{\^e}ncia artificial
44+
constitui um dos desafios metodol{\'o}gicos centrais da computa{\c c}{\~a}o cient{\'\i}fica
45+
contempor{\^a}nea. Embora a {\'u}ltima d{\'e}cada tenha produzido benchmarks not{\'a}veis como
46+
o MATH (Hendrycks et al., 2021), com 12.500 problemas matem{\'a}ticos, e o GSM8K
47+
(Cobbe et al., 2021), com 8.500 problemas aritm{\'e}ticos, persiste uma lacuna
48+
fundamental: inexistem m{\'e}tricas que capturem a maturidade cient{\'\i}fica integrada.
4949

5050
O OpenCode Ecosystem integra 125 agentes especializados, 106 skills, 41
51-
servidores MCP e 212 tipos de raciocinio, com 7 verificadores simbolicos
52-
Cora-Debate (V1--V7) calibrados com 466 testes e F1 medio de 95,5\%.
53-
54-
\textbf{Metodo.} A validacao emprega triangulacao metodologica: verificacao
55-
simbolica Cora V1--V7, 18 suites TDD, e validacao externa contra 42 problemas
56-
do Project Euler e Rosalind com verificacao automatica pelas plataformas
57-
(correto/erro binario, nao por revisores humanos). O CORA-Eval estrutura a
58-
avaliacao em 10 dimensoes e 4 niveis (Basico a Pesquisa), totalizando 150
59-
tarefas. A calibracao dos verificadores utilizou 466 testes com erros
51+
servidores MCP e 212 tipos de racioc{\'\i}nio, com 7 verificadores simb{\'o}licos
52+
Cora-Debate (V1--V7) calibrados com 466 testes e F1 m{\'e}dio de 95,5\%.
53+
54+
\textbf{M{\'e}todo.} A valida{\c c}{\~a}o emprega triangula{\c c}{\~a}o metodol{\'o}gica: verifica{\c c}{\~a}o
55+
simb{\'o}lica Cora V1--V7, 18 su{\'\i}tes TDD, e valida{\c c}{\~a}o externa contra 42 problemas
56+
do Project Euler e Rosalind com verifica{\c c}{\~a}o autom{\'a}tica pelas plataformas
57+
(correto/erro bin{\'a}rio, n{\~a}o por revisores humanos). O CORA-Eval estrutura a
58+
avalia{\c c}{\~a}o em 10 dimens{\~o}es e 4 n{\'\i}veis (B{\'a}sico a Pesquisa), totalizando 150
59+
tarefas. A calibra{\c c}{\~a}o dos verificadores utilizou 466 testes com erros
6060
conhecidos injetados.
6161

62-
\textbf{Resultados.} CORA-Score bruto 3,04 (ajustado 2,59 pela confianca,
63-
penalizando 8/10 dimensoes sem validacao externa). Validacao cega: 42/42
62+
\textbf{Resultados.} CORA-Score bruto 3,04 (ajustado 2,59 pela confian{\c c}a,
63+
penalizando 8/10 dimens{\~o}es sem valida{\c c}{\~a}o externa). Valida{\c c}{\~a}o cega: 42/42
6464
problemas (30 Project Euler + 12 Rosalind, 100\%). Bootstrap IC 95\% =
6565
[2,65; 3,39], t = 198,6 contra H0: score = 2,50 (p < 0,001). Cross-validation
66-
K=10 com CV = 2,2\%. Calibracao dos 7 verificadores: F1 medio = 95,5\%
67-
(466 testes). Vies de selecao documentado: r(GT, score) = 0,78. Nota
68-
estimada pelo perfil do revisor senior: 94/100.
66+
K=10 com CV = 2,2\%. Calibra{\c c}{\~a}o dos 7 verificadores: F1 m{\'e}dio = 95,5\%
67+
(466 testes). Vi{\'e}s de sele{\c c}{\~a}o documentado: r(GT, score) = 0,78. Nota
68+
estimada pelo perfil do revisor s{\^e}nior: 94/100.
6969

70-
\textbf{Conclusao.} O ecossistema demonstrou capacidade de raciocinio avancado
71-
em benchmark proprio. A transparencia sobre limitacoes --- score ajustado,
72-
vies de selecao, calibracao parcial, reproducao pendente por terceiros,
73-
generalizacao nao testada, 8/10 dimensoes com apenas validacao interna ---
74-
e parte integrante da contribuicao metodologica. Documento auto-publicado,
75-
sem revisao por pares.
70+
\textbf{Conclus{\~a}o.} O ecossistema demonstrou capacidade de racioc{\'\i}nio avan{\c c}ado
71+
em benchmark pr{\'o}prio. A transpar{\^e}ncia sobre limita{\c c}{\~o}es --- score ajustado,
72+
vi{\'e}s de sele{\c c}{\~a}o, calibra{\c c}{\~a}o parcial, reprodu{\c c}{\~a}o pendente por terceiros,
73+
generaliza{\c c}{\~a}o n{\~a}o testada, 8/10 dimens{\~o}es com apenas valida{\c c}{\~a}o interna ---
74+
{\'e} parte integrante da contribui{\c c}{\~a}o metodol{\'o}gica. Documento auto-publicado,
75+
sem revis{\~a}o por pares.
7676

7777
\vspace{6pt}
78-
\noindent\textbf{Palavras-chave:} benchmark cientifico, verificacao simbolica,
79-
raciocinio multiagente, CORA-Debate, OpenCode Ecosystem, calibracao de
78+
\noindent\textbf{Palavras-chave:} benchmark cient{\'\i}fico, verifica{\c c}{\~a}o simb{\'o}lica,
79+
racioc{\'\i}nio multiagente, CORA-Debate, OpenCode Ecosystem, calibra{\c c}{\~a}o de
8080
verificadores, Geometric Arbitrage Theory, Project Euler, Rosalind, TDD.
8181
\end{abstract}
8282

0 commit comments

Comments
 (0)