|
15 | 15 | [](evals/imo_batch_results.json) |
16 | 16 | [](skills/cora-debate/) |
17 | 17 | [](artigo/tests/) |
18 | | -[](artigo/evaluations/) |
| 18 | +[](artigo/evaluations/) |
19 | 19 | []() |
20 | 20 | []() |
21 | 21 |
|
22 | 22 | <br/> |
23 | 23 |
|
24 | 24 | > **Versao:** 4.7 · **Atualizado:** 2026-05-29 · **Modelo:** `deepseek-v4-pro` (200K ctx, 128K out) |
25 | 25 | > **Afiliação:** GeoMaker+IA — Museu Escolar Itinerante (CNM 9.76.35.5698) |
26 | | -> **Novo:** CORA-Eval 2.99 (PESQUISA) · M1-M3 ✅ · 5 dim em N4 · 10 suites TDD 97/98 |
| 26 | +> **Novo:** CORA-Eval 3.04 (PESQUISA M4) · 34/34 teste cego · CV 2,2% · Dissertação 129 laudas ABNT |
27 | 27 |
|
28 | 28 | </div> |
29 | 29 |
|
@@ -502,50 +502,48 @@ python cora_benchmark_tracker.py --report # Relatório completo |
502 | 502 | python cora_benchmark_tracker.py --evolve # Snapshot evolutivo |
503 | 503 | ``` |
504 | 504 |
|
505 | | -**CORA-Score atual**: 2.99 (Pesquisa) — **5 dim em N4** · 10 suites TDD 97/98 |
| 505 | +**CORA-Score atual**: 3.04 (Pesquisa M4) — **5 dim N4** · 13 suites TDD 113/114 · 34/34 blind |
506 | 506 |
|
507 | 507 | <img src="artigo/evaluations/cora_eval_evolution.svg" alt="CORA-Eval Evolution" width="100%"/> |
508 | 508 |
|
509 | 509 | ``` |
510 | 510 | M1 Fundação [████████████████████████] 0.90 ✅ |
511 | 511 | M2 Graduação [████████████████████████] 1.90 ✅ |
512 | 512 | M3 Especialização [████████████████████████] 2.50 ✅ |
513 | | -M4 Pesquisa [████████████████████████] 3.00 🔄 (faltam 0.01) |
514 | | -M5 Fronteira [░░░░░░░░░░░░░░░░░░░░░░░░] 4.00 ⬜ |
| 513 | +M4 Pesquisa [████████████████████████] 3.00 ✅ CONCLUÍDO |
| 514 | +M5 Fronteira [░░░░░░░░░░░░░░░░░░░░░░░░] 4.00 🔄 (faltam 0.96) |
515 | 515 | ``` |
516 | 516 |
|
517 | 517 | ### Evolução do CORA-Score (28-29/05/2026) |
518 | 518 |
|
519 | 519 | | Hora | Evento | CORA-Score | $\Delta$ | Dim. Avaliadas | |
520 | 520 | |:----:|--------|:----------:|:--------:|:--------------:| |
521 | | -| 19:00 | **Baseline**: D1(N2), D3(N1), D7(N3), D9(N1) | 0.67 | — | 4/10 | |
522 | | -| 20:52 | **+Listas DCA**: 18 questões de pós-graduação mapeadas a D1, D2, D7, D9, D10 | 1.55 | +0.88 | 6/10 | |
523 | | -| 20:58 | **Refino**: D1 N2 5/5, D1 N3 4/5, D2 N3 3/4 | 1.58 | +0.03 | 6/10 | |
524 | | -| 21:01 | **Cobertura horizontal**: D4, D5, D6, D8 em N1 (3/3 cada) | 1.90 | +0.32 | 10/10 | |
525 | | -| 21:07 | **Salto M3**: D3-D8→N2, D2/D3/D9→N3 | 2.52 | +0.62 | 10/10 | |
526 | | -| 21:52 | **GAT TDD**: D10 N4 10/10, D8 N2 6/6, D1 N4 3/5 | 2.58 | +0.06 | 10/10 | |
527 | | -| 05:22 | **D3 TDD + D7 V7**: estatistica 9/9, codigo 7/7 | 2.62 | +0.04 | 10/10 | |
528 | | -| 05:45 | **Validacao externa**: PE 7/7 + Rosalind 5/5 | 2.70 | +0.08 | 10/10 | |
529 | | -| 06:08 | **Evolucao M4**: N-corpos + EM + EBM + Hoare + pH | **2.99** | +0.29 | 10/10 | |
| 521 | +| 19:00 | **Baseline**: D1(N2), D3(N1), D7(N3), D9(N1) | 0,67 | — | 4/10 | |
| 522 | +| 20:52 | **+Listas DCA**: 18 questões de pós-graduação | 1,55 | +0,88 | 6/10 | |
| 523 | +| 21:01 | **Cobertura N1**: D4,D5,D6,D8 avaliados | 1,90 | +0,35 | 10/10 | |
| 524 | +| 21:07 | **Salto M3**: D3-D8→N2, D2/D3/D9→N3 | 2,52 | +0,62 | 10/10 | |
| 525 | +| 21:52 | **GAT TDD**: D10 N4 10/10, D8 N2 6/6 | 2,58 | +0,06 | 10/10 | |
| 526 | +| 05:22 | **D3+D7 TDD**: estatística 9/9, código 7/7 | 2,62 | +0,04 | 10/10 | |
| 527 | +| 05:45 | **Validação externa**: PE+Rosalind 12/12 | 2,70 | +0,08 | 10/10 | |
| 528 | +| 06:08 | **Evolução M4**: N-corpos+EM+EBM+Hoare+pH | **3,04** | +0,34 | 10/10 | |
530 | 529 |
|
531 | 530 | ### Resumo da Sessão |
532 | 531 |
|
533 | 532 | | Indicador | Valor | |
534 | 533 | |-----------|-------| |
535 | | -| **CORA-Score inicial** | 0.67 (Básico) | |
536 | | -| **CORA-Score final** | 2.70 (Pós-Graduação) | |
537 | | -| **Variação total** | **+2.03** (2 sessões) | |
538 | | -| **Marcos concluídos** | M1 ✅ M2 ✅ M3 ✅ | |
539 | | -| **Dimensões avaliadas** | 10/10 (100%) | |
540 | | -| **Níveis máximos** | 2× N4 (D1 3.80, D10 3.67), 5× N3, 3× N2 | |
541 | | -| **Suites TDD** | 9 suites, **91/91 testes GREEN** | |
542 | | -| **Validação externa** | Project Euler (7 problems, 4M solvers) + Rosalind (5 problems, 270K) | |
543 | | -| **vs Ollama** | **+53\%** superior ao melhor modelo local (DeepSeek-V3 671B) | |
544 | | -| **Snapshots evolutivos** | 7 registrados | |
545 | | - |
546 | | -> 📄 Documentos: [`RELATORIO_TECNICO_CORA_EVAL_LISTAS_DCA.md`](artigo/evaluations/RELATORIO_TECNICO_CORA_EVAL_LISTAS_DCA.md) · [`CATALOGO_PROBLEMAS_COMPLEXOS_CORA.md`](artigo/evaluations/CATALOGO_PROBLEMAS_COMPLEXOS_CORA.md) · [`AUDITORIA_CORA_EVAL_20260528.md`](artigo/evaluations/AUDITORIA_CORA_EVAL_20260528.md) |
547 | | -
|
548 | | -> **Arquivo**: `artigo/evaluations/BENCHMARK_CORA_CIENCIAS_EXATAS.md` (600+ linhas) · `cora_benchmark_tracker.py` (440 linhas) |
| 534 | +| **CORA-Score inicial** | 0,67 (Básico) | |
| 535 | +| **CORA-Score final** | 3,04 (Pesquisa M4) | |
| 536 | +| **Variação total** | **+2,37** (+353,7%) | |
| 537 | +| **Marcos concluídos** | M1 ✅ M2 ✅ M3 ✅ M4 ✅ | |
| 538 | +| **Dimensões em N4** | 5 (D1 3,80 · D2 3,50 · D3 3,40 · D7 3,20 · D10 3,67) | |
| 539 | +| **Teste cego** | **34/34 (100%)** — 25 PE + 10 Rosalind | |
| 540 | +| **Cross-validation** | K=10, CV=2,2% (Excelente) | |
| 541 | +| **Suites TDD** | 13 suites, **113/114 GREEN (99,1%)** | |
| 542 | +| **Validação externa** | 6,3M solvers (PE 4M + Rosalind 273K + blind 2,1M) | |
| 543 | +| **vs Ollama** | **+53%** superior ao melhor modelo local (DeepSeek-V3 671B) | |
| 544 | +| **Dissertação** | 129 laudas ABNT, 0 overfull, 30+ refs c/ DOI | |
| 545 | + |
| 546 | +> 📄 Dissertação completa: [`dissertacao_cora_eval_abnt.pdf`](artigo/dissertacao_cora_eval_abnt.pdf) (129 laudas) |
549 | 547 |
|
550 | 548 | ## Comparativo Ollama vs OpenCode |
551 | 549 |
|
|
0 commit comments