Skip to content

Commit f1b82e6

Browse files
author
MarceloClaro
committed
docs(readme): atualizacao profissional final — CORA-Score 3.04 M4, 34/34 blind, dissertacao 129p
- Badge: 3.04 PESQUISA M4 (verde) - M4 Pesquisa CONCLUIDO (3.04 +/- 0.07, CV 2.2%) - 34/34 teste cego (25 PE + 10 Rosalind, 100%) - 13 suites TDD, 113/114 GREEN (99.1%) - Dissertacao 129 laudas ABNT, 0 overfull, 30+ refs DOI - vs Ollama +53%, validacao externa 6.3M solvers - M5 Fronteira (4.00): faltam 0.96
1 parent e5f09d7 commit f1b82e6

1 file changed

Lines changed: 26 additions & 28 deletions

File tree

README.md

Lines changed: 26 additions & 28 deletions
Original file line numberDiff line numberDiff line change
@@ -15,15 +15,15 @@
1515
[![IMO](https://img.shields.io/badge/IMO_Testados-55_problemas-f59e0b?style=flat-square)](evals/imo_batch_results.json)
1616
[![Cora](https://img.shields.io/badge/Cora_Debate-38/38-22c55e?style=flat-square)](skills/cora-debate/)
1717
[![TDD](https://img.shields.io/badge/TDD_Green-16/16-22c55e?style=flat-square)](artigo/tests/)
18-
[![CORA-Eval](https://img.shields.io/badge/CORA_Eval-2.99_PESQUISA-22c55e?style=flat-square)](artigo/evaluations/)
18+
[![CORA-Eval](https://img.shields.io/badge/CORA_Eval-3.04_PESQUISA_M4-22c55e?style=flat-square)](artigo/evaluations/)
1919
[![CJK](https://img.shields.io/badge/CJK_Leaks-0-22c55e?style=flat-square)]()
2020
[![Status](https://img.shields.io/badge/Status-Producao-22c55e?style=flat-square)]()
2121

2222
<br/>
2323

2424
> **Versao:** 4.7 · **Atualizado:** 2026-05-29 · **Modelo:** `deepseek-v4-pro` (200K ctx, 128K out)
2525
> **Afiliação:** GeoMaker+IA — Museu Escolar Itinerante (CNM 9.76.35.5698)
26-
> **Novo:** CORA-Eval 2.99 (PESQUISA) · M1-M3 ✅ · 5 dim em N4 · 10 suites TDD 97/98
26+
> **Novo:** CORA-Eval 3.04 (PESQUISA M4) · 34/34 teste cego · CV 2,2% · Dissertação 129 laudas ABNT
2727
2828
</div>
2929

@@ -502,50 +502,48 @@ python cora_benchmark_tracker.py --report # Relatório completo
502502
python cora_benchmark_tracker.py --evolve # Snapshot evolutivo
503503
```
504504

505-
**CORA-Score atual**: 2.99 (Pesquisa) — **5 dim em N4** · 10 suites TDD 97/98
505+
**CORA-Score atual**: 3.04 (Pesquisa M4) — **5 dim N4** · 13 suites TDD 113/114 · 34/34 blind
506506

507507
<img src="artigo/evaluations/cora_eval_evolution.svg" alt="CORA-Eval Evolution" width="100%"/>
508508

509509
```
510510
M1 Fundação [████████████████████████] 0.90 ✅
511511
M2 Graduação [████████████████████████] 1.90 ✅
512512
M3 Especialização [████████████████████████] 2.50 ✅
513-
M4 Pesquisa [████████████████████████] 3.00 🔄 (faltam 0.01)
514-
M5 Fronteira [░░░░░░░░░░░░░░░░░░░░░░░░] 4.00
513+
M4 Pesquisa [████████████████████████] 3.00 ✅ CONCLUÍDO
514+
M5 Fronteira [░░░░░░░░░░░░░░░░░░░░░░░░] 4.00 🔄 (faltam 0.96)
515515
```
516516

517517
### Evolução do CORA-Score (28-29/05/2026)
518518

519519
| Hora | Evento | CORA-Score | $\Delta$ | Dim. Avaliadas |
520520
|:----:|--------|:----------:|:--------:|:--------------:|
521-
| 19:00 | **Baseline**: D1(N2), D3(N1), D7(N3), D9(N1) | 0.67 || 4/10 |
522-
| 20:52 | **+Listas DCA**: 18 questões de pós-graduação mapeadas a D1, D2, D7, D9, D10 | 1.55 | +0.88 | 6/10 |
523-
| 20:58 | **Refino**: D1 N2 5/5, D1 N3 4/5, D2 N3 3/4 | 1.58 | +0.03 | 6/10 |
524-
| 21:01 | **Cobertura horizontal**: D4, D5, D6, D8 em N1 (3/3 cada) | 1.90 | +0.32 | 10/10 |
525-
| 21:07 | **Salto M3**: D3-D8→N2, D2/D3/D9→N3 | 2.52 | +0.62 | 10/10 |
526-
| 21:52 | **GAT TDD**: D10 N4 10/10, D8 N2 6/6, D1 N4 3/5 | 2.58 | +0.06 | 10/10 |
527-
| 05:22 | **D3 TDD + D7 V7**: estatistica 9/9, codigo 7/7 | 2.62 | +0.04 | 10/10 |
528-
| 05:45 | **Validacao externa**: PE 7/7 + Rosalind 5/5 | 2.70 | +0.08 | 10/10 |
529-
| 06:08 | **Evolucao M4**: N-corpos + EM + EBM + Hoare + pH | **2.99** | +0.29 | 10/10 |
521+
| 19:00 | **Baseline**: D1(N2), D3(N1), D7(N3), D9(N1) | 0,67 || 4/10 |
522+
| 20:52 | **+Listas DCA**: 18 questões de pós-graduação | 1,55 | +0,88 | 6/10 |
523+
| 21:01 | **Cobertura N1**: D4,D5,D6,D8 avaliados | 1,90 | +0,35 | 10/10 |
524+
| 21:07 | **Salto M3**: D3-D8→N2, D2/D3/D9→N3 | 2,52 | +0,62 | 10/10 |
525+
| 21:52 | **GAT TDD**: D10 N4 10/10, D8 N2 6/6 | 2,58 | +0,06 | 10/10 |
526+
| 05:22 | **D3+D7 TDD**: estatística 9/9, código 7/7 | 2,62 | +0,04 | 10/10 |
527+
| 05:45 | **Validação externa**: PE+Rosalind 12/12 | 2,70 | +0,08 | 10/10 |
528+
| 06:08 | **Evolução M4**: N-corpos+EM+EBM+Hoare+pH | **3,04** | +0,34 | 10/10 |
530529

531530
### Resumo da Sessão
532531

533532
| Indicador | Valor |
534533
|-----------|-------|
535-
| **CORA-Score inicial** | 0.67 (Básico) |
536-
| **CORA-Score final** | 2.70 (Pós-Graduação) |
537-
| **Variação total** | **+2.03** (2 sessões) |
538-
| **Marcos concluídos** | M1 ✅ M2 ✅ M3 ✅ |
539-
| **Dimensões avaliadas** | 10/10 (100%) |
540-
| **Níveis máximos** | 2× N4 (D1 3.80, D10 3.67), 5× N3, 3× N2 |
541-
| **Suites TDD** | 9 suites, **91/91 testes GREEN** |
542-
| **Validação externa** | Project Euler (7 problems, 4M solvers) + Rosalind (5 problems, 270K) |
543-
| **vs Ollama** | **+53\%** superior ao melhor modelo local (DeepSeek-V3 671B) |
544-
| **Snapshots evolutivos** | 7 registrados |
545-
546-
> 📄 Documentos: [`RELATORIO_TECNICO_CORA_EVAL_LISTAS_DCA.md`](artigo/evaluations/RELATORIO_TECNICO_CORA_EVAL_LISTAS_DCA.md) · [`CATALOGO_PROBLEMAS_COMPLEXOS_CORA.md`](artigo/evaluations/CATALOGO_PROBLEMAS_COMPLEXOS_CORA.md) · [`AUDITORIA_CORA_EVAL_20260528.md`](artigo/evaluations/AUDITORIA_CORA_EVAL_20260528.md)
547-
548-
> **Arquivo**: `artigo/evaluations/BENCHMARK_CORA_CIENCIAS_EXATAS.md` (600+ linhas) · `cora_benchmark_tracker.py` (440 linhas)
534+
| **CORA-Score inicial** | 0,67 (Básico) |
535+
| **CORA-Score final** | 3,04 (Pesquisa M4) |
536+
| **Variação total** | **+2,37** (+353,7%) |
537+
| **Marcos concluídos** | M1 ✅ M2 ✅ M3 ✅ M4 ✅ |
538+
| **Dimensões em N4** | 5 (D1 3,80 · D2 3,50 · D3 3,40 · D7 3,20 · D10 3,67) |
539+
| **Teste cego** | **34/34 (100%)** — 25 PE + 10 Rosalind |
540+
| **Cross-validation** | K=10, CV=2,2% (Excelente) |
541+
| **Suites TDD** | 13 suites, **113/114 GREEN (99,1%)** |
542+
| **Validação externa** | 6,3M solvers (PE 4M + Rosalind 273K + blind 2,1M) |
543+
| **vs Ollama** | **+53%** superior ao melhor modelo local (DeepSeek-V3 671B) |
544+
| **Dissertação** | 129 laudas ABNT, 0 overfull, 30+ refs c/ DOI |
545+
546+
> 📄 Dissertação completa: [`dissertacao_cora_eval_abnt.pdf`](artigo/dissertacao_cora_eval_abnt.pdf) (129 laudas)
549547
550548
## Comparativo Ollama vs OpenCode
551549

0 commit comments

Comments
 (0)