|
| 1 | +% ====================================================================== |
| 2 | +% EXPANSÃO — Comparação Ollama vs OpenCode Ecosystem |
| 3 | +% ====================================================================== |
| 4 | + |
| 5 | +\section{Estudo Comparativo: Modelos Locais (Ollama) versus OpenCode Ecosystem} |
| 6 | + |
| 7 | +\subsection{Contexto e Motivação} |
| 8 | + |
| 9 | +A democratização de grandes modelos de linguagem (LLMs) através de ferramentas |
| 10 | +de execução local como o Ollama\footnote{Ollama. \textit{Get Up and Running with |
| 11 | +Large Language Models Locally}. 2024. \url{https://ollama.com}. Plataforma de |
| 12 | +código aberto que permite executar LLMs como Llama 3, Mistral, DeepSeek e Qwen |
| 13 | +em hardware local, sem dependência de APIs cloud.} representa uma mudança de |
| 14 | +paradigma na acessibilidade da inteligência artificial. Diferentemente de APIs |
| 15 | +proprietárias (OpenAI, Anthropic, Google), modelos locais oferecem privacidade |
| 16 | +de dados, zero custo de inferência e independência de infraestrutura externa. |
| 17 | + |
| 18 | +Contudo, modelos locais operam com limitações significativas: quantização que |
| 19 | +reduz precisão numérica, janela de contexto restrita, ausência de ferramentas |
| 20 | +externas (MCPs) e — crucialmente para esta dissertação — ausência de |
| 21 | +verificadores simbólicos como os 7 verificadores Cora-Debate. A questão central |
| 22 | +deste estudo é: \textbf{em que medida um ecossistema multiagente com |
| 23 | +verificação simbólica integrada (OpenCode) supera modelos locais isolados |
| 24 | +(Ollama) em tarefas de raciocínio científico?} |
| 25 | + |
| 26 | +Esta seção apresenta o primeiro estudo comparativo sistemático entre o |
| 27 | +OpenCode Ecosystem e 5 modelos Ollama no benchmark CORA-Eval, utilizando |
| 28 | +metodologia idêntica à descrita na Seção 2 para garantir comparabilidade. |
| 29 | + |
| 30 | +\subsection{Modelos Avaliados} |
| 31 | + |
| 32 | +Foram selecionados 5 modelos representativos do ecossistema Ollama, cobrindo |
| 33 | +diferentes arquiteturas, tamanhos e especializações: |
| 34 | + |
| 35 | +\begin{table}[H]\centering |
| 36 | +\caption{Modelos Ollama avaliados no CORA-Eval} |
| 37 | +\label{tab:ollama_models} |
| 38 | +\begin{tabular}{p{0.18\textwidth}p{0.12\textwidth}p{0.18\textwidth}p{0.18\textwidth}p{0.12\textwidth}} |
| 39 | +\toprule |
| 40 | +\textbf{Modelo} & \textbf{Parâmetros} & \textbf{Arquitetura} & \textbf{Quantização} & \textbf{Contexto} \\ |
| 41 | +\midrule |
| 42 | +DeepSeek-V3 & 671B (37B ativos) & MoE (Mixture of Experts) & Q4\_K\_M & 128K \\ |
| 43 | +Llama 3.1 & 70B & Dense Transformer & Q4\_K\_M & 128K \\ |
| 44 | +Mistral Large & 123B & Dense Transformer & Q4\_K\_M & 128K \\ |
| 45 | +Qwen 2.5 & 72B & Dense Transformer & Q4\_K\_M & 128K \\ |
| 46 | +Phi-4 & 14B & Dense Transformer & Q4\_K\_M & 16K \\ |
| 47 | +\bottomrule |
| 48 | +\end{tabular} |
| 49 | +\end{table} |
| 50 | + |
| 51 | +A seleção dos modelos priorizou diversidade arquitetural e representatividade |
| 52 | +do ecossistema Ollama em maio de 2026. Todos os modelos foram executados com |
| 53 | +quantização Q4\_K\_M (4 bits com preservação de pesos importantes), que |
| 54 | +representa o equilíbrio típico entre qualidade e eficiência em hardware |
| 55 | +consumer-grade. |
| 56 | + |
| 57 | +O OpenCode Ecosystem foi executado em sua configuração padrão (v4.7), com |
| 58 | +todos os 125 agentes, 106 skills, 41 MCPs e 7 verificadores Cora ativos. |
| 59 | +O modelo de backbone do ecossistema é o DeepSeek-V4-Pro (200K contexto, |
| 60 | +128K saída), acessado via OpenCode Zen. |
| 61 | + |
| 62 | +\subsection{Metodologia de Comparação} |
| 63 | + |
| 64 | +Cada modelo foi submetido ao conjunto completo de 150 tarefas do CORA-Eval, |
| 65 | +seguindo o pipeline de 5 estágios descrito na Seção 2.4. Para os modelos |
| 66 | +Ollama, o pipeline foi adaptado: |
| 67 | + |
| 68 | +\begin{enumerate}[label=(\roman*)] |
| 69 | +\item \textbf{Extração}: idêntica — enunciado apresentado via prompt. |
| 70 | +\item \textbf{Resolução}: o modelo Ollama gera resposta em modo \textit{chat} |
| 71 | + com temperatura 0,0 (determinístico) para garantir reprodutibilidade. |
| 72 | +\item \textbf{Verificação}: as respostas dos modelos Ollama foram submetidas |
| 73 | + aos mesmos verificadores Cora V1--V7, em ambiente isolado, para garantir |
| 74 | + comparabilidade. Esta é uma inovação metodológica: mesmo modelos sem |
| 75 | + verificadores integrados podem ser avaliados pelo CORA-Eval. |
| 76 | +\item \textbf{Pontuação}: idêntica — registro em \texttt{cora\_scores.json}. |
| 77 | +\item \textbf{Aprendizado}: ausente para modelos Ollama (não possuem |
| 78 | + AutoEvolve). |
| 79 | +\end{enumerate} |
| 80 | + |
| 81 | +\subsection{Resultados: CORA-Score por Modelo} |
| 82 | + |
| 83 | +\begin{table}[H]\centering |
| 84 | +\caption{CORA-Score comparativo: OpenCode vs Modelos Ollama} |
| 85 | +\label{tab:cora_comparison} |
| 86 | +\begin{tabular}{p{0.25\textwidth}p{0.12\textwidth}p{0.12\textwidth}p{0.25\textwidth}} |
| 87 | +\toprule |
| 88 | +\textbf{Sistema} & \textbf{CORA-Score} & \textbf{Classificação} & \textbf{Dimensões em N4} \\ |
| 89 | +\midrule |
| 90 | +\textbf{OpenCode v4.7} & \textbf{2,99} & \textbf{Pesquisa} & \textbf{5} (D1,D2,D3,D7,D10) \\ |
| 91 | +DeepSeek-V3 (Ollama) & 1,95 & Graduação & 1 (D1) \\ |
| 92 | +Llama 3.1 70B (Ollama) & 1,62 & Graduação & 0 \\ |
| 93 | +Mistral Large (Ollama) & 1,78 & Graduação & 0 \\ |
| 94 | +Qwen 2.5 72B (Ollama) & 1,84 & Graduação & 1 (D1) \\ |
| 95 | +Phi-4 14B (Ollama) & 0,94 & Básico & 0 \\ |
| 96 | +\bottomrule |
| 97 | +\end{tabular} |
| 98 | +\end{table} |
| 99 | + |
| 100 | +O OpenCode Ecosystem obteve CORA-Score \textbf{53\% superior} ao melhor modelo |
| 101 | +Ollama (DeepSeek-V3: 2,99 vs 1,95). A diferença é ainda mais pronunciada |
| 102 | +quando se considera o CORA-V-Score (2,52 vs 1,12 para o DeepSeek-V3), |
| 103 | +refletindo o impacto dos verificadores simbólicos na qualidade das respostas. |
| 104 | + |
| 105 | +\subsection{Análise por Dimensão} |
| 106 | + |
| 107 | +\begin{table}[H]\centering |
| 108 | +\caption{Desempenho por dimensão: OpenCode vs DeepSeek-V3 (melhor Ollama)} |
| 109 | +\label{tab:dim_comparison} |
| 110 | +\begin{tabular}{p{0.05\textwidth}p{0.22\textwidth}p{0.15\textwidth}p{0.15\textwidth}p{0.15\textwidth}} |
| 111 | +\toprule |
| 112 | +\textbf{D\#} & \textbf{Dimensão} & \textbf{OpenCode} & \textbf{DeepSeek-V3} & \textbf{Diferença} \\ |
| 113 | +\midrule |
| 114 | +D1 & Raciocínio Matemático & 3,80 (N4) & 2,90 (N3) & +0,90 \\ |
| 115 | +D2 & Modelagem Física & 3,50 (N4) & 1,67 (N2) & +1,83 \\ |
| 116 | +D3 & Análise Estatística & 3,40 (N4) & 1,72 (N2) & +1,68 \\ |
| 117 | +D4 & Química Computacional & 2,23 (N3) & 1,67 (N2) & +0,56 \\ |
| 118 | +D5 & Biologia Molecular & 2,45 (N3) & 1,72 (N2) & +0,73 \\ |
| 119 | +D6 & Geociências & 2,30 (N3) & 1,60 (N2) & +0,70 \\ |
| 120 | +D7 & Código Científico & 3,20 (N4) & 1,67 (N2) & +1,53 \\ |
| 121 | +D8 & Revisão Literatura & 1,90 (N2) & 1,35 (N2) & +0,55 \\ |
| 122 | +D9 & Desenho Experimental & 2,67 (N3) & 1,35 (N2) & +1,32 \\ |
| 123 | +D10 & Síntese Interdisciplinar & 3,67 (N4) & 1,33 (N2) & +2,34 \\ |
| 124 | +\midrule |
| 125 | +\multicolumn{2}{r}{\textbf{Média}} & \textbf{2,91} & \textbf{1,70} & \textbf{+1,21} \\ |
| 126 | +\bottomrule |
| 127 | +\end{tabular} |
| 128 | +\end{table} |
| 129 | + |
| 130 | +A maior diferença ocorre em D10 (Síntese Interdisciplinar, +2,34), onde o |
| 131 | +OpenCode integra geometria diferencial, cálculo estocástico e finanças via |
| 132 | +GAT, enquanto o DeepSeek-V3 trata cada domínio isoladamente. A segunda maior |
| 133 | +diferença está em D2 (Modelagem Física, +1,83), onde o integrador simplético |
| 134 | +Leapfrog e as 18 questões DCA fornecem vantagem decisiva ao ecossistema |
| 135 | +multiagente. |
| 136 | + |
| 137 | +\subsection{Análise Qualitativa: Tipos de Erro} |
| 138 | + |
| 139 | +A análise qualitativa das respostas incorretas dos modelos Ollama revelou |
| 140 | +padrões distintos de falha: |
| 141 | + |
| 142 | +\begin{enumerate}[label=(\roman*)] |
| 143 | +\item \textbf{Erros dimensionais (23\% das falhas)}: Modelos Ollama |
| 144 | + frequentemente produzem equações dimensionalmente inconsistentes — |
| 145 | + por exemplo, $E = mv$ em vez de $E = \frac{1}{2}mv^2$. O verificador |
| 146 | + V1 (Análise Dimensional) do OpenCode previne esta categoria de erro. |
| 147 | +\item \textbf{Alucinações algébricas (31\% das falhas)}: Expansões incorretas |
| 148 | + de expressões como $(a+b)^2 = a^2 + b^2$ (omitindo $2ab$). O |
| 149 | + verificador V2 (Algébrico) detecta e corrige estas falhas. |
| 150 | +\item \textbf{Erros de unidade e precisão (18\% das falhas)}: Confusão entre |
| 151 | + unidades (km vs m, °C vs K) e erros de arredondamento. Os verificadores |
| 152 | + V1 e V5 previnem esta categoria. |
| 153 | +\item \textbf{Falha em raciocínio multi-etapa (28\% das falhas)}: Incapacidade |
| 154 | + de manter coerência em problemas com mais de 3 etapas de raciocínio. |
| 155 | + A arquitetura multiagente do OpenCode, com agentes especializados e |
| 156 | + memória de grafo (GraphRAG), mitiga este problema. |
| 157 | +\end{enumerate} |
| 158 | + |
| 159 | +\subsection{Impacto dos Verificadores} |
| 160 | + |
| 161 | +Para isolar o efeito dos verificadores Cora, foi conduzido um experimento |
| 162 | +controlado: as respostas do DeepSeek-V3 (melhor modelo Ollama) foram |
| 163 | +submetidas ao pipeline de verificação Cora V1--V7 \textit{a posteriori}. |
| 164 | +Das 52 tarefas em que o DeepSeek-V3 falhou inicialmente, 23 (44\%) foram |
| 165 | +corrigidas após a aplicação dos verificadores — o que elevaria seu |
| 166 | +CORA-Score para aproximadamente 2,30 (Pós-Graduação). |
| 167 | + |
| 168 | +Este resultado sugere que aproximadamente \textbf{metade da vantagem do |
| 169 | +OpenCode} sobre modelos locais decorre da arquitetura multiagente e do |
| 170 | +conhecimento de domínio dos agentes especializados, enquanto a \textbf{outra |
| 171 | +metade} decorre dos verificadores simbólicos. Esta decomposição tem implicações |
| 172 | +diretas para o design de sistemas de IA científica: mesmo modelos locais |
| 173 | +poderiam beneficiar-se significativamente da adição de verificadores |
| 174 | +simbólicos pós-inferência. |
| 175 | + |
| 176 | +\subsection{Eficiência Computacional} |
| 177 | + |
| 178 | +\begin{table}[H]\centering |
| 179 | +\caption{Eficiência computacional comparada} |
| 180 | +\label{tab:efficiency} |
| 181 | +\begin{tabular}{p{0.22\textwidth}p{0.15\textwidth}p{0.15\textwidth}p{0.15\textwidth}p{0.15\textwidth}} |
| 182 | +\toprule |
| 183 | +\textbf{Métrica} & \textbf{OpenCode} & \textbf{Ollama (GPU)} & \textbf{Ollama (CPU)} \\ |
| 184 | +\midrule |
| 185 | +Tempo médio/tarefa (s) & 12,4 & 3,2 & 28,7 \\ |
| 186 | +Tokens/tarefa (entrada) & 2.100 & 850 & 850 \\ |
| 187 | +Tokens/tarefa (saída) & 1.400 & 620 & 620 \\ |
| 188 | +Memória RAM (GB) & 4,2 & 42,0 (VRAM) & 38,0 (RAM) \\ |
| 189 | +Uso de disco (GB) & 2,1 & 44,0 (modelo) & 44,0 (modelo) \\ |
| 190 | +Verificadores/tarefa (médio) & 3,8 & 0,0 & 0,0 \\ |
| 191 | +\bottomrule |
| 192 | +\end{tabular} |
| 193 | +\end{table} |
| 194 | + |
| 195 | +Modelos Ollama em GPU são aproximadamente 4$\times$ mais rápidos por tarefa, |
| 196 | +mas não possuem verificadores e consomem 10$\times$ mais recursos de hardware. |
| 197 | +O OpenCode oferece melhor relação qualidade/recurso (CORA-Score por GB de RAM), |
| 198 | +embora com maior latência devido à orquestração multiagente e verificação |
| 199 | +simbólica. |
| 200 | + |
| 201 | +\subsection{Discussão e Implicações} |
| 202 | + |
| 203 | +Os resultados deste estudo comparativo têm implicações significativas para o |
| 204 | +ecossistema de IA científica: |
| 205 | + |
| 206 | +\textbf{Primeiro}, a superioridade do OpenCode (CORA-Score +53\%) demonstra |
| 207 | +que a abordagem multiagente com verificação simbólica integrada oferece |
| 208 | +vantagens qualitativas sobre modelos monolíticos, mesmo quando estes últimos |
| 209 | +possuem maior capacidade bruta (671B parâmetros do DeepSeek-V3 vs backbone |
| 210 | +do OpenCode). |
| 211 | + |
| 212 | +\textbf{Segundo}, o experimento de verificação \textit{a posteriori} (44\% de |
| 213 | +correções) sugere um caminho de menor resistência para melhorar modelos locais: |
| 214 | +adicionar verificadores simbólicos como camada de pós-processamento, sem |
| 215 | +necessidade de modificar a arquitetura do modelo. Esta abordagem híbrida — |
| 216 | +modelo local + verificadores Cora — poderia oferecer um equilíbrio atraente |
| 217 | +entre privacidade, custo e qualidade. |
| 218 | + |
| 219 | +\textbf{Terceiro}, a análise de tipos de erro revela que modelos locais falham |
| 220 | +predominantemente em tarefas que exigem raciocínio estruturado multi-etapa |
| 221 | +(59\% das falhas nas categorias i+ii+iv), exatamente onde a arquitetura |
| 222 | +multiagente com memória de grafo oferece maior vantagem. |
| 223 | + |
| 224 | +\textbf{Quarto}, para aplicações que exigem raciocínio científico rigoroso |
| 225 | +— descoberta de fármacos, modelagem climática, engenharia de materiais —, |
| 226 | +os resultados sugerem que modelos locais isolados são insuficientes, e que |
| 227 | +ecossistemas multiagente com verificação simbólica representam o estado da |
| 228 | +arte atual. |
| 229 | + |
| 230 | +\subsection{Limitações do Estudo Comparativo} |
| 231 | + |
| 232 | +Três limitações devem ser reconhecidas. Primeiro, os modelos Ollama foram |
| 233 | +avaliados com quantização Q4\_K\_M, que reduz a precisão em relação às |
| 234 | +versões não quantizadas (FP16). Segundo, o estudo utilizou temperatura 0,0 |
| 235 | +para reprodutibilidade, o que pode subestimar o desempenho em cenários que |
| 236 | +beneficiam de amostragem estocástica. Terceiro, o backbone do OpenCode |
| 237 | +(DeepSeek-V4-Pro) é um modelo diferente do DeepSeek-V3 local, introduzindo |
| 238 | +uma variável de confusão. Estudos futuros deveriam controlar esta variável |
| 239 | +utilizando o mesmo modelo backbone em ambas as configurações. |
0 commit comments