Início Tecnologia Acontece que a IA pode realmente construir clones competentes do Campo Minado...

Acontece que a IA pode realmente construir clones competentes do Campo Minado – Quatro agentes de codificação de IA colocados à prova revelam o Codex da OpenAI como o melhor, enquanto o Gemini CLI do Google como o pior | cinetotal.com.br

4
0
Acontece que a IA pode realmente construir clones competentes do Campo Minado – Quatro agentes de codificação de IA colocados à prova revelam o Codex da OpenAI como o melhor, enquanto o Gemini CLI do Google como o pior
| cinetotal.com.br
(Image credit: Getty Images)

Acontece que a IA pode realmente construir clones competentes do Campo Minado – Quatro agentes de codificação de IA colocados à prova revelam o Codex da OpenAI como o melhor, enquanto o Gemini CLI do Google como o pior

À medida que o mundo arde à nossa volta por causa das corporações que perseguem a IA com recursos aparentemente ilimitados, devemos ver o que toda esta comoção nos trouxe. Recentemente, o pessoal da Ars Technica testou quatro dos agentes de codificação de IA mais populares, com uma pergunta aparentemente simples: construir o Campo Minado para a web. O clone teve que incluir efeitos sonoros, suporte para tela sensível ao toque móvel e um toque de jogabilidade “divertido”. Para quem não sabe, o Campo Minado depende da lógica, que dita a jogabilidade, junto com elementos UI/UX razoáveis ​​​​que se combinam para criar um desafio decente. Não é exatamente difícil fazer um clone do Campo Minado, mas sua mecânica subjacente requer pelo menos algum nível de engenhosidade que geralmente vem dos humanos – afinal, AGI é o objetivo, certo? O teste incluiu (versões pagas de) Claude Code da Anthropic, Gemini CLI do Google, Mistral Vibe e Codex da OpenAI, baseado em GPT-5. Todos eles receberam as mesmas instruções, e tudo o que a IA acabar gerando em sua primeira execução será usado para contabilizar as pontuações. Nenhuma contribuição humana ou segundas chances além do início. Você pode gostar do OpenAI Codex – 9/10 Imagem 1 de 2(Crédito da imagem: Futuro)(Crédito da imagem: Futuro)O melhor desempenho, de longe, foi o Codex, que não apenas fez um trabalho decente com o visual, mas foi a única IA que realmente inclui “chording”, uma técnica que revela todos os blocos ao redor se você posicionar suas bandeiras corretamente. Chording é um favorito entre jogadores experientes, então sua omissão automaticamente faz com que qualquer clone do Campo Minado pareça menos polido. A construção do Codex tinha todos os botões funcionando corretamente, incluindo uma alternância de som, apresentando bipes e boops precisos da época, junto com instruções na tela para dispositivos móveis e desktop. Quanto à reviravolta na jogabilidade, havia um botão “Lucky Sweep” no canto que ocasionalmente revelava um bloco seguro quando você o ganhasse. A experiência de codificação com Codex também foi tranquila, com a interface de linha de comando apresentando boas animações e gerenciamento de permissão local, embora o agente tenha demorado muito para escrever o código. Ars Technica descreveu esse esforço como o mais próximo de algo que estaria pronto para ser enviado com o mínimo de interferência humana, marcando-o com impressionantes 9/10. Claude Code – 7/10 Imagem 1 de 2 (Crédito da imagem: Futuro) (Crédito da imagem: Futuro) O vice-campeão foi Claude da Anthropic, que levou metade do tempo que o Codex para criar o código e entregar um produto que fosse esteticamente mais agradável. Na verdade, era a versão mais refinada de todas, com gráficos personalizados para a bomba e um emoji de sorriso independente do dispositivo na parte superior. Os efeitos sonoros também foram agradáveis, e sua alternância funcionou bem em dispositivos móveis e desktops. Receba as melhores notícias e análises detalhadas do Tom’s Hardware diretamente em sua caixa de entrada. Havia um “Power Mode” que funcionava como uma reviravolta na jogabilidade, emprestando a você power-ups simples que exigiriam criatividade genuína por parte do agente. No celular, há também um botão “Modo Bandeira” que é uma alternativa decente ao pressionamento longo para marcar os blocos. Em nossa opinião, este também foi o clone com melhor sensação quando o testamos. O modelo Opus 4.5 de Claude Code construiu o clone do Campo Minado em menos de 5 minutos e apresentava a interface de codificação mais limpa. No geral, a apresentação é muito sólida, levando a uma pontuação de 7/10 que seria maior se o recurso de acordes estivesse lá.Mistral Vibe – 4/10Imagem 1 de 2(Crédito da imagem: Futuro)(Crédito da imagem: Futuro)Em terceiro lugar, temos o Mistral’s Vibe que produziu um produto homônimo, ou seja, os resultados foram sinônimos de algo que seria codificado por vibração. O jogo funcionou e parecia bom, mas faltava o sempre importante recurso de acordes e não tinha efeitos sonoros. Havia também um botão “Personalizado” na parte inferior que não fazia nada. O Vibe também não adicionou nenhuma reviravolta divertida na jogabilidade, então tudo isso rende alguns pontos. Você pode gostar O emoji sorridente na parte superior era todo preto, o que foi desanimador para os testadores, e selecionar o modo “Especialista” estende a grade além dos limites de seu fundo quadrado, mas isso é apenas uma falha visual. Você pode clicar com o botão direito para sinalizar no desktop, mas é forçado a pressionar e segurar no celular, o que pode trazer desajeitadamente o menu de contexto do seu dispositivo (não apareceu, no nosso caso). A interface de codificação era sólida e fácil de usar, mas não exatamente a mais rápida – embora o último lugar esteja tão distante que a barra não é muito alta. Os editores da Ars Technica ficaram impressionados com o seu bom desempenho, apesar de não contar com os recursos em grande escala dos grandes nomes. No final, Mistral Vibe obteve 4/10, o que parece menor do que merecia com base em sua descrição.Google Gemini – 0/10 Imagem 1 de 2(Crédito da imagem: Futuro)(Crédito da imagem: Futuro)O último foi o Gemini CLI do Google, o que pode ser surpreendente para alguns, considerando a frequência com que o Google lidera os benchmarks atualmente, e a história de retorno geral associada ao retorno do cofundador Sergey Brin para comandar a IA de fronteira na gigante de Cali. O clone do Campo Minado de Gemini simplesmente não funcionou. Tinha botões, mas não havia peças dignas de menção, então não havia jogo para jogar ou mesmo pontuar. Em termos visuais, parece assustadoramente semelhante ao resultado final de Claude Code; como se alguém tivesse interrompido o agente no meio da codificação. Gemini também demorou mais, com cada execução de código demorando uma hora e o agente solicitando constantemente dependências externas. Mesmo depois de alterar ligeiramente as regras para dar uma segunda chance com uma instrução rígida e rápida para usar HTML5, ele não conseguiu produzir um resultado utilizável. Ars Technica observa que o Gemini CLI não tinha acesso aos modelos de codificação Gemini 3 mais recentes e, em vez disso, dependia de um cluster de sistemas Gemini 2.5. Talvez, pagar pelo nível mais alto de IA do Google tivesse terminado de forma mais favorável, tornando este teste como “incompleto”, mas ainda assim é bastante decepcionante. Então, aí está – foi isso que permitimos quadruplicar nossos preços de memória e arruinar computadores por enquanto. Codex venceu com Mistral Vibe e Claude Code seguindo de perto, e o Google nem mesmo tentou, mas a que custo. Se você ainda não apostou tudo na IA, é seguro dizer que este experimento não o convencerá de nada. Siga Tom’s Hardware no Google News ou adicione-nos como fonte preferida para receber nossas últimas notícias, análises e comentários em seus feeds.


Publicado: 2025-12-21 15:04:00

fonte: www.tomshardware.com