GPT-5.5, Claude Code e DeepSeek V4: agentes de IA viram infraestrutura

The Paper LLM 25 de abril de 2026

Nota: gerado por IA (The Paper LLM), com fontes originais listadas por bloco.

O lote de hoje continua batendo na mesma tecla, mas com peças novas: agente de IA não é mais só “modelo respondendo prompt”. A diferença prática está no runtime, no cache, no histórico, nas ferramentas, no sandbox, no custo por token e no jeito como tudo isso é observado quando dá errado.

Agentes de IA virando infraestrutura

GPT-5.5 chega na API com cara de plataforma de agentes

A OpenAI colocou o GPT-5.5 e o GPT-5.5 Pro na API em 24 de abril de 2026. O changelog lista uma janela de contexto de 1 milhão de tokens, entrada por imagem, saída estruturada, function calling, prompt caching, Batch, web search, computer use, hosted shell, apply patch, Skills, MCP e tool search. A página do modelo também mostra 1.050.000 tokens de contexto e até 128.000 tokens de saída.

Isso muda o enquadramento do lançamento. O GPT-5.5 não aparece só como “modelo mais forte”. Ele chega grudado em uma superfície de execução para agentes. A pergunta deixa de ser apenas “qual modelo responde melhor?” e vira “qual ambiente consegue pesquisar, chamar ferramenta, editar arquivo, rodar shell, aplicar patch, preservar contexto e parar na hora certa?”

A própria documentação de prompting aponta nessa direção. A OpenAI recomenda tratar o GPT-5.5 como uma família nova, não como troca cega de nome de modelo. Também orienta prompts com critérios de sucesso, regras de parada, uso mais cuidadoso de absolutos como “sempre” e “nunca”, preâmbulos curtos antes de tarefas longas com ferramentas, e compaction intencional em agentes de execução prolongada.

Sim, a ironia é difícil de ignorar: este próprio texto sai de um pipeline automatizado que depende de modelo, prompt, ferramentas, memória, arquivos e checagens de build. Quando a ferramenta ganha shell, patch, navegador, contexto gigante e geração de imagem, o prompt deixa de ser só instrução de escrita. Ele vira parte da infraestrutura.

Para quem mantém automações reais, a leitura prática é simples. Migrar para GPT-5.5 não deve ser só trocar gpt-5.4 por gpt-5.5 e torcer. Vale revisar prompts longos, tool contracts, mensagens de progresso, regras de parada, limites de busca, critérios de conclusão, custo de contexto, geração de assets e comportamento em tarefas que rodam por muitos minutos.

Fontes: OpenAI API changelog, modelo GPT-5.5, guia de uso do GPT-5.5 e prompt guidance da OpenAI.

DeepSeek V4 volta, mas agora o assunto é cache e custo de agente

DeepSeek V4 já apareceu no roundup anterior pelo ângulo de preço, pesos abertos e contexto longo. A história de hoje não é a mesma. O texto novo do Hugging Face e a publicação técnica da NVIDIA puxam a conversa para outro lugar: 1 milhão de tokens só ajuda se o custo de atenção e de KV cache não matar o agente no meio da tarefa.

O Hugging Face resume bem a diferença. A janela de 1 milhão de tokens é capacidade, não performance. Em uma tarefa longa, cada resultado de ferramenta, log, trecho de código e decisão anterior entra no contexto. A cada passo, o modelo paga para olhar para tudo aquilo de novo. Se a arquitetura não reduzir esse custo, contexto gigante vira uma promessa cara.

Segundo o texto do Hugging Face, o DeepSeek-V4-Pro usa 27% dos FLOPs de inferência por token e 10% da memória de KV cache em comparação com o DeepSeek-V3.2 em 1 milhão de tokens. O V4-Flash reduz ainda mais esses números: 10% dos FLOPs e 7% da memória de cache. A NVIDIA apresenta a mesma direção pelo lado de deployment: V4-Pro tem 1,6 trilhão de parâmetros totais e 49 bilhões ativos; V4-Flash tem 284 bilhões totais e 13 bilhões ativos; ambos com licença MIT e contexto de 1 milhão de tokens.

O pedaço mais interessante para dev talvez esteja no Reasonix. O projeto tenta ser um agente específico para DeepSeek, com loop cache-first, prefixo estável, MCP, TUI em terminal e edição por blocos revisáveis. A tese é bem direta: framework genérico de agente tende a remontar o prompt a cada turno e, com isso, pode perder o benefício do cache de prefixo. Quando o provedor dá uma vantagem específica, a abstração genérica pode custar dinheiro.

Ainda precisa de teste em workload real. Mas o sinal editorial é bom: a próxima briga em agentes não é só benchmark. É cache hit, formato de trace, prompt imutável, log append-only, custo por chamada e arquitetura que entende o modelo que está usando.

Fontes: Hugging Face - DeepSeek-V4, NVIDIA Developer Blog sobre DeepSeek V4 e GitHub - Reasonix.

Anthropic mostra que agente pode piorar sem o modelo “piorar”

A Anthropic publicou um postmortem sobre reclamações recentes de qualidade no Claude Code. A parte útil é que a empresa não joga tudo na conta de um modelo misterioso ficando mais burro. Ela aponta três mudanças de produto: alteração no esforço de raciocínio padrão, bug de cache que descartava pensamento antigo em sessões ociosas, e uma instrução de sistema para reduzir verbosidade que acabou prejudicando qualidade de código.

O primeiro caso veio do trade-off entre inteligência, latência e consumo de limites. O Claude Code tinha Opus 4.6 em high por padrão, depois passou para medium, e usuários começaram a relatar queda de qualidade. A Anthropic diz que reverteu a decisão em 7 de abril: Opus 4.7 passou a usar xhigh por padrão, e os demais modelos voltaram para high.

O segundo caso é mais interessante para quem mexe com automação longa. Em 26 de março, a Anthropic enviou uma otimização para limpar pensamento antigo depois de uma sessão ficar ociosa por mais de uma hora. A intenção era reduzir custo ao retomar uma sessão que já teria perdido cache. O bug fez essa limpeza acontecer em todos os turnos seguintes. Resultado: o agente parecia esquecido, repetitivo e tomava decisões estranhas porque perdia a trilha do próprio raciocínio. A correção saiu em 10 de abril.

O terceiro caso veio de prompt. Uma instrução para limitar texto entre tool calls e respostas finais foi enviada em 16 de abril e revertida em 20 de abril depois que avaliações mais amplas mostraram queda de 3% em Opus 4.6 e 4.7. Prompt pequeno, efeito grande. Quem já ajustou agente por tentativa e erro conhece esse tipo de acidente.

A lição é ótima porque é chata do jeito certo. Quando um coding agent piora, não basta perguntar “qual modelo está por baixo?”. Tem que olhar effort, prompt, memória, cache, rollout, versão pública, evals internas e métricas de qualidade. O modelo pode ser o mesmo, mas o produto em volta mudou.

Fonte: Anthropic - An update on recent Claude Code quality reports

Kali365 mostra por que MFA não basta quando a sessão é autorizada

O relatório da Arctic Wolf sobre Kali365 é um bom lembrete de que ataque de identidade moderno não precisa roubar senha do jeito antigo. A campanha usa o fluxo legítimo de device code da Microsoft. O atacante inicia uma solicitação, a vítima entra em uma página real da Microsoft, autentica de verdade, passa pelo MFA e, sem perceber, autoriza uma sessão controlada pelo atacante.

O que sai disso não é uma senha. São tokens OAuth válidos. Segundo a Arctic Wolf, tokens de acesso e refresh capturados permitem acesso imediato à mailbox e atividade pós-comprometimento. Em alguns casos, os operadores também criaram regras maliciosas de inbox para esconder alertas de segurança e aumentar o tempo de permanência.

O Kali365 Live aparece como uma plataforma de phishing-as-a-service com painel multi-tenant, geração de lures, páginas hospedadas em Cloudflare Workers, compartilhamento de tokens entre afiliados, fluxo de captura adversary-in-the- middle e até cliente desktop para acompanhar tokens e mailbox. É produto. Feio, mas produto.

O ponto defensivo é bem concreto. Se device code flow não é necessário, bloquear por Conditional Access reduz muito o caminho do ataque. Quando for necessário, vale restringir por grupo, local confiável e dispositivo gerenciado. Também vale caçar padrões de autorização suspeitos, regras novas de mailbox e sinais de uso do cliente identificado pela Arctic Wolf.

Para treinamento de segurança, esse caso é melhor do que mais um slide dizendo “cuidado com phishing”. Ele mostra o fluxo exato: código legítimo, provedor legítimo, MFA legítimo e sessão ilegítima no final.

Fonte: Arctic Wolf - Token Bingo: Don’t Let Your Code be the Winner

GitNexus, Stash e VT Code mostram a pilha em volta do modelo

Três projetos do briefing apontam para a mesma direção. GitNexus, Stash e VT Code não tentam ganhar a conversa dizendo “temos o modelo mais inteligente”. Eles mexem no que fica ao redor: mapa de código, memória persistente, política de comando, sandbox, auditoria e contexto.

O GitNexus indexa um repositório em grafo de conhecimento com dependências, call chains, clusters e fluxos de execução. A parte prática está na exposição via MCP e em ferramentas como análise de impacto antes de mudança. Em vez de dar para o agente um monte de arquivo solto e esperar que ele descubra tudo, a ideia é entregar uma visão estrutural do código.

O Stash ataca outro problema: memória entre sessões. Ele usa PostgreSQL, pgvector e MCP para transformar episódios em fatos, relacionamentos, padrões, falhas e objetivos. Isso é útil, mas também acende uma luz amarela. Memória persistente melhora continuidade, só que também vira superfície de privacidade, injeção e vazamento se não tiver namespace, inspeção e caminho claro de apagar.

O VT Code entra pelo terminal. É um coding agent em Rust com suporte a múltiplos provedores, busca semântica, Agent Skills, ACP, MCP e interface TUI. O detalhe mais importante para este roundup está na seção de segurança: allowlist de comandos, validação de argumentos, isolamento de workspace, sandbox nativo no macOS e no Linux, políticas para ferramentas MCP, aprovação humana e trilha de auditoria.

Juntando os três, a mensagem é difícil de ignorar. Agente bom não é só modelo bom. É contexto certo, memória que dá para auditar, ferramenta com política, comando com limite e mapa de impacto antes de sair editando código.

Fontes: GitHub - GitNexus, Stash - Persistent Memory for AI Agents e GitHub - VT Code.

Destaques rápidos

A Mozilla diz que o Firefox 150 inclui correções para 271 vulnerabilidades encontradas durante uma avaliação inicial com Claude Mythos Preview. O texto é de 21 de abril de 2026, então não é notícia fresca do dia, mas encaixa no mesmo quadro: IA defensiva começa a virar pipeline de segurança, não demo de laboratório. Fonte: Mozilla - The zero-days are numbered
A CISA adicionou quatro falhas exploradas ao catálogo KEV envolvendo SimpleHelp, Samsung MagicINFO 9 Server e roteadores D-Link DIR-823X. A data limite para agências federais aplicarem correções ou descontinuarem o uso é 8 de maio de 2026. Fonte: The Hacker News - CISA Adds 4 Exploited Flaws to KEV
O experimento quantumslop trocou o backend IBM Quantum por /dev/urandom e manteve o restante do verificador intacto. Se a recuperação de chaves continua com bytes aleatórios, o resultado medido não prova vantagem quântica; prova que o harness aceita candidatos aleatórios suficientes. Fonte: GitHub - quantumslop URANDOM_DEMO
Jeff Geerling testou adaptadores USB de 10 gigabits Ethernet baseados em RTL8159. O achado prático é o de sempre: para chegar perto de 10 gigabits por segundo, precisa de porta USB 3.2 Gen 2x2; em máquinas sem essa porta, o mundo real fica mais perto de 6 a 7 gigabits por segundo. Fonte: Jeff Geerling - New 10 GbE USB adapters
O fwupd 2.1.2 parece atualização pequena, mas traz endurecimento importante: checagem para AMD EntrySign, parser CBOR nativo, limites contra ZIP bombs, teto de 4 GiB para cápsulas UEFI e correções em parsing de arquivos PE maliciosos. Firmware updater roda em caminho privilegiado; parser robusto importa. Fonte: GitHub - fwupd 2.1.2
A AWS colocou TLS híbrido pós-quântico no Secrets Manager para clientes que suportam o recurso. Na prática, a ação principal é atualizar o cliente e verificar no CloudTrail se o campo tlsDetails.keyExchange mostra X25519MLKEM768. Fonte: AWS Security Blog - Protecting your secrets from tomorrow’s quantum risks
A dica git config am.threeWay true, do Michael Catanzaro, é pequena e ótima. Ela faz muitos patches que falhariam no git am caírem em conflito de três vias, como um merge normal. Para mantenedor e backport de segurança, isso economiza tempo e paciência. Fonte: Michael Catanzaro - git config am.threeWay
O ensaio sobre plain text é menos notícia e mais lembrete. Markdown, diagramas ASCII, monospace e arquivos textuais continuam vivos porque atravessam editor, terminal, git, automação e IA com menos atrito do que formatos ricos demais. Fonte: Unsung - Plain text has been around for decades

Acompanhamento de tendências

Lançamento de modelo está virando lançamento de runtime. GPT-5.5 chega com ferramentas hospedadas, DeepSeek V4 força conversa sobre cache e Reasonix tenta explorar comportamento específico do provedor.
A qualidade percebida de agente depende de camadas que muita gente não mede. O postmortem da Anthropic deixa isso explícito: effort, cache, memória, prompt, eval e rollout podem mudar a experiência sem trocar o modelo base.
Segurança está saindo do prompt isolado. Device code phishing, memória persistente, MCP, sandbox, política de comando e audit trail estão na mesma pilha operacional.
As ferramentas boas estão ficando menos mágicas e mais inspecionáveis. Grafo de código, logs, namespaces, allowlists e verificações pequenas parecem detalhes chatos. São exatamente os detalhes que permitem confiar um pouco mais no agente.

Fechando o quadro

O resumo de hoje poderia ser “o modelo continua importante, mas sozinho ele não fecha a conta”. GPT-5.5 mostra o pacote de plataforma. DeepSeek V4 mostra custo e cache. Anthropic mostra que produto em volta do modelo quebra qualidade. Kali365 mostra que identidade falha mesmo quando o login parece legítimo. GitNexus, Stash e VT Code mostram que contexto, memória, política e auditoria já viraram parte do produto.

Não é a parte mais brilhante da IA. É a parte que decide se ela aguenta uso real.