DeepSeek: o que aconteceu com a chinesa que abalou o Vale do Silício?

Em janeiro de 2025, um modelo chinês fazia as ações de diversas big techs derreterem e colocava o Vale do Silício em estado de alerta: o DeepSeek. Até então pouco conhecida pelo mundo, a inteligência artificial chinesa desencadeou um verdadeiro terremoto nos mercados globais ao levantar dúvidas sobre o domínio tecnológico e financeiro das gigantes americanas de IA.

O impacto foi imediato: a Nvidia perdeu quase US$ 600 bilhões em valor de mercado em um único dia, enquanto empresas como Microsoft, Alphabet e fabricantes de chips também registraram quedas expressivas. Em apenas três pregões, as chamadas Magnificent Seven viram US$ 643 bilhões evaporarem — um montante equivalente a quase todo o valor total de mercado de todas as empresas listadas na B3.

Na época, o motivo do pânico nos EUA vinha da ideia de que o DeepSeek parecia combinar desempenho competitivo, código aberto e custos drasticamente menores — o clássico “bom e barato”. O modelo não só rivalizava com soluções como o ChatGPT, como chegou a superar o chatbot da OpenAI em popularidade na Apple Store e alimentar rumores de supostas salas de crise em empresas como a Meta. Mas um ano depois, o que aconteceu com a chinesa?

O sucesso da DeepSeek, no entanto, foi tão rápido quanto a sua queda. Poucos dias após provocar um estrago bilionário nas big techs americanas, a startup chinesa tentou se manter nos holofotes ao anunciar o Janus-Pro, seu modelo gerador de imagens. Além disso, um mês depois, chegou a firmar integrações com fabricantes de smartphones na China para levar seus serviços diretamente aos celulares. As iniciativas, porém, não tiveram o mesmo efeito disruptivo do lançamento inicial. Sem novos avanços capazes de abalar o mercado global e ofuscada pela reação acelerada das concorrentes, a DeepSeek passou, aos poucos, a ser “esquecida” pelo mercado.

Em mais uma tentativa de retornar aos holofotes, em setembro do mesmo ano a DeepSeek anunciou um novo modelo de inteligência artificial, numa movimentação que soou quase desesperada diante da perda de relevância no mercado global. Batizado de DeepSeek-V3.2-Exp, o modelo experimental prometia avanços no processamento de longas sequências de texto e a adoção da chamada Sparse Attention, arquitetura que, segundo a empresa, reduziria custos computacionais e aumentaria a eficiência.

A chinesa também apostou em uma estratégia agressiva de preços, cortando em mais de 50% o valor de sua API para desenvolvedores. Ainda assim, apesar de reacender pontualmente o interesse do setor, o anúncio ficou longe de repetir o impacto das versões que haviam abalado o Vale do Silício meses antes, reforçando a dificuldade da DeepSeek em transformar um retorno técnico promissor em um novo fenômeno de mercado.

Novo método de treinamento de LLMs

Agora, um ano após o auge e a subsequente perda de protagonismo, a DeepSeek volta a chamar atenção por um caminho diferente. Na última semana, a startup chinesa publicou um documento técnico no qual apresenta um novo método para o treinamento de LLMs — Large Language Models, os sistemas de IA usados em chatbots como o ChatGPT e Gemini.

Batizado de “Manifold-Constrained Hyper-Connections” (mHC, numa versão mais curta), esse método promete melhorar a escalabilidade dos modelos ao mesmo tempo em que reduz o consumo de energia e a demanda computacional no treinamento.

Assinado por 19 autores, incluindo o fundador Liang Wenfeng, o trabalho foi divulgado em plataformas abertas como o arXiv e o Hugging Face e reacende as expectativas do mercado para o próximo grande lançamento da empresa, previsto para o início de 2026.

Enquanto as Hyper-Connections comuns melhoram o desempenho ao misturar mais caminhos de informação, elas podem fazer o sinal “explodir” ou se perder ao longo das camadas, dificultando o treinamento. O mHC resolve isso impondo uma nova regra: as conexões residuais passam a combinar informações de maneira controlada, como uma média ponderada bem comportada, preservando a identidade do sinal entre as camadas. Com isso, o modelo consegue crescer em largura e profundidade sem instabilidade, mantém ganhos de desempenho e praticamente não adiciona custo computacional. Além disso, o método é flexível e abre espaço para novas formas de organizar as conexões do modelo, incentivando avanços no desenho de arquiteturas mais eficientes e robustas no futuro.

O post DeepSeek: o que aconteceu com a chinesa que abalou o Vale do Silício? apareceu primeiro em Startups.

DeepSeek: o que aconteceu com a chinesa que abalou o Vale do Silício?

Novo método de treinamento de LLMs

Lerian traz Wendel Paz como Head de Business Development

Grupo Casas Bahia adota solução de pagamento da Cielo e amplia conversões

Henrique Rabenhorst assume como novo diretor de TI da Azul

Bliss levanta R$ 57M para “turbinar” venda de planos de saúde com IA

Wow look at this!

About Salient

DeepSeek: o que aconteceu com a chinesa que abalou o Vale do Silício?

Novo método de treinamento de LLMs

Lerian traz Wendel Paz como Head de Business Development

You May Also Like

Grupo Casas Bahia adota solução de pagamento da Cielo e amplia conversões

Henrique Rabenhorst assume como novo diretor de TI da Azul

Bliss levanta R$ 57M para “turbinar” venda de planos de saúde com IA

Wow look at this!

About Salient