Bitget App
Trading inteligente
Comprar criptoMercadosTradingFuturosRendaWeb3CentralMais
Trading
Spot
Compre e venda criptomoedas
Margem
Amplie seu capital e a eficiência de seus fundos
Onchain
Opere Onchain sem tem que ir on-chain
Converter e bloquear o trade
Converta criptomoedas com um clique e sem taxas
Explorar
Launchhub
Comece a ganhar com vantagens desde o início
Copiar
Copie traders de elite com um clique
Robôs
Robô de trading com IA simples, rápido e confiável
Trading
Futuros USDT
Futuros liquidados em USDT
Futuros USDC
Futuros liquidados em USDC
Futuros Coin-M
Futuros liquidados em criptomoedas
Explorar
Guia de futuros
Uma jornada no trading de futuros
Promoções de futuros
Aproveite recompensas generosas!
Renda Bitget
Uma série de produtos para aumentar seus ativos
Renda Simples
Deposite e retire a qualquer momento para obter retornos flexíveis com risco zero
Renda On-chain
Ganhe lucros diariamente sem arriscar o investimento inicial
Renda estruturada
Inovação financeira robusta para navegar pelas oscilações do mercado
VIP e Gestão de Patrimônio
Serviços premium para uma Gestão de Patrimônio inteligente
Empréstimos
Empréstimo flexível com alta segurança de fundos
Alibaba lança modelo de inteligência artificial Qwen3-Next mais eficiente

Alibaba lança modelo de inteligência artificial Qwen3-Next mais eficiente

金色财经金色财经2025/09/11 22:32
Mostrar original

De acordo com reportagem da Jinse Finance, a Tongyi Qianwen, subsidiária da Alibaba, lançou a próxima geração de arquitetura de modelo fundamental, Qwen3-Next, e abriu o código da série de modelos Qwen3-Next-80B-A3B baseada nessa arquitetura. Em comparação com a estrutura MoE do Qwen3, esta nova arquitetura apresenta as seguintes melhorias principais: mecanismo de atenção híbrida, estrutura MoE de alta esparsidade, uma série de otimizações que favorecem a estabilidade do treinamento e um mecanismo de previsão multi-token que aumenta a eficiência da inferência. Com base na estrutura do modelo Qwen3-Next, a Alibaba treinou o modelo Qwen3-Next-80B-A3B-Base, que possui 80 bilhões de parâmetros, mas ativa apenas 3 bilhões deles. Este modelo Base alcança desempenho semelhante ou até ligeiramente superior ao modelo denso Qwen3-32B, enquanto o custo de treinamento (horas de GPU) é inferior a um décimo do Qwen3-32B, e a taxa de throughput de inferência em contextos acima de 32k é mais de dez vezes maior que a do Qwen3-32B, alcançando uma relação custo-benefício extrema tanto no treinamento quanto na inferência.

0

Aviso Legal: o conteúdo deste artigo reflete exclusivamente a opinião do autor e não representa a plataforma. Este artigo não deve servir como referência para a tomada de decisões de investimento.

PoolX: bloqueie e ganhe!
Até 10% de APR - Quanto mais você bloquear, mais poderá ganhar.
Bloquear agora!