Bitget App
Trade smarter
Comprar criptomoedasMercadosTradingFuturosEarnWeb3CentroMais
Trading
Spot
Compre e venda criptomoedas
Margem
Aumente e maximize a eficiência do seu capital
Onchain
Trading Onchain sem ter de ir Onchain
Convert e Transação em bloco
Converta criptomoedas com um só clique e sem taxas
Explorar
Launchhub
Comece a ganhar desde cedo
Copiar
Copie traders de elite com um só clique
Bots
Bot de trading com IA simples, rápido e fiável
Trading
Futuros em USDT-M
Futuros liquidados em USDT
Futuros em USDC-M
Futuros liquidados em USDC
Futuros em Moeda-M
Futuros liquidados em criptomoedas
Explorar
Guia de futuros
Uma viagem de principiante a veterano no trading de futuros
Campanhas de futuros
Desfrute de recompensas generosas
Bitget Earn
Uma variedade de produtos para aumentar os seus ativos
Earn simples
Deposite e levante a qualquer altura para obter rendimentos flexíveis sem riscos
Earn On-chain
Lucre diariamente sem arriscar capital
Earn estruturado
Inovações financeiras robustas para navegar pelas oscilações do mercado
VIP e Gestão de património
Serviços premium para uma gestão inteligente de património
Empréstimos
Empréstimos flexíveis com elevada segurança de fundos
Alibaba lança modelo de inteligência artificial Qwen3-Next mais eficiente

Alibaba lança modelo de inteligência artificial Qwen3-Next mais eficiente

金色财经金色财经2025/09/11 22:32
Mostrar original

Jinse Finance reporta que a Tongyi Qianwen, subsidiária da Alibaba, lançou a próxima geração de arquitetura de modelo fundamental, Qwen3-Next, e tornou open source a série de modelos Qwen3-Next-80B-A3B baseada nesta arquitetura. Em comparação com a arquitetura MoE do Qwen3, esta estrutura realizou as seguintes melhorias principais: mecanismo de atenção híbrida, estrutura MoE de alta esparsidade, uma série de otimizações para maior estabilidade no treinamento, além de um mecanismo de previsão multi-token que aumenta a eficiência da inferência. Com base na estrutura do modelo Qwen3-Next, a Alibaba treinou o modelo Qwen3-Next-80B-A3B-Base, que possui 80 bilhões de parâmetros, ativando apenas 3 bilhões de parâmetros. Este modelo Base alcançou desempenho semelhante ou até ligeiramente superior ao modelo denso Qwen3-32B, enquanto o custo de treinamento (horas de GPU) é inferior a um décimo do Qwen3-32B, e a taxa de throughput de inferência em contextos acima de 32k é mais de dez vezes maior que a do Qwen3-32B, alcançando uma relação custo-benefício extrema em treinamento e inferência.

0

Aviso Legal: o conteúdo deste artigo reflete exclusivamente a opinião do autor e não representa a plataforma. Este artigo não deve servir como referência para a tomada de decisões de investimento.

PoolX: Bloqueie e ganhe
Pelo menos 12% de APR. Quanto mais bloquear, mais pode ganhar.
Bloquear agora!