A "batalha das cem modelos" na indústria de IA: os dilemas comerciais por trás da revolução de engenharia
No mês passado, a indústria de IA desencadeou uma "guerra dos animais".
De um lado está um grande modelo de linguagem de código aberto lançado por um gigante da tecnologia, que, devido à sua natureza aberta, é muito apreciado pela comunidade de desenvolvedores. Após estudar artigos e código-fonte relacionados, uma empresa japonesa desenvolveu rapidamente uma versão em japonês de um AI de conversa, resolvendo o problema do gargalo no campo da IA no Japão.
A outra parte é um grande modelo chamado "Falcão". Em maio deste ano, o "Falcão-40B" foi lançado, superando o anterior e alcançando o topo do ranking de modelos de linguagem de código aberto.
Esta lista foi criada por uma comunidade de modelos de código aberto e fornece padrões para avaliar a capacidade de grandes modelos de linguagem. O ranking é basicamente dois competidores alternando na liderança.
O primeiro recuperou temporariamente o primeiro lugar após o lançamento da nova versão; mas no início de setembro, o "Falcão" lançou a versão 180B, obtendo novamente uma classificação mais alta.
Curiosamente, os desenvolvedores do "Falcão" não são uma empresa de tecnologia, mas sim um instituto de pesquisa localizado na capital dos Emirados Árabes Unidos. Pessoas do governo afirmaram: "Estamos envolvidos neste campo para desestabilizar os principais jogadores."
No segundo dia após o lançamento da versão 180B, o Ministro da Inteligência Artificial dos Emirados Árabes Unidos foi selecionado na lista dos "100 mais influentes na área de IA" de uma revista renomada; junto com ele, foram selecionados o "pai da IA" Geoffrey Hinton, o CEO de uma conhecida empresa de IA, e o fundador de uma empresa de tecnologia chinesa.
Atualmente, o campo da IA entrou na fase de competição acirrada: qualquer país ou empresa com algum poder financeiro está, de uma forma ou de outra, desenvolvendo seu próprio modelo de linguagem grande. Apenas no círculo dos países do Golfo, há mais de um jogador — em agosto, a Arábia Saudita acabou de comprar mais de 3000 chips de IA de topo para universidades do país, para treinar modelos de linguagem grande.
Um conhecido investidor reclamou numa plataforma social: "Naquela época, não dei valor à inovação dos modelos de negócios da internet, achando que não havia barreiras: batalha de cem grupos, batalha de cem carros, batalha de cem transmissões; não esperava que o empreendedorismo em hard tech com grandes modelos ainda fosse uma batalha de cem modelos..."
Como é que a chamada tecnologia dura de difícil acesso se transformou num projeto em que vários países competem entre si para desenvolver?
Revolução Transformer
As startups in the United States, tech giants in China, and oil tycoons in the Middle East pursue their dreams of large models, they owe it all to that famous paper: "Attention Is All You Need."
Em 2017, 8 cientistas da computação divulgaram o algoritmo Transformer ao mundo nesta pesquisa. Este artigo é atualmente o terceiro mais citado na história da inteligência artificial, e o surgimento do Transformer desencadeou esta onda atual de entusiasmo pela inteligência artificial.
Independentemente de qual país venha o atual grande modelo, incluindo a série GPT que tem causado sensação no mundo, todos são construídos sobre a base do Transformer.
Antes disso, "ensinar as máquinas a ler" sempre foi um problema acadêmico reconhecido. Diferente do reconhecimento de imagens, quando os humanos leem texto, não apenas prestam atenção nas palavras e frases que estão vendo, mas também combinam com o contexto para entender.
Por exemplo, a palavra "Transformer" pode ser traduzida como "Transformador", mas os leitores deste artigo certamente não entenderão assim, pois todos sabem que este não é um artigo sobre um filme de Hollywood.
Mas as redes neurais iniciais tinham entradas independentes umas das outras, e não possuíam a capacidade de entender textos longos, ou mesmo artigos inteiros, por isso surgiram problemas como traduzir "开水间" para "open water room".
Até 2014, um cientista da computação que trabalhava em uma empresa de tecnologia e depois mudou-se para outra empresa de IA fez a primeira grande descoberta. Ele usou redes neurais recorrentes (RNN) para processar a linguagem natural, fazendo com que o desempenho da tradução automática superasse rapidamente os concorrentes.
RNN propôs o "design cíclico", permitindo que cada neurônio receba tanto a informação de entrada do momento atual quanto a informação de entrada do momento anterior, conferindo assim à rede neural a capacidade de "combinar contextos".
A aparição do RNN acendeu a paixão pela pesquisa na comunidade acadêmica, e um dos autores do artigo do Transformer também se deixou levar por isso. No entanto, os desenvolvedores rapidamente perceberam que o RNN tinha um sério defeito:
O algoritmo utiliza cálculos sequenciais, embora consiga resolver problemas de contexto, a eficiência de execução não é alta e é difícil lidar com um grande número de parâmetros.
O design complicado da RNN rapidamente deixou este autor frustrado. Assim, a partir de 2015, ele e mais sete entusiastas começaram a desenvolver uma alternativa à RNN, cujo resultado foi o Transformer.
Em comparação com o RNN, a transformação do Transformer tem dois pontos:
Primeiro, a codificação de posição substituiu o design cíclico do RNN, permitindo assim o cálculo em paralelo - essa mudança aumentou significativamente a eficiência de treinamento do Transformer, tornando-o capaz de lidar com grandes dados, levando a IA à era dos grandes modelos; segundo, fortaleceu ainda mais a capacidade de contexto.
Com o Transformer resolvendo uma série de defeitos de uma só vez, ele gradualmente se tornou o método padrão no campo do processamento de linguagem natural, quase como se estivesse "abrindo o céu e a terra". Até mesmo os criadores do RNN abandonaram a tecnologia que eles mesmos colocaram em um pedestal, voltando-se para o Transformer.
Em outras palavras, o Transformer é o avô de todos os grandes modelos hoje, porque transformou o grande modelo de um problema de pesquisa teórica em um problema puramente de engenharia.
Em 2019, uma empresa de IA desenvolveu um grande modelo de linguagem baseado em Transformer, que impressionou a comunidade acadêmica. Em resposta, outro gigante da tecnologia lançou rapidamente uma IA com desempenho superior, chamada Meena.
Comparado ao anterior, o Meena não trouxe inovações nos algoritmos subjacentes, apenas aumentou em 8,5 vezes o número de parâmetros de treinamento e 14 vezes a capacidade de cálculo. Os autores do artigo do Transformer ficaram muito impressionados com esse "acúmulo violento" e imediatamente escreveram um memorando intitulado "Meena devora o mundo".
O surgimento do Transformer fez com que a velocidade de inovação dos algoritmos de base na academia diminuísse consideravelmente. Elementos de engenharia como engenharia de dados, escala de computação e arquitetura de modelos tornaram-se fatores cruciais na competição de IA; qualquer empresa de tecnologia com alguma capacidade técnica pode desenvolver um grande modelo.
Portanto, ao fazer uma palestra na Universidade de Stanford, o cientista da computação Andrew Ng mencionou um ponto de vista: "A IA é um conjunto de ferramentas, incluindo aprendizado supervisionado, aprendizado não supervisionado, aprendizado por reforço e agora a inteligência artificial generativa. Todas essas são tecnologias gerais, semelhantes a outras tecnologias gerais como eletricidade e internet."
Embora uma determinada empresa de IA continue a ser um marco para modelos de linguagem de grande escala, uma instituição de análise de semicondutores acredita que a competitividade do seu modelo mais recente vem de soluções de engenharia - se for open source, qualquer concorrente poderá rapidamente reproduzi-lo.
O analista prevê que, talvez não demore muito, outras grandes empresas de tecnologia também consigam desenvolver modelos com desempenho equivalente.
A muralha construída sobre vidro
Atualmente, a "batalha dos cem modelos" já não é uma figura de linguagem, mas uma realidade objetiva.
Relatórios relacionados mostram que, até julho deste ano, o número de grandes modelos no país já atingiu 130, superando os 114 dos Estados Unidos, conseguindo assim uma ultrapassagem em curva. Diversos mitos e lendas já estão quase insuficientes para nomear as empresas de tecnologia do país.
E fora da China e dos EUA, vários países relativamente ricos também começaram a implementar o "um país, um modelo": além do Japão e dos Emirados Árabes Unidos, há também o modelo Bhashini liderado pelo governo indiano, o HyperClova X criado por uma empresa de internet sul-coreana, entre outros.
A situação atual parece nos transportar de volta àquela era de desbravamento da internet, cheia de bolhas e onde a "capacidade monetária" se enfrentava.
Como mencionado anteriormente, o Transformer transformou grandes modelos em um problema puramente de engenharia; desde que alguém tenha dinheiro e placas gráficas, o resto pode ser deixado para os parâmetros. Mas, embora o ingresso não seja difícil de conseguir, isso não significa que todos tenham a oportunidade de se tornar gigantes na era da IA.
O "guerra dos animais" mencionado no início é um caso típico: embora o "falcão" supere os concorrentes no ranking, é difícil dizer quanto impacto causou a algum gigante da tecnologia.
É bem sabido que as empresas que tornam suas pesquisas acessíveis ao público o fazem não apenas para compartilhar os benefícios da tecnologia com a sociedade, mas também para estimular a sabedoria das pessoas. À medida que professores universitários, instituições de pesquisa e pequenas e médias empresas utilizam e melhoram continuamente seus modelos de código aberto, a empresa pode aplicar esses resultados em seus próprios produtos.
Para modelos de código aberto, a comunidade de desenvolvedores ativa é a sua principal vantagem competitiva.
E já em 2015, quando foi criado o laboratório de IA, a empresa estabeleceu a sua linha de base de código aberto; o seu fundador, que fez fortuna com negócios em redes sociais, compreende profundamente a importância de "manter boas relações com o público".
Por exemplo, em outubro, a empresa organizou uma atividade chamada "Incentivo aos Criadores em IA": desenvolvedores que utilizem seu modelo de código aberto para resolver problemas sociais como educação e meio ambiente terão a oportunidade de receber um financiamento de 500 mil dólares.
Até hoje, a série de modelos de código aberto da empresa tornou-se, sem dúvida, um marco para os grandes modelos de linguagem de código aberto.
Até o início de outubro, 8 dos 10 principais do ranking de uma comunidade de modelos de código aberto eram baseados nesse modelo de código aberto, todos utilizando sua licença de código aberto. Somente nessa comunidade, já existem mais de 1500 grandes modelos de linguagem que utilizam essa licença de código aberto.
Claro, melhorar o desempenho como "Falcão" também não é uma má ideia, mas até hoje, a maioria dos grandes modelos de linguagem no mercado ainda apresenta uma diferença de desempenho visível em comparação com um modelo conhecido.
Por exemplo, há alguns dias, este modelo conhecido alcançou a primeira posição no teste AgentBench com uma pontuação de 4,41. O padrão AgentBench foi lançado pela Universidade Tsinghua, pela Universidade Estadual de Ohio e pela Universidade da Califórnia, em Berkeley, para avaliar a capacidade de raciocínio e decisão de grandes modelos de linguagem em ambientes de geração abertos e multidimensionais. O conteúdo do teste inclui tarefas em 8 ambientes diferentes, como sistemas operacionais, bancos de dados, grafos de conhecimento e jogos de cartas.
Os resultados do teste mostram que o segundo modelo teve apenas 2,77 pontos, com uma diferença ainda bastante evidente. Quanto aos grandes modelos de linguagem de código aberto, seus resultados de teste variam em torno de 1 ponto, ficando abaixo de 1/4 do primeiro lugar.
É importante saber que este modelo renomado foi lançado em março deste ano, após uma longa corrida de mais de meio ano por parte dos concorrentes globais. E a razão para essa diferença é a equipe de cientistas por trás dele, com uma "densidade de QI" extremamente alta e a experiência acumulada ao longo de anos de pesquisa em grandes modelos de linguagem, o que lhes permite estar sempre à frente.
Ou seja, a capacidade central de um grande modelo não são os parâmetros, mas sim a construção do ecossistema ( código aberto ) ou pura capacidade de inferência ( código fechado ).
Com a crescente atividade da comunidade de código aberto, o desempenho de vários grandes modelos de linguagem pode tender a convergir, uma vez que todos estão usando arquiteturas de modelos semelhantes e conjuntos de dados semelhantes.
Outro problema mais intuitivo é: além de uma determinada IA de desenho, parece que nenhum grande modelo conseguiu ganhar dinheiro.
Ponto de âncora de valor
Em agosto deste ano, um artigo intitulado "Uma conhecida empresa de IA pode declarar falência até o final de 2024" chamou bastante atenção. A essência do artigo pode ser resumida em uma frase: a empresa está queimando dinheiro muito rapidamente.
O texto menciona que, desde o desenvolvimento do seu famoso modelo de diálogo, as perdas da empresa estão rapidamente a aumentar, tendo perdido cerca de 540 milhões de dólares apenas em 2022, e só podem esperar que algum investidor de uma grande empresa de tecnologia pague a conta.
Embora o título do artigo seja alarmante, ele também revela a situação de vários fornecedores de grandes modelos: um grave desequilíbrio entre custos e receitas.
Custos excessivamente altos resultaram no fato de que, atualmente, apenas uma empresa de chips está ganhando muito dinheiro com inteligência artificial, no máximo mais uma fabricante de chips.
Segundo estimativas de uma empresa de consultoria, uma empresa de chips vendeu mais de 300.000 de seus mais recentes chips de IA no segundo trimestre deste ano. Este é um chip com uma eficiência incrível para treinar IA, e empresas de tecnologia e instituições de pesquisa em todo o mundo estão a comprá-los a todo o vapor. Se empilhássemos esses 300.000 chips vendidos, o seu peso seria equivalente ao de 4,5 aviões Boeing 747.
O desempenho da empresa de chips também disparou, com uma receita que aumentou 854% em relação ao ano anterior, surpreendendo Wall Street. A propósito, atualmente, o preço deste chip no mercado de segunda mão já foi inflacionado para 40 a 50 mil dólares, mas seu custo de material é de pouco mais de 3000 dólares.
Os altos custos de capacidade computacional tornaram-se, de certa forma, um obstáculo ao desenvolvimento da indústria. Um conhecido fundo de investimento de risco fez um cálculo: as empresas de tecnologia em todo o mundo devem gastar 200 bilhões de dólares por ano na construção de infraestrutura para grandes modelos; em contraste, os grandes modelos só podem gerar, no máximo, 75 bilhões de dólares em receita anualmente, existindo uma lacuna de pelo menos 125 bilhões de dólares.
Além disso, com exceção de algumas raras exceções como certas IAs de desenho, a maioria das empresas de software, após incorrerem em enormes custos, ainda não pensou claramente em como lucrar. Especialmente os dois líderes da indústria — uma certa gigante da tecnologia e uma certa empresa de software de design — estão a caminhar de forma um pouco hesitante.
uma grande empresa de tecnologia e uma empresa de IA colaboraram no desenvolvimento de uma ferramenta de geração de código de IA, embora
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
19 Curtidas
Recompensa
19
6
Repostar
Compartilhar
Comentário
0/400
HappyMinerUncle
· 08-12 05:23
O trabalhador realmente está em competição interna.
Ver originalResponder0
tokenomics_truther
· 08-11 10:25
Qual é a utilidade de jogar jogos digitais? Vamos falar depois de apresentar casos práticos.
Ver originalResponder0
TrustMeBro
· 08-11 10:25
É outra batalha pelo ranking, não é?
Ver originalResponder0
FarmToRiches
· 08-11 10:19
Sinto que o Open Home está cada vez mais divertido ~
Ver originalResponder0
LiquidatedNotStirred
· 08-11 10:17
A batalha dos cem modelos, hehe, todos chegam ao mesmo destino.
Ver originalResponder0
GamefiHarvester
· 08-11 10:15
Código aberto fazer as pessoas de parvas mais interessante
A Grande Batalha das IAs: Dilemas Comerciais e Exploração de Valor na Revolução da Engenharia
A "batalha das cem modelos" na indústria de IA: os dilemas comerciais por trás da revolução de engenharia
No mês passado, a indústria de IA desencadeou uma "guerra dos animais".
De um lado está um grande modelo de linguagem de código aberto lançado por um gigante da tecnologia, que, devido à sua natureza aberta, é muito apreciado pela comunidade de desenvolvedores. Após estudar artigos e código-fonte relacionados, uma empresa japonesa desenvolveu rapidamente uma versão em japonês de um AI de conversa, resolvendo o problema do gargalo no campo da IA no Japão.
A outra parte é um grande modelo chamado "Falcão". Em maio deste ano, o "Falcão-40B" foi lançado, superando o anterior e alcançando o topo do ranking de modelos de linguagem de código aberto.
Esta lista foi criada por uma comunidade de modelos de código aberto e fornece padrões para avaliar a capacidade de grandes modelos de linguagem. O ranking é basicamente dois competidores alternando na liderança.
O primeiro recuperou temporariamente o primeiro lugar após o lançamento da nova versão; mas no início de setembro, o "Falcão" lançou a versão 180B, obtendo novamente uma classificação mais alta.
Curiosamente, os desenvolvedores do "Falcão" não são uma empresa de tecnologia, mas sim um instituto de pesquisa localizado na capital dos Emirados Árabes Unidos. Pessoas do governo afirmaram: "Estamos envolvidos neste campo para desestabilizar os principais jogadores."
No segundo dia após o lançamento da versão 180B, o Ministro da Inteligência Artificial dos Emirados Árabes Unidos foi selecionado na lista dos "100 mais influentes na área de IA" de uma revista renomada; junto com ele, foram selecionados o "pai da IA" Geoffrey Hinton, o CEO de uma conhecida empresa de IA, e o fundador de uma empresa de tecnologia chinesa.
Atualmente, o campo da IA entrou na fase de competição acirrada: qualquer país ou empresa com algum poder financeiro está, de uma forma ou de outra, desenvolvendo seu próprio modelo de linguagem grande. Apenas no círculo dos países do Golfo, há mais de um jogador — em agosto, a Arábia Saudita acabou de comprar mais de 3000 chips de IA de topo para universidades do país, para treinar modelos de linguagem grande.
Um conhecido investidor reclamou numa plataforma social: "Naquela época, não dei valor à inovação dos modelos de negócios da internet, achando que não havia barreiras: batalha de cem grupos, batalha de cem carros, batalha de cem transmissões; não esperava que o empreendedorismo em hard tech com grandes modelos ainda fosse uma batalha de cem modelos..."
Como é que a chamada tecnologia dura de difícil acesso se transformou num projeto em que vários países competem entre si para desenvolver?
Revolução Transformer
As startups in the United States, tech giants in China, and oil tycoons in the Middle East pursue their dreams of large models, they owe it all to that famous paper: "Attention Is All You Need."
Em 2017, 8 cientistas da computação divulgaram o algoritmo Transformer ao mundo nesta pesquisa. Este artigo é atualmente o terceiro mais citado na história da inteligência artificial, e o surgimento do Transformer desencadeou esta onda atual de entusiasmo pela inteligência artificial.
Independentemente de qual país venha o atual grande modelo, incluindo a série GPT que tem causado sensação no mundo, todos são construídos sobre a base do Transformer.
Antes disso, "ensinar as máquinas a ler" sempre foi um problema acadêmico reconhecido. Diferente do reconhecimento de imagens, quando os humanos leem texto, não apenas prestam atenção nas palavras e frases que estão vendo, mas também combinam com o contexto para entender.
Por exemplo, a palavra "Transformer" pode ser traduzida como "Transformador", mas os leitores deste artigo certamente não entenderão assim, pois todos sabem que este não é um artigo sobre um filme de Hollywood.
Mas as redes neurais iniciais tinham entradas independentes umas das outras, e não possuíam a capacidade de entender textos longos, ou mesmo artigos inteiros, por isso surgiram problemas como traduzir "开水间" para "open water room".
Até 2014, um cientista da computação que trabalhava em uma empresa de tecnologia e depois mudou-se para outra empresa de IA fez a primeira grande descoberta. Ele usou redes neurais recorrentes (RNN) para processar a linguagem natural, fazendo com que o desempenho da tradução automática superasse rapidamente os concorrentes.
RNN propôs o "design cíclico", permitindo que cada neurônio receba tanto a informação de entrada do momento atual quanto a informação de entrada do momento anterior, conferindo assim à rede neural a capacidade de "combinar contextos".
A aparição do RNN acendeu a paixão pela pesquisa na comunidade acadêmica, e um dos autores do artigo do Transformer também se deixou levar por isso. No entanto, os desenvolvedores rapidamente perceberam que o RNN tinha um sério defeito:
O algoritmo utiliza cálculos sequenciais, embora consiga resolver problemas de contexto, a eficiência de execução não é alta e é difícil lidar com um grande número de parâmetros.
O design complicado da RNN rapidamente deixou este autor frustrado. Assim, a partir de 2015, ele e mais sete entusiastas começaram a desenvolver uma alternativa à RNN, cujo resultado foi o Transformer.
Em comparação com o RNN, a transformação do Transformer tem dois pontos:
Primeiro, a codificação de posição substituiu o design cíclico do RNN, permitindo assim o cálculo em paralelo - essa mudança aumentou significativamente a eficiência de treinamento do Transformer, tornando-o capaz de lidar com grandes dados, levando a IA à era dos grandes modelos; segundo, fortaleceu ainda mais a capacidade de contexto.
Com o Transformer resolvendo uma série de defeitos de uma só vez, ele gradualmente se tornou o método padrão no campo do processamento de linguagem natural, quase como se estivesse "abrindo o céu e a terra". Até mesmo os criadores do RNN abandonaram a tecnologia que eles mesmos colocaram em um pedestal, voltando-se para o Transformer.
Em outras palavras, o Transformer é o avô de todos os grandes modelos hoje, porque transformou o grande modelo de um problema de pesquisa teórica em um problema puramente de engenharia.
Em 2019, uma empresa de IA desenvolveu um grande modelo de linguagem baseado em Transformer, que impressionou a comunidade acadêmica. Em resposta, outro gigante da tecnologia lançou rapidamente uma IA com desempenho superior, chamada Meena.
Comparado ao anterior, o Meena não trouxe inovações nos algoritmos subjacentes, apenas aumentou em 8,5 vezes o número de parâmetros de treinamento e 14 vezes a capacidade de cálculo. Os autores do artigo do Transformer ficaram muito impressionados com esse "acúmulo violento" e imediatamente escreveram um memorando intitulado "Meena devora o mundo".
O surgimento do Transformer fez com que a velocidade de inovação dos algoritmos de base na academia diminuísse consideravelmente. Elementos de engenharia como engenharia de dados, escala de computação e arquitetura de modelos tornaram-se fatores cruciais na competição de IA; qualquer empresa de tecnologia com alguma capacidade técnica pode desenvolver um grande modelo.
Portanto, ao fazer uma palestra na Universidade de Stanford, o cientista da computação Andrew Ng mencionou um ponto de vista: "A IA é um conjunto de ferramentas, incluindo aprendizado supervisionado, aprendizado não supervisionado, aprendizado por reforço e agora a inteligência artificial generativa. Todas essas são tecnologias gerais, semelhantes a outras tecnologias gerais como eletricidade e internet."
Embora uma determinada empresa de IA continue a ser um marco para modelos de linguagem de grande escala, uma instituição de análise de semicondutores acredita que a competitividade do seu modelo mais recente vem de soluções de engenharia - se for open source, qualquer concorrente poderá rapidamente reproduzi-lo.
O analista prevê que, talvez não demore muito, outras grandes empresas de tecnologia também consigam desenvolver modelos com desempenho equivalente.
A muralha construída sobre vidro
Atualmente, a "batalha dos cem modelos" já não é uma figura de linguagem, mas uma realidade objetiva.
Relatórios relacionados mostram que, até julho deste ano, o número de grandes modelos no país já atingiu 130, superando os 114 dos Estados Unidos, conseguindo assim uma ultrapassagem em curva. Diversos mitos e lendas já estão quase insuficientes para nomear as empresas de tecnologia do país.
E fora da China e dos EUA, vários países relativamente ricos também começaram a implementar o "um país, um modelo": além do Japão e dos Emirados Árabes Unidos, há também o modelo Bhashini liderado pelo governo indiano, o HyperClova X criado por uma empresa de internet sul-coreana, entre outros.
A situação atual parece nos transportar de volta àquela era de desbravamento da internet, cheia de bolhas e onde a "capacidade monetária" se enfrentava.
Como mencionado anteriormente, o Transformer transformou grandes modelos em um problema puramente de engenharia; desde que alguém tenha dinheiro e placas gráficas, o resto pode ser deixado para os parâmetros. Mas, embora o ingresso não seja difícil de conseguir, isso não significa que todos tenham a oportunidade de se tornar gigantes na era da IA.
O "guerra dos animais" mencionado no início é um caso típico: embora o "falcão" supere os concorrentes no ranking, é difícil dizer quanto impacto causou a algum gigante da tecnologia.
É bem sabido que as empresas que tornam suas pesquisas acessíveis ao público o fazem não apenas para compartilhar os benefícios da tecnologia com a sociedade, mas também para estimular a sabedoria das pessoas. À medida que professores universitários, instituições de pesquisa e pequenas e médias empresas utilizam e melhoram continuamente seus modelos de código aberto, a empresa pode aplicar esses resultados em seus próprios produtos.
Para modelos de código aberto, a comunidade de desenvolvedores ativa é a sua principal vantagem competitiva.
E já em 2015, quando foi criado o laboratório de IA, a empresa estabeleceu a sua linha de base de código aberto; o seu fundador, que fez fortuna com negócios em redes sociais, compreende profundamente a importância de "manter boas relações com o público".
Por exemplo, em outubro, a empresa organizou uma atividade chamada "Incentivo aos Criadores em IA": desenvolvedores que utilizem seu modelo de código aberto para resolver problemas sociais como educação e meio ambiente terão a oportunidade de receber um financiamento de 500 mil dólares.
Até hoje, a série de modelos de código aberto da empresa tornou-se, sem dúvida, um marco para os grandes modelos de linguagem de código aberto.
Até o início de outubro, 8 dos 10 principais do ranking de uma comunidade de modelos de código aberto eram baseados nesse modelo de código aberto, todos utilizando sua licença de código aberto. Somente nessa comunidade, já existem mais de 1500 grandes modelos de linguagem que utilizam essa licença de código aberto.
Claro, melhorar o desempenho como "Falcão" também não é uma má ideia, mas até hoje, a maioria dos grandes modelos de linguagem no mercado ainda apresenta uma diferença de desempenho visível em comparação com um modelo conhecido.
Por exemplo, há alguns dias, este modelo conhecido alcançou a primeira posição no teste AgentBench com uma pontuação de 4,41. O padrão AgentBench foi lançado pela Universidade Tsinghua, pela Universidade Estadual de Ohio e pela Universidade da Califórnia, em Berkeley, para avaliar a capacidade de raciocínio e decisão de grandes modelos de linguagem em ambientes de geração abertos e multidimensionais. O conteúdo do teste inclui tarefas em 8 ambientes diferentes, como sistemas operacionais, bancos de dados, grafos de conhecimento e jogos de cartas.
Os resultados do teste mostram que o segundo modelo teve apenas 2,77 pontos, com uma diferença ainda bastante evidente. Quanto aos grandes modelos de linguagem de código aberto, seus resultados de teste variam em torno de 1 ponto, ficando abaixo de 1/4 do primeiro lugar.
É importante saber que este modelo renomado foi lançado em março deste ano, após uma longa corrida de mais de meio ano por parte dos concorrentes globais. E a razão para essa diferença é a equipe de cientistas por trás dele, com uma "densidade de QI" extremamente alta e a experiência acumulada ao longo de anos de pesquisa em grandes modelos de linguagem, o que lhes permite estar sempre à frente.
Ou seja, a capacidade central de um grande modelo não são os parâmetros, mas sim a construção do ecossistema ( código aberto ) ou pura capacidade de inferência ( código fechado ).
Com a crescente atividade da comunidade de código aberto, o desempenho de vários grandes modelos de linguagem pode tender a convergir, uma vez que todos estão usando arquiteturas de modelos semelhantes e conjuntos de dados semelhantes.
Outro problema mais intuitivo é: além de uma determinada IA de desenho, parece que nenhum grande modelo conseguiu ganhar dinheiro.
Ponto de âncora de valor
Em agosto deste ano, um artigo intitulado "Uma conhecida empresa de IA pode declarar falência até o final de 2024" chamou bastante atenção. A essência do artigo pode ser resumida em uma frase: a empresa está queimando dinheiro muito rapidamente.
O texto menciona que, desde o desenvolvimento do seu famoso modelo de diálogo, as perdas da empresa estão rapidamente a aumentar, tendo perdido cerca de 540 milhões de dólares apenas em 2022, e só podem esperar que algum investidor de uma grande empresa de tecnologia pague a conta.
Embora o título do artigo seja alarmante, ele também revela a situação de vários fornecedores de grandes modelos: um grave desequilíbrio entre custos e receitas.
Custos excessivamente altos resultaram no fato de que, atualmente, apenas uma empresa de chips está ganhando muito dinheiro com inteligência artificial, no máximo mais uma fabricante de chips.
Segundo estimativas de uma empresa de consultoria, uma empresa de chips vendeu mais de 300.000 de seus mais recentes chips de IA no segundo trimestre deste ano. Este é um chip com uma eficiência incrível para treinar IA, e empresas de tecnologia e instituições de pesquisa em todo o mundo estão a comprá-los a todo o vapor. Se empilhássemos esses 300.000 chips vendidos, o seu peso seria equivalente ao de 4,5 aviões Boeing 747.
O desempenho da empresa de chips também disparou, com uma receita que aumentou 854% em relação ao ano anterior, surpreendendo Wall Street. A propósito, atualmente, o preço deste chip no mercado de segunda mão já foi inflacionado para 40 a 50 mil dólares, mas seu custo de material é de pouco mais de 3000 dólares.
Os altos custos de capacidade computacional tornaram-se, de certa forma, um obstáculo ao desenvolvimento da indústria. Um conhecido fundo de investimento de risco fez um cálculo: as empresas de tecnologia em todo o mundo devem gastar 200 bilhões de dólares por ano na construção de infraestrutura para grandes modelos; em contraste, os grandes modelos só podem gerar, no máximo, 75 bilhões de dólares em receita anualmente, existindo uma lacuna de pelo menos 125 bilhões de dólares.
Além disso, com exceção de algumas raras exceções como certas IAs de desenho, a maioria das empresas de software, após incorrerem em enormes custos, ainda não pensou claramente em como lucrar. Especialmente os dois líderes da indústria — uma certa gigante da tecnologia e uma certa empresa de software de design — estão a caminhar de forma um pouco hesitante.
uma grande empresa de tecnologia e uma empresa de IA colaboraram no desenvolvimento de uma ferramenta de geração de código de IA, embora