AI Çok Modlu Savaşı: Mühendislik Devrimi Altındaki Ticari Zorluklar ve Değer Keşfi

AI endüstrisinin "yüz model savaşı": mühendislik devriminin arkasındaki ticari sıkıntılar

Geçen ay, AI endüstrisinde bir "hayvan savaşı" patlak verdi.

Bir taraf, bir teknoloji devinin piyasaya sürdüğü açık kaynaklı büyük dil modeli, açık özellikleri nedeniyle geliştirici topluluğu tarafından büyük ilgi görüyor. Japonya'daki bir şirket, ilgili makaleleri ve kaynak kodunu inceledikten sonra, hızlı bir şekilde Japonca versiyonunu geliştirdi ve Japonya'nın AI alanındaki darboğaz sorununu çözdü.

Diğer taraf, "Şahin" adını taşıyan büyük bir modeldir. Bu yıl Mayıs ayında, "Şahin-40B" piyasaya sürüldü ve önceki modeli geride bırakarak açık kaynak büyük dil modeli sıralamasında zirveye çıktı.

Bu liste, büyük dil modellerinin yeteneklerini değerlendirmek için standartlar sağlayan bir açık kaynak model topluluğu tarafından hazırlanmıştır. Sıralama esasen ikisinin dönüşümlü olarak zirveye çıkmasından ibarettir.

Önceki sürüm yeni bir versiyonunu çıkardıktan sonra geçici olarak birinciliği ele geçirdi; ancak Eylül ayının başında, "Şahin" 180B sürümünü piyasaya sürdü ve tekrar daha yüksek bir sıralama elde etti.

İlginçtir ki, "Şahin"in geliştiricisi bir teknoloji şirketi değil, Birleşik Arap Emirlikleri'nin başkentinde bulunan bir araştırma enstitüsüdür. Hükümet yetkilileri, "Bu alanda yer almamızın nedeni ana oyuncuları alt üst etmek" dedi.

180B sürümünün yayımlanmasından bir gün sonra, Birleşik Arap Emirlikleri Yapay Zeka Bakanı, tanınmış bir derginin "Yapay Zeka alanındaki en etkili 100 kişi" listesine seçildi; onunla birlikte "Yapay Zeka babası" Hinton, tanınmış bir yapay zeka şirketinin CEO'su ve Çin'deki bir teknoloji şirketinin kurucusu da yer aldı.

Artık AI alanı birçok oyuncunun mücadele ettiği bir aşamaya girdi: Bir miktar mali güce sahip olan ülkeler ve şirketler, az çok kendi büyük dil modellerini oluşturuyor. Sadece Körfez ülkeleri arasında değil, birden fazla oyuncu var - Ağustos'ta, Suudi Arabistan, yerel üniversiteler için 3000'den fazla üst düzey AI çipi satın aldı ve bunları büyük dil modellerini eğitmek için kullanacak.

Ünlü bir yatırımcı sosyal medya platformunda şunları söyledi: "Geçmişte internetin iş modeli inovasyonuna önem vermemiştim, hiçbir engel yoktu: yüzlerce grup savaşı, yüzlerce araç savaşı, yüzlerce yayın savaşı; ama sert teknoloji büyük modeller girişimi, yine de yüzlerce model savaşı..."

Yüksek zorluk derecesine sahip sert teknolojiler nasıl oldu da ülkelerin yarıştığı bir proje haline geldi?

Transformer Devrimi

Amerika'nın yeni şirketleri, Çin'in teknoloji devleri ve Orta Doğu'nun petrol baronları büyük model hayallerini peşinden koşabiliyor, bu da o ünlü makaleye borçlu: "Attention Is All You Need".

2017'de, 8 bilgisayar bilimcisi bu makalede, tüm dünyaya Transformer algoritmasını açıkladı. Bu makale, şu anda yapay zeka tarihindeki en çok atıf yapılan üçüncü makaledir ve Transformer'ın ortaya çıkışı, bu yapay zeka dalgasını tetikledi.

Hangi ülkeden gelirse gelsin, dünya çapında yankı uyandıran GPT serisi de dahil olmak üzere, mevcut büyük modellerin hepsi Transformer temeli üzerine inşa edilmiştir.

Bundan önce, "makineleri okumayı öğretmek" kabul görmüş bir akademik zorluktu. Görüntü tanımadan farklı olarak, insanlar metin okurken yalnızca gördükleri kelimelere odaklanmakla kalmaz, aynı zamanda bağlamı da anlayarak yorumlarlar.

Örneğin, "Transformer" kelimesi aslında "Değişim Robotları" olarak çevrilebilir, ancak bu makalenin okuyucuları kesinlikle böyle anlamayacaktır, çünkü herkes bunun Hollywood filmi hakkında bir makale olmadığını biliyor.

Ancak erken dönem sinir ağlarının girdileri birbirinden bağımsızdı ve uzun metinleri, hatta bir makalenin tamamını anlama yeteneğine sahip değildi, bu yüzden "开水间" ifadesinin "open water room" olarak çevrilmesi gibi sorunlar ortaya çıkıyordu.

2014 yılına kadar, bir teknoloji şirketinde çalışan ve daha sonra başka bir AI şirketine geçen bir bilgisayar bilimci ilk atılımı gerçekleştirdi. Doğal dili işlemek için döngüsel sinir ağları (RNN) kullandı ve makine çevirisinin performansı rakiplerini hızla geride bıraktı.

RNN, her nöron hem mevcut zaman dilimindeki girdi bilgilerini hem de bir önceki zaman dilimindeki girdi bilgilerini almasını sağlayan "döngüsel tasarım"ı önerdi. Bu sayede sinir ağı, "bağlamı birleştirme" yeteneğine sahip oldu.

RNN'nin ortaya çıkışı akademik çevrelerdeki araştırma hevesini ateşledi, daha sonra Transformer'ın makale yazarlarından biri bir süre buna kapıldı. Ancak geliştiriciler kısa sürede RNN'nin ciddi bir kusuru olduğunu fark ettiler:

Bu algoritma sıralı hesaplama kullanıyor, bu elbette bağlam sorunlarını çözebilir, ancak çalışma verimliliği yüksek değil ve çok sayıda parametreyi işlemek zor.

RNN'nin karmaşık tasarımı, bu yazara kısa sürede bıkkınlık verdi. Bu nedenle, 2015'ten itibaren, 7 benzer ilgiye sahip kişi ile birlikte RNN'nin alternatifini geliştirmeye başladılar ve sonuç olarak Transformer ortaya çıktı.

RNN ile karşılaştırıldığında, Transformer'ın devrimci yönleri iki noktadır:

Birincisi, pozisyon kodlaması kullanarak RNN'in döngüsel tasarımını değiştirdi ve böylece paralel hesaplamayı mümkün kıldı - bu değişiklik, Transformer'ın eğitim verimliliğini büyük ölçüde artırdı ve büyük verileri işleyebilme yeteneği kazandırdı, AI'yı büyük model çağında ileriye taşıdı; ikincisi, bağlam yeteneğini daha da güçlendirdi.

Transformer, birçok sorunu bir anda çözmesiyle birlikte, doğal dil işleme alanında standart bir yöntem haline geldi ve adeta "dünyayı yerinden oynatmak" gibi bir etki yarattı. Hatta RNN'in yaratıcısı, kendi elleriyle yücelttiği bu teknolojiyi bir kenara bırakarak Transformer'a yöneldi.

Başka bir deyişle, Transformer günümüzdeki tüm büyük modellerin atasıdır, çünkü onu büyük modelleri bir teorik araştırma sorunu olmaktan çıkarıp tamamen bir mühendislik sorunu haline getirmiştir.

2019'da, bir AI şirketi Transformer tabanlı büyük bir dil modeli geliştirdi ve bu, akademik dünyayı bir süre etkiledi. Bir yanıt olarak, başka bir teknoloji devi daha güçlü bir AI olan Meena'yı hızla piyasaya sürdü.

Öncekine kıyasla, Meena'nın temel algoritmasında bir yenilik yok, sadece 8.5 kat daha fazla eğitim parametresi ve 14 kat daha fazla hesaplama gücü var. Transformer makalesinin yazarları bu "şiddetli yığma" durumuna çok şaşırdı ve hemen "Meena dünyayı yutuyor" başlıklı bir not yazdılar.

Transformer'ın ortaya çıkması, akademik camiada alt düzey algoritma yeniliklerinin hızını büyük ölçüde yavaşlattı. Veri mühendisliği, hesaplama ölçeği, model mimarisi gibi mühendislik unsurları, AI yarışmalarında önemli bir kazanma veya kaybetme faktörü haline geldi; biraz teknik yeteneği olan teknoloji şirketleri, büyük bir model geliştirebilir.

Bu nedenle, bilgisayar bilimcisi Andrew Ng, Stanford Üniversitesi'nde bir konuşma yaparken şu görüşü belirtti: "Yapay zeka, denetimli öğrenme, denetimsiz öğrenme, pekiştirmeli öğrenme ve günümüzdeki üretken yapay zeka da dahil olmak üzere bir dizi aracın toplamıdır. Tüm bunlar, elektrik ve internet gibi diğer genel teknolojilerle benzerlik gösteren genel teknolojilerdir."

Bir AI şirketi elbette büyük dil modellerinin bir gösterge noktası olmaya devam ediyor, ancak yarı iletken analiz kuruluşları, en son modelinin rekabet gücünün mühendislik çözümlerinden kaynaklandığını düşünüyor - açık kaynak olursa, herhangi bir rakip hızlı bir şekilde yeniden üretebilir.

Bu analist, belki de fazla uzun sürmeyeceğini, diğer büyük teknoloji şirketlerinin de aynı performansa sahip büyük modeller geliştirebileceğini öngörüyor.

Cam Üzerindeki Koruma Hendek

Şu anda, "Yüz Model Savaşı" artık bir retorik araç değil, objektif bir gerçeklik haline geldi.

İlgili raporlar, bu yıl Temmuz ayı itibarıyla, yurt içinde büyük model sayısının 130'a ulaştığını, ABD'deki 114'ün üzerine çıkarak başarılı bir şekilde virajı geçtiklerini gösteriyor. Çeşitli efsaneler artık yurt içindeki teknoloji şirketlerine isim vermekte yetersiz kalıyor.

Ve Çin ve Amerika Birleşik Devletleri dışında, bir dizi daha zengin ülke de "bir ülke bir model" ilkesini ilk aşamada gerçekleştirdi: Japonya ve Birleşik Arap Emirlikleri'nin yanı sıra, Hindistan hükümetinin öncülüğündeki büyük model Bhashini, Koreli bir internet şirketinin geliştirdiği HyperClova X gibi.

Gözlerimin önündeki bu manzara, sanki her tarafın köpüklerle kaplandığı, "nakit gücü" ile çatışmaların yaşandığı internetin keşif dönemine geri dönmüş gibi.

Daha önce belirtildiği gibi, Transformer büyük modelleri tamamen mühendislik sorunu haline getirdi, eğer birisi paraya ve ekran kartına sahipse, gerisi parametrelerin işine bırakılıyor. Ancak giriş bileti bulmak zor değil, bu da herkesin AI çağının devlerinden biri olma fırsatına sahip olduğu anlamına gelmiyor.

Başlangıçta bahsedilen "hayvan savaşları" tipik bir örnektir: "Şahin" rakiplerini sıralamada geride bırakmasına rağmen, belirli bir teknoloji devine ne kadar etki yaptığı konusunda kesin bir şey söylemek zor.

Herkesin bildiği gibi, şirketler kendi araştırma sonuçlarını açık kaynak yaparak, hem toplumla teknolojinin faydalarını paylaşmayı amaçlıyor hem de halkın zekasını harekete geçirmeyi umuyor. Çeşitli üniversite hocaları, araştırma kurumları ve küçük-orta ölçekli işletmeler açık kaynak modellerini sürekli olarak kullanıp geliştirirken, bu şirket bu sonuçları kendi ürünlerinde uygulayabilir.

Açık kaynak büyük modeller için, aktif geliştirici topluluğu, onların çekirdek rekabet gücüdür.

2015 yılında AI laboratuvarı kurulduğunda, şirket açık kaynak ana tonunu belirlemişti; kurucusu sosyal medya işinden gelen bir aileden ve "kamuyla iyi ilişkiler kurma" konusunda oldukça deneyimlidir.

Örneğin, Ekim ayında şirket, "AI Tabanlı Yaratıcı Teşvik" etkinliği düzenledi: Açık kaynaklı modellerini eğitim, çevre gibi sosyal sorunları çözmek için kullanan geliştiriciler, 500.000 ABD doları hibe alma şansına sahip olacaklar.

Bugün itibarıyla, şirketin açık kaynaklı model serisi açık kaynak büyük dil modellerinin bir yön göstericisi haline gelmiştir.

Ekim ayı başı itibarıyla, bir açık kaynak model topluluğunun sıralamasında ilk 10'da yer alan 8 model, bu açık kaynak modeline dayanarak oluşturulmuş olup, hepsi açık kaynak lisansını kullanmaktadır. Bu toplulukta, bu açık kaynak lisansını kullanan büyük dil modellerinin sayısı 1500'ü aşmıştır.

Elbette, "Şahin" gibi performansı artırmak da mümkündür, ancak bugüne kadar piyasadaki çoğu büyük dil modeli, belirli bir tanınmış modelle gözle görülür bir performans farkına sahiptir.

Örneğin, geçtiğimiz günlerde bu ünlü model, 4.41 puanla AgentBench testinde birinci oldu. AgentBench standardı, Tsinghua Üniversitesi ile Ohio Eyalet Üniversitesi ve Kaliforniya Üniversitesi, Berkeley tarafından birlikte geliştirilmiştir ve büyük dil modellerinin çok boyutlu açık üretim ortamlarındaki akıl yürütme ve karar verme yeteneklerini değerlendirmek için kullanılmaktadır. Test içeriği, işletim sistemleri, veritabanları, bilgi grafikleri, kart savaşları gibi 8 farklı ortamda görevleri içermektedir.

Test sonuçları, ikinci sıradaki başka bir modelin sadece 2.77 puan aldığını ve farkın hala belirgin olduğunu gösteriyor. Oysa o görkemli açık kaynaklı büyük dil modellerinin test sonuçları genellikle 1 puan civarında dolaşıyor, birincinin 1/4'ünden bile az.

Bilinmelidir ki, bu ünlü model bu yılın Mart ayında piyasaya sürüldü ve bu, küresel rakiplerin altı aydan fazla bir süre boyunca takip etmesinin ardından elde edilen bir başarıdır. Bu farkın nedeni, arkasındaki "zeka yoğunluğu" son derece yüksek bilim insanı ekibi ve uzun süreli büyük dil modelleri üzerine birikmiş deneyimdir, bu nedenle her zaman geride kalmadan ilerlemeyi sürdürebilmektedir.

Yani, büyük modelin temel yeteneği parametreler değil, ekosistemin inşasıdır ( açık kaynak ) veya tamamen çıkarım yeteneği ( kapalı kaynak ).

Açık kaynak topluluğu giderek aktif hale geldikçe, büyük dil modellerinin performansları muhtemelen benzerleşecektir, çünkü herkes benzer model mimarileri ve benzer veri setleri kullanıyor.

Bir diğer daha somut sorun şu: Belirli bir çizim AI'sı dışında, görünüşe göre hiçbir büyük model para kazanamadı.

Değerin Referans Noktası

Bu yılın Ağustos ayında, "Tanınmış bir AI şirketinin 2024 yılının sonunda iflas edebileceğine dair" başlıklı bir makale oldukça ilgi çekti. Makalenin ana fikrini neredeyse bir cümleyle özetlemek mümkün: Şirketin para harcama hızı çok fazla.

Metinde, tanınmış diyalog modelini geliştirmesinden bu yana, şirketin zararının hızla büyüdüğü, sadece 2022'de yaklaşık 540 milyon dolar zarar ettiği ve sadece bir teknoloji devinin yatırımcılarının ödeme yapmasını beklemek zorunda olduğu belirtiliyor.

Makalenin başlığı dikkat çekici olsa da, birçok büyük model sağlayıcısının durumunu da anlatıyor: maliyetler ve gelirler arasında ciddi bir dengesizlik var.

Aşırı yüksek maliyetler, şu anda yapay zeka ile büyük paralar kazananların yalnızca bir çip şirketi ve en fazla bir başka çip üreticisi olduğunu gösteriyor.

Danışmanlık şirketine göre, bir çip şirketi bu yılın ikinci çeyreğinde 300,000'den fazla en yeni AI çipini sattı. Bu, AI eğitimi için son derece verimli bir çip ve dünya genelindeki teknoloji şirketleri ile araştırma kurumları tarafından kapış kapış alınıyor. Eğer satılan bu 300,000 çip üst üste konulursa, ağırlığı 4.5 adet Boeing 747 uçağına eşdeğer.

Bu çip şirketinin performansı da ivme kazanarak, yıllık gelirde %854 artış gösterdi ve bir ara Wall Street'in ağzını açık bıraktı. Bu arada, şu anda bu çipin ikinci el pazarındaki fiyatı 40-50 bin dolar civarına yükselmiş durumda, ancak malzeme maliyeti yalnızca 3000 doların biraz üzerinde.

Yüksek hesaplama gücü maliyeti, bir dereceye kadar sektörün gelişimi için bir engel haline gelmiştir. Bir tanınmış risk sermayesi, dünya genelindeki teknoloji şirketlerinin her yıl büyük model altyapı inşaatına 200 milyar Amerikan doları harcayacağını tahmin etmiştir; buna karşın, büyük model yılda en fazla 75 milyar Amerikan doları gelir üretebilir, arada en az 125 milyar Amerikan doları bir açık bulunmaktadır.

Ayrıca, bazı çizim yapay zekaları gibi az sayıda örnek dışında, çoğu yazılım şirketi büyük maliyetler harcadıktan sonra hala nasıl para kazanacaklarını düşünemedi. Özellikle sektörün iki önde gelen ismi - bir teknoloji devi ve bir tasarım yazılım şirketi - biraz tökezliyor.

Bir teknoloji devi ve bir AI şirketi, bir AI kodu oluşturma aracı geliştirmek için işbirliği yaptı, ancak

GPT-4.07%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 6
  • Repost
  • Share
Comment
0/400
HappyMinerUnclevip
· 23h ago
Aracı gerçekten içe dönük
View OriginalReply0
tokenomics_truthervip
· 08-11 10:25
Sayısal oyun oynamanın ne faydası var, önce pratik örnekler verin.
View OriginalReply0
TrustMeBrovip
· 08-11 10:25
Yine bir sıralama savaşı mı var?
View OriginalReply0
FarmToRichesvip
· 08-11 10:19
Açık evin daha fazla oynandıkça daha çiçekli olduğunu hissediyorum~
View OriginalReply0
LiquidatedNotStirredvip
· 08-11 10:17
Baimo Savaşı hehehe, farklı yollar ama aynı sona ulaşıyoruz.
View OriginalReply0
GamefiHarvestervip
· 08-11 10:15
Açık Kaynak insanları enayi yerine koymak daha eğlenceli.
View OriginalReply0
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)