"Pertarungan Seratus Model" di Industri AI: Dilema Bisnis di Balik Revolusi Teknik
Bulan lalu, industri AI mengalami "perang binatang".
Satu sisi adalah model bahasa besar sumber terbuka yang diluncurkan oleh raksasa teknologi tertentu, yang sangat disukai oleh komunitas pengembang karena sifat terbukanya. Sebuah perusahaan Jepang, setelah mempelajari makalah penelitian dan kode sumber terkait, dengan cepat mengembangkan versi bahasa Jepang dari AI percakapan, yang menyelesaikan masalah bottleneck Jepang di bidang AI.
Sisi lain adalah model besar yang disebut "Elang". Pada bulan Mei tahun ini, "Elang-40B" diluncurkan, melampaui yang sebelumnya dan menduduki puncak daftar peringkat model bahasa sumber terbuka.
Daftar ini dibuat oleh komunitas model sumber terbuka, yang menyediakan standar untuk mengevaluasi kemampuan model bahasa besar. Peringkat pada dasarnya adalah kedua belah pihak bergantian menduduki peringkat teratas.
Yang pertama sementara merebut posisi teratas setelah merilis versi baru; tetapi pada awal September, "Elang" merilis versi 180B, sekali lagi mendapatkan peringkat yang lebih tinggi.
Menariknya, pengembang "Falcon" bukanlah perusahaan teknologi, melainkan sebuah lembaga penelitian yang terletak di ibu kota Uni Emirat Arab. Pejabat pemerintah mengatakan, "Kami terlibat dalam bidang ini untuk mengguncang pemain inti."
Hari kedua setelah peluncuran versi 180B, Menteri Kecerdasan Buatan UEA terpilih dalam "100 Orang Paling Berpengaruh di Bidang AI" yang diadakan oleh sebuah majalah terkenal; bersamanya terpilih juga "Bapak AI" Hinton, CEO dari sebuah perusahaan AI terkenal, serta pendiri dari sebuah perusahaan teknologi di China.
Saat ini, bidang AI telah memasuki tahap persaingan yang ketat: negara dan perusahaan yang memiliki kekuatan finansial tertentu, baik secara langsung maupun tidak langsung, sedang membangun model bahasa besar mereka sendiri. Hanya di dalam lingkaran negara-negara Teluk, sudah ada lebih dari satu pemain — pada bulan Agustus, Arab Saudi baru saja membeli lebih dari 3000 chip AI kelas atas untuk universitas domestiknya, untuk melatih model bahasa besar.
Seorang investor terkenal pernah mengeluh di platform media sosial: "Dulu meremehkan inovasi model bisnis internet, merasa tidak ada hambatan: Pertempuran seratus grup, pertempuran seratus mobil, pertempuran seratus siaran; tidak menyangka bahwa kewirausahaan model besar teknologi keras, tetap saja menjadi pertempuran seratus model..."
Mengapa teknologi keras yang dianggap sangat sulit ini telah menjadi proyek yang dikembangkan oleh berbagai negara?
Revolusi Transformer
Perusahaan rintisan di Amerika, raksasa teknologi di China, dan taipan minyak di Timur Tengah dapat mengejar impian model besar berkat makalah terkenal itu: "Attention Is All You Need."
Pada tahun 2017, delapan ilmuwan komputer mempublikasikan algoritma Transformer di seluruh dunia dalam makalah ini. Makalah ini saat ini merupakan makalah yang paling banyak dikutip ketiga dalam sejarah kecerdasan buatan, dan munculnya Transformer telah memicu gelombang antusiasme kecerdasan buatan saat ini.
Tidak peduli dari negara mana model besar saat ini berasal, termasuk seri GPT yang menghebohkan dunia, semuanya dibangun di atas dasar Transformer.
Sebelum ini, "mengajarkan mesin membaca" telah diakui sebagai tantangan akademis. Berbeda dengan pengenalan gambar, manusia saat membaca teks tidak hanya memperhatikan kata dan kalimat yang terlihat saat ini, tetapi juga mengaitkannya dengan konteks untuk memahaminya.
Misalnya, istilah "Transformer" sebenarnya bisa diterjemahkan menjadi "Transformers", tetapi pembaca artikel ini pasti tidak akan memahami seperti itu, karena semua orang tahu bahwa ini bukan artikel tentang film Hollywood.
Namun, input dari jaringan saraf awal saling independen, dan tidak memiliki kemampuan untuk memahami teks panjang, bahkan seluruh artikel, sehingga muncul masalah menerjemahkan "开水间" menjadi "open water room".
Hingga tahun 2014, seorang ilmuwan komputer yang bekerja di sebuah perusahaan teknologi dan kemudian pindah ke perusahaan AI lainnya berhasil mencapai terobosan. Ia menggunakan jaringan saraf berulang (RNN) untuk memproses bahasa alami, sehingga kinerja terjemahan mesin dengan cepat melampaui produk pesaing.
RNN mengusulkan "desain siklik", yang memungkinkan setiap neuron menerima informasi input saat ini sekaligus informasi input dari waktu sebelumnya, sehingga memungkinkan jaringan saraf memiliki kemampuan "menggabungkan konteks".
Kemunculan RNN telah membangkitkan semangat penelitian di kalangan akademisi, dan salah satu penulis makalah Transformer juga sempat terpesona olehnya. Namun, para pengembang segera menyadari bahwa RNN memiliki satu kekurangan serius:
Algoritma ini menggunakan perhitungan urut, memang dapat menyelesaikan masalah konteks, tetapi efisiensi operasinya tidak tinggi, sehingga sulit untuk menangani banyak parameter.
Desain RNN yang rumit dengan cepat membuat penulis ini merasa bosan. Oleh karena itu, sejak tahun 2015, ia dan tujuh rekan yang seide mulai mengembangkan alternatif untuk RNN, yang hasilnya adalah Transformer.
Dibandingkan dengan RNN, ada dua poin perubahan pada Transformer:
Pertama, menggunakan metode pengkodean posisi menggantikan desain siklis RNN, sehingga memungkinkan komputasi paralel—perubahan ini secara signifikan meningkatkan efisiensi pelatihan Transformer, sehingga mampu menangani data besar dan membawa AI ke era model besar; kedua, lebih lanjut memperkuat kemampuan konteks.
Dengan Transformer yang berhasil mengatasi banyak kekurangan, ia perlahan-lahan berkembang menjadi metode standar di bidang pemrosesan bahasa alami, seolah-olah "menciptakan dunia baru". Bahkan pencipta RNN pun meninggalkan teknologi yang mereka angkat ke puncak, beralih ke Transformer.
Dengan kata lain, Transformer adalah leluhur semua model besar saat ini, karena ia mengubah model besar dari masalah penelitian teoritis menjadi masalah rekayasa murni.
Pada tahun 2019, sebuah perusahaan AI mengembangkan model bahasa besar berdasarkan Transformer, yang mengejutkan dunia akademis. Sebagai tanggapan, raksasa teknologi lainnya dengan cepat meluncurkan AI yang lebih kuat, bernama Meena.
Dibandingkan dengan yang sebelumnya, Meena tidak memiliki inovasi dalam algoritma dasar, hanya memiliki 8,5 kali lebih banyak parameter pelatihan dan 14 kali lebih banyak daya komputasi. Penulis makalah Transformer sangat terkejut dengan "penumpukan kekerasan" ini, dan langsung menulis memo berjudul "Meena Menghancurkan Dunia".
Kehadiran Transformer telah memperlambat kecepatan inovasi algoritma dasar di kalangan akademisi. Elemen-elemen rekayasa seperti rekayasa data, skala komputasi, dan arsitektur model semakin menjadi kunci kemenangan dalam kompetisi AI. Setiap perusahaan teknologi dengan sedikit kemampuan teknis dapat mengembangkan sebuah model besar.
Oleh karena itu, ilmuwan komputer Andrew Ng menyebutkan sebuah pandangan saat memberikan kuliah di Universitas Stanford: "AI adalah kumpulan alat, termasuk pembelajaran terawasi, pembelajaran tidak terawasi, pembelajaran penguatan, serta kecerdasan buatan generatif saat ini. Semua ini adalah teknologi umum, mirip dengan teknologi umum lainnya seperti listrik dan internet."
Sebuah perusahaan AI memang masih menjadi barometer model bahasa besar, tetapi lembaga analisis semikonduktor berpendapat bahwa daya saing model terbarunya berasal dari solusi rekayasa — jika open source, pesaing mana pun dapat dengan cepat mereproduksinya.
Analis ini memperkirakan, mungkin tidak akan lama, perusahaan teknologi besar lainnya juga dapat mengembangkan model besar dengan performa yang setara.
Benteng yang dibangun di atas kaca
Saat ini, "pertempuran seratus model" tidak lagi menjadi sekadar gaya bahasa, melainkan kenyataan objektif.
Laporan terkait menunjukkan bahwa hingga Juli tahun ini, jumlah model besar di dalam negeri telah mencapai 130, lebih tinggi dari 114 di Amerika Serikat, berhasil melakukan overtaking di tikungan, berbagai mitos dan legenda sudah hampir tidak cukup untuk dijadikan nama perusahaan teknologi dalam negeri.
Dan di luar China dan Amerika, sejumlah negara yang lebih kaya juga telah secara awal mewujudkan "satu negara satu model": selain Jepang dan Uni Emirat Arab, ada model besar Bhashini yang dipimpin oleh pemerintah India, serta HyperClova X yang dikembangkan oleh sebuah perusahaan internet Korea.
Situasi di depan mata ini, seolah kembali ke era perintisan internet yang dipenuhi gelembung, di mana "kemampuan uang" saling beradu.
Seperti yang disebutkan sebelumnya, Transformer menjadikan model besar sebagai masalah rekayasa murni, selama ada orang yang punya uang dan kartu grafis, sisanya tinggal diserahkan pada parameter. Namun, meskipun tiket masuk tidak sulit didapat, itu tidak berarti setiap orang memiliki kesempatan untuk menjadi raksasa di era AI.
Contoh klasik yang disebutkan di awal tentang "Perang Hewan" adalah: meskipun "Elang Pemburu" mengungguli pesaingnya dalam peringkat, sulit untuk mengatakan seberapa besar dampak yang ditimbulkan pada raksasa teknologi tertentu.
Seperti yang kita ketahui, perusahaan yang mengopen source hasil penelitian mereka, tidak hanya untuk berbagi manfaat teknologi dengan masyarakat, tetapi juga berharap dapat memanfaatkan kebijaksanaan masyarakat. Seiring dengan semakin dalamnya penggunaan dan perbaikan model open source oleh para profesor universitas, lembaga penelitian, dan perusahaan kecil menengah, perusahaan tersebut dapat menerapkan hasil ini ke dalam produk mereka.
Untuk model besar sumber terbuka, komunitas pengembang yang aktif adalah kekuatan inti mereka.
Dan sudah sejak tahun 2015, ketika mendirikan laboratorium AI, perusahaan tersebut telah menetapkan nada dasar untuk open source; pendirinya juga berasal dari bisnis media sosial, dan sangat memahami pentingnya "menjalin hubungan baik dengan masyarakat".
Misalnya pada bulan Oktober, perusahaan tersebut mengadakan acara "Insentif Kreator Versi AI": pengembang yang menggunakan model open source mereka untuk menyelesaikan masalah sosial seperti pendidikan dan lingkungan, akan memiliki kesempatan untuk mendapatkan dana sebesar 500.000 dolar.
Hingga saat ini, seri model sumber terbuka perusahaan tersebut jelas telah menjadi penanda arah untuk model bahasa besar sumber terbuka.
Hingga awal Oktober, dalam daftar peringkat Top 10 komunitas model sumber terbuka tertentu, terdapat 8 yang dibangun berdasarkan model sumber terbuka tersebut, semuanya menggunakan lisensi sumber terbukanya. Hanya di komunitas tersebut, model bahasa besar yang menggunakan lisensi sumber terbuka ini sudah lebih dari 1500.
Tentu saja, meningkatkan kinerja seperti "Falcon" juga bukan hal yang mustahil, tetapi hingga hari ini, sebagian besar model bahasa besar di pasar masih memiliki jarak kinerja yang terlihat dibandingkan dengan model terkenal tertentu.
Misalnya, beberapa waktu lalu, model terkenal ini meraih peringkat pertama dalam tes AgentBench dengan skor 4,41. Standar AgentBench diluncurkan bersama oleh Universitas Tsinghua, Universitas Negeri Ohio, dan Universitas California, Berkeley, untuk mengevaluasi kemampuan pemodelan bahasa besar dalam kemampuan penalaran dan pengambilan keputusan di lingkungan generasi terbuka multidimensi, dengan konten pengujian yang mencakup tugas di 8 lingkungan berbeda seperti sistem operasi, basis data, grafik pengetahuan, dan pertempuran kartu.
Hasil pengujian menunjukkan bahwa model lain yang berada di posisi kedua hanya mendapatkan 2,77 poin, masih terdapat perbedaan yang cukup jelas. Adapun model bahasa besar open-source yang berisik, skor pengujian mereka sebagian besar berputar di sekitar 1 poin, bahkan belum mencapai 1/4 dari posisi pertama.
Perlu diketahui, model terkenal ini dirilis pada bulan Maret tahun ini, setelah para pesaing global mengejar selama lebih dari enam bulan. Dan penyebab perbedaan ini adalah tim ilmuwan dengan "kepadatan IQ" yang sangat tinggi di belakangnya dan pengalaman yang diperoleh dari penelitian jangka panjang tentang model bahasa besar, sehingga dapat terus berada jauh di depan.
Dengan kata lain, kemampuan inti dari model besar bukanlah parameter, tetapi adalah pembangunan ekosistem ( sumber terbuka ) atau kemampuan inferensi murni ( tertutup ).
Seiring dengan semakin aktifnya komunitas sumber terbuka, kinerja berbagai model bahasa besar mungkin akan menyatu, karena semua orang menggunakan arsitektur model dan dataset yang serupa.
Masalah lain yang lebih intuitif adalah: selain beberapa AI gambar, sepertinya tidak ada model besar lain yang dapat menghasilkan uang.
Titik Jangkar Nilai
Pada bulan Agustus tahun ini, sebuah artikel berjudul "Sebuah perusahaan AI terkenal mungkin akan bangkrut pada akhir 2024" menarik perhatian banyak orang. Inti dari artikel tersebut dapat diringkas dalam satu kalimat: Perusahaan tersebut membakar uang terlalu cepat.
Dalam teks disebutkan bahwa sejak mengembangkan model dialog terkenal mereka, kerugian perusahaan itu semakin meluas dengan cepat, hanya pada tahun 2022 saja mengalami kerugian sekitar 540 juta dolar, dan hanya bisa menunggu investor dari raksasa teknologi tertentu untuk menanggung biaya.
Meskipun judul artikel ini terdengar mencolok, namun ia juga menceritakan tentang keadaan para penyedia model besar: ketidakseimbangan yang serius antara biaya dan pendapatan.
Biaya yang terlalu tinggi menyebabkan saat ini hanya ada satu perusahaan chip yang menghasilkan banyak uang dari kecerdasan buatan, mungkin ditambah satu perusahaan chip lainnya.
Menurut perkiraan perusahaan konsultan, sebuah perusahaan chip telah menjual lebih dari 300.000 unit chip AI terbaru mereka pada kuartal kedua tahun ini. Ini adalah chip yang sangat efisien untuk melatih AI, dan perusahaan teknologi serta lembaga penelitian di seluruh dunia sedang berebut untuk membelinya. Jika 300.000 chip yang terjual itu ditumpuk, beratnya setara dengan 4,5 pesawat Boeing 747.
Kinerja perusahaan chip ini juga terbang tinggi, dengan pendapatan yang melonjak 854% dibandingkan tahun lalu, yang membuat Wall Street terkejut. Sebagai informasi, saat ini harga chip ini di pasar bekas telah diborong hingga 40-50 ribu dolar AS, tetapi biaya materialnya hanya sekitar sedikit lebih dari 3000 dolar AS.
Biaya komputasi yang tinggi telah menjadi penghambat perkembangan industri hingga batas tertentu. Sebuah perusahaan modal ventura terkenal pernah melakukan perhitungan: perusahaan teknologi di seluruh dunia diperkirakan akan menghabiskan 200 miliar dolar AS setiap tahun untuk pembangunan infrastruktur model besar; dibandingkan dengan itu, model besar hanya dapat menghasilkan pendapatan maksimum 75 miliar dolar AS per tahun, sehingga terdapat celah setidaknya 125 miliar dolar AS.
Selain itu, kecuali beberapa kasus seperti AI gambar tertentu, sebagian besar perusahaan perangkat lunak setelah mengeluarkan biaya besar, masih belum memikirkan bagaimana cara menghasilkan uang. Terutama dua pemimpin industri—sebuah raksasa teknologi dan sebuah perusahaan perangkat lunak desain—kedua-duanya berjalan dengan agak goyah.
sebuah raksasa teknologi dan sebuah perusahaan AI pernah bekerja sama mengembangkan alat generasi kode AI, meskipun
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
14 Suka
Hadiah
14
6
Posting ulang
Bagikan
Komentar
0/400
HappyMinerUncle
· 8jam yang lalu
Orang yang berguna benar-benar terjebak dalam kompetisi yang ketat
Lihat AsliBalas0
tokenomics_truther
· 08-11 10:25
Apa gunanya bermain permainan digital? Buatlah contoh yang praktis dan baru bisa dibicarakan.
Lihat AsliBalas0
TrustMeBro
· 08-11 10:25
Ini adalah pertempuran peringkat lagi, ya?
Lihat AsliBalas0
FarmToRiches
· 08-11 10:19
Rasanya bermain Open House semakin berwarna~
Lihat AsliBalas0
LiquidatedNotStirred
· 08-11 10:17
Pertarungan seratus model, hehe, tujuan yang sama dengan cara yang berbeda.
Lihat AsliBalas0
GamefiHarvester
· 08-11 10:15
Sumber Terbuka play people for suckers lebih menarik
AI Battle of Hundreds of Models: Dilemma and Value Exploration in Business under the Engineering Revolution
"Pertarungan Seratus Model" di Industri AI: Dilema Bisnis di Balik Revolusi Teknik
Bulan lalu, industri AI mengalami "perang binatang".
Satu sisi adalah model bahasa besar sumber terbuka yang diluncurkan oleh raksasa teknologi tertentu, yang sangat disukai oleh komunitas pengembang karena sifat terbukanya. Sebuah perusahaan Jepang, setelah mempelajari makalah penelitian dan kode sumber terkait, dengan cepat mengembangkan versi bahasa Jepang dari AI percakapan, yang menyelesaikan masalah bottleneck Jepang di bidang AI.
Sisi lain adalah model besar yang disebut "Elang". Pada bulan Mei tahun ini, "Elang-40B" diluncurkan, melampaui yang sebelumnya dan menduduki puncak daftar peringkat model bahasa sumber terbuka.
Daftar ini dibuat oleh komunitas model sumber terbuka, yang menyediakan standar untuk mengevaluasi kemampuan model bahasa besar. Peringkat pada dasarnya adalah kedua belah pihak bergantian menduduki peringkat teratas.
Yang pertama sementara merebut posisi teratas setelah merilis versi baru; tetapi pada awal September, "Elang" merilis versi 180B, sekali lagi mendapatkan peringkat yang lebih tinggi.
Menariknya, pengembang "Falcon" bukanlah perusahaan teknologi, melainkan sebuah lembaga penelitian yang terletak di ibu kota Uni Emirat Arab. Pejabat pemerintah mengatakan, "Kami terlibat dalam bidang ini untuk mengguncang pemain inti."
Hari kedua setelah peluncuran versi 180B, Menteri Kecerdasan Buatan UEA terpilih dalam "100 Orang Paling Berpengaruh di Bidang AI" yang diadakan oleh sebuah majalah terkenal; bersamanya terpilih juga "Bapak AI" Hinton, CEO dari sebuah perusahaan AI terkenal, serta pendiri dari sebuah perusahaan teknologi di China.
Saat ini, bidang AI telah memasuki tahap persaingan yang ketat: negara dan perusahaan yang memiliki kekuatan finansial tertentu, baik secara langsung maupun tidak langsung, sedang membangun model bahasa besar mereka sendiri. Hanya di dalam lingkaran negara-negara Teluk, sudah ada lebih dari satu pemain — pada bulan Agustus, Arab Saudi baru saja membeli lebih dari 3000 chip AI kelas atas untuk universitas domestiknya, untuk melatih model bahasa besar.
Seorang investor terkenal pernah mengeluh di platform media sosial: "Dulu meremehkan inovasi model bisnis internet, merasa tidak ada hambatan: Pertempuran seratus grup, pertempuran seratus mobil, pertempuran seratus siaran; tidak menyangka bahwa kewirausahaan model besar teknologi keras, tetap saja menjadi pertempuran seratus model..."
Mengapa teknologi keras yang dianggap sangat sulit ini telah menjadi proyek yang dikembangkan oleh berbagai negara?
Revolusi Transformer
Perusahaan rintisan di Amerika, raksasa teknologi di China, dan taipan minyak di Timur Tengah dapat mengejar impian model besar berkat makalah terkenal itu: "Attention Is All You Need."
Pada tahun 2017, delapan ilmuwan komputer mempublikasikan algoritma Transformer di seluruh dunia dalam makalah ini. Makalah ini saat ini merupakan makalah yang paling banyak dikutip ketiga dalam sejarah kecerdasan buatan, dan munculnya Transformer telah memicu gelombang antusiasme kecerdasan buatan saat ini.
Tidak peduli dari negara mana model besar saat ini berasal, termasuk seri GPT yang menghebohkan dunia, semuanya dibangun di atas dasar Transformer.
Sebelum ini, "mengajarkan mesin membaca" telah diakui sebagai tantangan akademis. Berbeda dengan pengenalan gambar, manusia saat membaca teks tidak hanya memperhatikan kata dan kalimat yang terlihat saat ini, tetapi juga mengaitkannya dengan konteks untuk memahaminya.
Misalnya, istilah "Transformer" sebenarnya bisa diterjemahkan menjadi "Transformers", tetapi pembaca artikel ini pasti tidak akan memahami seperti itu, karena semua orang tahu bahwa ini bukan artikel tentang film Hollywood.
Namun, input dari jaringan saraf awal saling independen, dan tidak memiliki kemampuan untuk memahami teks panjang, bahkan seluruh artikel, sehingga muncul masalah menerjemahkan "开水间" menjadi "open water room".
Hingga tahun 2014, seorang ilmuwan komputer yang bekerja di sebuah perusahaan teknologi dan kemudian pindah ke perusahaan AI lainnya berhasil mencapai terobosan. Ia menggunakan jaringan saraf berulang (RNN) untuk memproses bahasa alami, sehingga kinerja terjemahan mesin dengan cepat melampaui produk pesaing.
RNN mengusulkan "desain siklik", yang memungkinkan setiap neuron menerima informasi input saat ini sekaligus informasi input dari waktu sebelumnya, sehingga memungkinkan jaringan saraf memiliki kemampuan "menggabungkan konteks".
Kemunculan RNN telah membangkitkan semangat penelitian di kalangan akademisi, dan salah satu penulis makalah Transformer juga sempat terpesona olehnya. Namun, para pengembang segera menyadari bahwa RNN memiliki satu kekurangan serius:
Algoritma ini menggunakan perhitungan urut, memang dapat menyelesaikan masalah konteks, tetapi efisiensi operasinya tidak tinggi, sehingga sulit untuk menangani banyak parameter.
Desain RNN yang rumit dengan cepat membuat penulis ini merasa bosan. Oleh karena itu, sejak tahun 2015, ia dan tujuh rekan yang seide mulai mengembangkan alternatif untuk RNN, yang hasilnya adalah Transformer.
Dibandingkan dengan RNN, ada dua poin perubahan pada Transformer:
Pertama, menggunakan metode pengkodean posisi menggantikan desain siklis RNN, sehingga memungkinkan komputasi paralel—perubahan ini secara signifikan meningkatkan efisiensi pelatihan Transformer, sehingga mampu menangani data besar dan membawa AI ke era model besar; kedua, lebih lanjut memperkuat kemampuan konteks.
Dengan Transformer yang berhasil mengatasi banyak kekurangan, ia perlahan-lahan berkembang menjadi metode standar di bidang pemrosesan bahasa alami, seolah-olah "menciptakan dunia baru". Bahkan pencipta RNN pun meninggalkan teknologi yang mereka angkat ke puncak, beralih ke Transformer.
Dengan kata lain, Transformer adalah leluhur semua model besar saat ini, karena ia mengubah model besar dari masalah penelitian teoritis menjadi masalah rekayasa murni.
Pada tahun 2019, sebuah perusahaan AI mengembangkan model bahasa besar berdasarkan Transformer, yang mengejutkan dunia akademis. Sebagai tanggapan, raksasa teknologi lainnya dengan cepat meluncurkan AI yang lebih kuat, bernama Meena.
Dibandingkan dengan yang sebelumnya, Meena tidak memiliki inovasi dalam algoritma dasar, hanya memiliki 8,5 kali lebih banyak parameter pelatihan dan 14 kali lebih banyak daya komputasi. Penulis makalah Transformer sangat terkejut dengan "penumpukan kekerasan" ini, dan langsung menulis memo berjudul "Meena Menghancurkan Dunia".
Kehadiran Transformer telah memperlambat kecepatan inovasi algoritma dasar di kalangan akademisi. Elemen-elemen rekayasa seperti rekayasa data, skala komputasi, dan arsitektur model semakin menjadi kunci kemenangan dalam kompetisi AI. Setiap perusahaan teknologi dengan sedikit kemampuan teknis dapat mengembangkan sebuah model besar.
Oleh karena itu, ilmuwan komputer Andrew Ng menyebutkan sebuah pandangan saat memberikan kuliah di Universitas Stanford: "AI adalah kumpulan alat, termasuk pembelajaran terawasi, pembelajaran tidak terawasi, pembelajaran penguatan, serta kecerdasan buatan generatif saat ini. Semua ini adalah teknologi umum, mirip dengan teknologi umum lainnya seperti listrik dan internet."
Sebuah perusahaan AI memang masih menjadi barometer model bahasa besar, tetapi lembaga analisis semikonduktor berpendapat bahwa daya saing model terbarunya berasal dari solusi rekayasa — jika open source, pesaing mana pun dapat dengan cepat mereproduksinya.
Analis ini memperkirakan, mungkin tidak akan lama, perusahaan teknologi besar lainnya juga dapat mengembangkan model besar dengan performa yang setara.
Benteng yang dibangun di atas kaca
Saat ini, "pertempuran seratus model" tidak lagi menjadi sekadar gaya bahasa, melainkan kenyataan objektif.
Laporan terkait menunjukkan bahwa hingga Juli tahun ini, jumlah model besar di dalam negeri telah mencapai 130, lebih tinggi dari 114 di Amerika Serikat, berhasil melakukan overtaking di tikungan, berbagai mitos dan legenda sudah hampir tidak cukup untuk dijadikan nama perusahaan teknologi dalam negeri.
Dan di luar China dan Amerika, sejumlah negara yang lebih kaya juga telah secara awal mewujudkan "satu negara satu model": selain Jepang dan Uni Emirat Arab, ada model besar Bhashini yang dipimpin oleh pemerintah India, serta HyperClova X yang dikembangkan oleh sebuah perusahaan internet Korea.
Situasi di depan mata ini, seolah kembali ke era perintisan internet yang dipenuhi gelembung, di mana "kemampuan uang" saling beradu.
Seperti yang disebutkan sebelumnya, Transformer menjadikan model besar sebagai masalah rekayasa murni, selama ada orang yang punya uang dan kartu grafis, sisanya tinggal diserahkan pada parameter. Namun, meskipun tiket masuk tidak sulit didapat, itu tidak berarti setiap orang memiliki kesempatan untuk menjadi raksasa di era AI.
Contoh klasik yang disebutkan di awal tentang "Perang Hewan" adalah: meskipun "Elang Pemburu" mengungguli pesaingnya dalam peringkat, sulit untuk mengatakan seberapa besar dampak yang ditimbulkan pada raksasa teknologi tertentu.
Seperti yang kita ketahui, perusahaan yang mengopen source hasil penelitian mereka, tidak hanya untuk berbagi manfaat teknologi dengan masyarakat, tetapi juga berharap dapat memanfaatkan kebijaksanaan masyarakat. Seiring dengan semakin dalamnya penggunaan dan perbaikan model open source oleh para profesor universitas, lembaga penelitian, dan perusahaan kecil menengah, perusahaan tersebut dapat menerapkan hasil ini ke dalam produk mereka.
Untuk model besar sumber terbuka, komunitas pengembang yang aktif adalah kekuatan inti mereka.
Dan sudah sejak tahun 2015, ketika mendirikan laboratorium AI, perusahaan tersebut telah menetapkan nada dasar untuk open source; pendirinya juga berasal dari bisnis media sosial, dan sangat memahami pentingnya "menjalin hubungan baik dengan masyarakat".
Misalnya pada bulan Oktober, perusahaan tersebut mengadakan acara "Insentif Kreator Versi AI": pengembang yang menggunakan model open source mereka untuk menyelesaikan masalah sosial seperti pendidikan dan lingkungan, akan memiliki kesempatan untuk mendapatkan dana sebesar 500.000 dolar.
Hingga saat ini, seri model sumber terbuka perusahaan tersebut jelas telah menjadi penanda arah untuk model bahasa besar sumber terbuka.
Hingga awal Oktober, dalam daftar peringkat Top 10 komunitas model sumber terbuka tertentu, terdapat 8 yang dibangun berdasarkan model sumber terbuka tersebut, semuanya menggunakan lisensi sumber terbukanya. Hanya di komunitas tersebut, model bahasa besar yang menggunakan lisensi sumber terbuka ini sudah lebih dari 1500.
Tentu saja, meningkatkan kinerja seperti "Falcon" juga bukan hal yang mustahil, tetapi hingga hari ini, sebagian besar model bahasa besar di pasar masih memiliki jarak kinerja yang terlihat dibandingkan dengan model terkenal tertentu.
Misalnya, beberapa waktu lalu, model terkenal ini meraih peringkat pertama dalam tes AgentBench dengan skor 4,41. Standar AgentBench diluncurkan bersama oleh Universitas Tsinghua, Universitas Negeri Ohio, dan Universitas California, Berkeley, untuk mengevaluasi kemampuan pemodelan bahasa besar dalam kemampuan penalaran dan pengambilan keputusan di lingkungan generasi terbuka multidimensi, dengan konten pengujian yang mencakup tugas di 8 lingkungan berbeda seperti sistem operasi, basis data, grafik pengetahuan, dan pertempuran kartu.
Hasil pengujian menunjukkan bahwa model lain yang berada di posisi kedua hanya mendapatkan 2,77 poin, masih terdapat perbedaan yang cukup jelas. Adapun model bahasa besar open-source yang berisik, skor pengujian mereka sebagian besar berputar di sekitar 1 poin, bahkan belum mencapai 1/4 dari posisi pertama.
Perlu diketahui, model terkenal ini dirilis pada bulan Maret tahun ini, setelah para pesaing global mengejar selama lebih dari enam bulan. Dan penyebab perbedaan ini adalah tim ilmuwan dengan "kepadatan IQ" yang sangat tinggi di belakangnya dan pengalaman yang diperoleh dari penelitian jangka panjang tentang model bahasa besar, sehingga dapat terus berada jauh di depan.
Dengan kata lain, kemampuan inti dari model besar bukanlah parameter, tetapi adalah pembangunan ekosistem ( sumber terbuka ) atau kemampuan inferensi murni ( tertutup ).
Seiring dengan semakin aktifnya komunitas sumber terbuka, kinerja berbagai model bahasa besar mungkin akan menyatu, karena semua orang menggunakan arsitektur model dan dataset yang serupa.
Masalah lain yang lebih intuitif adalah: selain beberapa AI gambar, sepertinya tidak ada model besar lain yang dapat menghasilkan uang.
Titik Jangkar Nilai
Pada bulan Agustus tahun ini, sebuah artikel berjudul "Sebuah perusahaan AI terkenal mungkin akan bangkrut pada akhir 2024" menarik perhatian banyak orang. Inti dari artikel tersebut dapat diringkas dalam satu kalimat: Perusahaan tersebut membakar uang terlalu cepat.
Dalam teks disebutkan bahwa sejak mengembangkan model dialog terkenal mereka, kerugian perusahaan itu semakin meluas dengan cepat, hanya pada tahun 2022 saja mengalami kerugian sekitar 540 juta dolar, dan hanya bisa menunggu investor dari raksasa teknologi tertentu untuk menanggung biaya.
Meskipun judul artikel ini terdengar mencolok, namun ia juga menceritakan tentang keadaan para penyedia model besar: ketidakseimbangan yang serius antara biaya dan pendapatan.
Biaya yang terlalu tinggi menyebabkan saat ini hanya ada satu perusahaan chip yang menghasilkan banyak uang dari kecerdasan buatan, mungkin ditambah satu perusahaan chip lainnya.
Menurut perkiraan perusahaan konsultan, sebuah perusahaan chip telah menjual lebih dari 300.000 unit chip AI terbaru mereka pada kuartal kedua tahun ini. Ini adalah chip yang sangat efisien untuk melatih AI, dan perusahaan teknologi serta lembaga penelitian di seluruh dunia sedang berebut untuk membelinya. Jika 300.000 chip yang terjual itu ditumpuk, beratnya setara dengan 4,5 pesawat Boeing 747.
Kinerja perusahaan chip ini juga terbang tinggi, dengan pendapatan yang melonjak 854% dibandingkan tahun lalu, yang membuat Wall Street terkejut. Sebagai informasi, saat ini harga chip ini di pasar bekas telah diborong hingga 40-50 ribu dolar AS, tetapi biaya materialnya hanya sekitar sedikit lebih dari 3000 dolar AS.
Biaya komputasi yang tinggi telah menjadi penghambat perkembangan industri hingga batas tertentu. Sebuah perusahaan modal ventura terkenal pernah melakukan perhitungan: perusahaan teknologi di seluruh dunia diperkirakan akan menghabiskan 200 miliar dolar AS setiap tahun untuk pembangunan infrastruktur model besar; dibandingkan dengan itu, model besar hanya dapat menghasilkan pendapatan maksimum 75 miliar dolar AS per tahun, sehingga terdapat celah setidaknya 125 miliar dolar AS.
Selain itu, kecuali beberapa kasus seperti AI gambar tertentu, sebagian besar perusahaan perangkat lunak setelah mengeluarkan biaya besar, masih belum memikirkan bagaimana cara menghasilkan uang. Terutama dua pemimpin industri—sebuah raksasa teknologi dan sebuah perusahaan perangkat lunak desain—kedua-duanya berjalan dengan agak goyah.
sebuah raksasa teknologi dan sebuah perusahaan AI pernah bekerja sama mengembangkan alat generasi kode AI, meskipun