Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin
Araştırmacılar Stanford Üniversitesi‘S Ölçekleme Zekası Laboratuvarı büyük dil modellerinin (LLM’ler) potansiyel yanıtları daha hızlı değerlendirmesine yardımcı olabilecek yeni bir çıkarım çerçevesi sundu.
Archon çerçevesi, ek eğitim gerektirmeden LLM’nin performansını artırmak için çıkarım zamanı mimari arama (ITAS) algoritmasını kullanır. Modelden bağımsızdır, açık kaynaklıdır ve büyük ve küçük modeller için tak-çalıştır olacak şekilde tasarlanmıştır.
Archon ideally suited olarak geliştiricilerin, yanıtları belirlemek amacıyla modelleri azaltmak için birden fazla çıkarım zamanı tekniği kullanarak yapay zeka mannequin sistemleri tasarlamasına yardımcı olabilir. Ölçekleme Zeka Laboratuvarı, Archon gibi tekniklerin, mannequin oluşturma ve çıkarımla ilgili maliyetleri azaltmaya yardımcı olacağını söyledi. Yüksek Lisans gelişimi daha büyük parametrelere veya daha gelişmiş mantığa yöneldikçe, OpenAI gibi şirketlerin daha uygun fiyatlı olacağını öngörmesine rağmen maliyetler artabilir.
Araştırmacılara göre Archon, görev genelleştirmesini geliştiren mimarileri otomatik olarak tasarlayarak modellerin başlangıçta eğitildikleri görevlerin ötesinde görevleri yerine getirmelerine olanak tanıyor.
Araştırmacılar, “Archon çerçevemiz ve ITAS algoritmamız sırasıyla sinir mimarilerinden ve sinir mimarisi araştırmasından ilham alıyor” dedi. kağıt. “Archon, aynı katmandaki modellerin paralel olarak çalıştığı ancak daha sonra her birinin sırayla çalıştığı LLM katmanlarından yapılmıştır.”
Bu katmanlar, “ya aday yanıtların sayısını oluşturma ve birleştirme yoluyla dönüştürerek (doğrusal dönüşümler gibi) ya da kaliteyi artırmak için aday yanıtların sayısını azaltarak (doğrusal olmayanlar gibi)” farklı çıkarım zamanı teknikleri uygular.
Archon, MT-Bench, Enviornment-Arduous-Auto, Alpaca-2.0 Eval, MixEval, MixEval Arduous, MATH ve CodeContests gibi kıyaslama testlerinde GPT-4o ve Claude 3.5 Sonnet’i yüzde 15,1 puan geride bıraktı. Archon, açık kaynak yüksek lisans eğitimleriyle karşılaştığında, onlardan yüzde 11,2 puan daha iyi performans gösterdi.
Archon bileşenleri
ITAS algoritması çeşitli LLM bileşenlerinden oluşur ve çıkarım zamanı teknikleri yapabilir.
İlk bileşen, mannequin için olası yanıtları yaratan Jeneratördür. İkinci bileşen olan Guser, bu yanıtları alıp tek bir yanıtta birleştirecek. Örnek olarak, bir modele sorulan soru Fransa’nın başkentini bilmek istiyorsa, füzer “Fransa’nın başkenti Paris’tir”, “Fransa Avrupa’dadır” şeklinde oluşturulan yanıtları alıp onu “Avrupa’nın başkenti” haline getirecektir. Avrupa’da bir ülke olan Fransa, Paris’tir.”
Daha sonra Archon, en iyi cevapları sıralayan Ranker bileşenine geçiyor. Eleştirmen bileşeni, sıralanan yanıtların iyi mi kötü mü olduğunu belirlemek için değerlendirir. Doğrulayıcı, yanıtın işe yarayıp yaramadığını görmek ve take a look at sonuçlarını kontrol etmek için küçük testler yapan Birim Take a look at Oluşturucu ve Değerlendiriciye geçmeden önce mantığı ve doğruluğu kontrol eder.
Araştırmacılar, Archon’u bu şekilde oluşturarak, çerçevenin LLM’lerin yanıtlarının kalitesini daha hızlı ve ek ince ayar gerektirmeden iyileştirdiğini söyledi.
Archon’un sınırlamaları
Şu ana kadar Archon çerçevesi, Meta’nın Code Llama 70B’si gibi 70B veya daha fazla parametreye sahip LLM’lerle en iyi şekilde çalışıyor, bu da şu anda çoğu LLM’ye işaret etmeyi zorlaştırıyor. Araştırmacılar, zorluğun çoğunun, küçük modelin daha küçük bağlam pencereleri nedeniyle talimatları takip etme konusundaki sınırlı yeteneklerinden kaynaklandığını söyledi.
Makalede “Archon mimarisini yalnızca 7B açık kaynaklı modellerle kullandığımızda performansta %16’lık dikkate değer bir düşüş elde ediyoruz” ifadesine yer verildi.
Archon çerçevesini kullanan daha küçük modeller, tek dönüşlü modellerin %15,7 oranında gerisinde kaldı.
Stanford laboratuvarı ayrıca Archon’un sohbet robotları gibi “tek bir LLM çağrısının gecikmesini tercih eden görevler için ideally suited olmadığını” söyledi. Çerçeve, yaptığı farklı işlemler nedeniyle birden fazla LLM çağrısı yapar, dolayısıyla tek soru-cevap sorguları onun yeteneklerinden faydalanamaz. Archon, denklem çözme, programlama ve hatta karmaşık müşteri hizmetleri sorunları gibi karmaşık talimatları içeren görevlerde daha iyi çalışabilir.
Sınırlamalarına rağmen Archon’un arkasındaki araştırmacılar, daha fazla çıkarım ve eğitim sermayesi gerektirmeden yüksek performanslı modellerin geliştirilmesini hızlandırabileceğini umduklarını söyledi.
Kaynak