Meta’nın Yeni AI Modeli Maverick, LMArena’da Zirveye Oynuyor!

Llama Drama: Meta'nın deneysel yapay zeka modeli, sıralamalarda yükselirken adalet ve şeffaflık konularını gündeme...

Meta'nın Yeni AI Modeli Maverick, LMArena'da Zirveye Oynuyor!

Meta, hafta sonu iki yeni Llama 4 AI versiyonunu tanıttı. Bunlardan biri Scout adını taşıyan daha küçük bir modelken, diğeri Maverick adında orta boy bir model. Şirket, Maverick modelinin birçok popüler testte ChatGPT-4o ve Gemini 2.0 Flash’tan daha iyi performans gösterdiğini iddia etti, ancak görünüşe göre şirketin testçilere söylemediği bazı şeyler var ya da gerçekten öyle mi?

Maverick Modeli ve LMArena’daki Yükselişi

Maverick, piyasaya sürülmesinin ardından LMArena’da ikinci sıraya yükseldi ve tahtı ele geçirme çabasıyla liderlik sıralamasında tırmandı. Ancak hikayenin daha derin bir boyutu var. LMArena, kullanıcıların AI yanıtlarını karşılaştırdığı ve en iyi gördükleri yanıtları oyladığı bir platformdur.

Meta, Maverick modelinin 1417 ELO puanına sahip olduğunu ve bunun GPT-4o’yu geride bıraktığını, Gemini 2.5 Pro’nun ise biraz gerisinde olduğunu duyurmaktan gurur duydu. Ancak, kullanıcılar, Meta’nın LMArena’ya sunduğu modelin halka sunacağı modelden farklı olduğunu fark ettiler.

Aslında, Meta, konuşmalarda daha iyi sonuçlar elde etmesi için optimize edilmiş deneysel bir sohbet versiyonu sundu. LMArena, “Meta’nın politikamızı yorumlama şekli, model sağlayıcılarından beklediğimizle uyuşmuyordu.” şeklinde bir yanıt verdi. Ayrıca, Meta’nın “Llama-4-Maverick-03-26-Experimental” versiyonunu kullanırken daha şeffaf olması gerektiğini eklediler; bu versiyon, insan tercihleri için özel olarak tasarlanmıştı.

LMArena’nın Yeni Politika Değişiklikleri

LMArena, gelecekteki sıralamaların adil ve güvenilir olması için liderlik politikalarını değiştirdi. Meta’nın sözcüsü, bu skandala yanıt olarak şunları söyledi:

“Şimdi açık kaynak versiyonumuzu yayınladık ve geliştiricilerin Llama 4’ü kendi kullanım senaryolarına göre nasıl özelleştireceğini göreceğiz.”

Şirket herhangi bir kural ihlalinde bulunmuş olmasa da, yeterince net değildi. Ancak, şirketin, halka sunulmayacak şekilde optimize edilmiş ve yükseltilmiş bir model kullanarak liderlik sıralamasını manipüle ettiği endişelerini artırdı. Bağımsız bir AI araştırmacısı olan Simon Willison, şöyle itiraf etti:

“Llama 4 piyasaya çıktığında ve #2’ye yükseldiğinde, bu beni gerçekten etkiledi — ve küçük yazıları okumadığım için kendime kızıyorum.”

“Genel olarak çok kafa karıştırıcı bir sürüm… Aldığımız model puanı benim için tamamen değersiz. Yüksek puan alan modeli bile kullanamam.”

Öte yandan, Meta’nın AI modellerini belirli testlerde iyi performans göstermesi için eğittiğine dair söylentiler de vardı, ancak şirketin Üretken AI Başkan Yardımcısı Ahman Al-Dahle bu yorumları yalanlayarak:

“Test setlerinde eğitim aldığımız iddialarını da duyduk — bu tamamen doğru değil.”

Kullanıcılar ayrıca, yeni Maverick AI modelinin neden bir Pazar günü duyurulduğunu sordu. Mark Zuckerberg, “O zaman hazırdı.” yanıtını verdi. Meta, LLama 4’ü piyasaya sürmekte zaman aldı, ancak rekabetin ne kadar güçlü olduğu göz önüne alındığında, bu adım bir zorunluluk haline gelmişti. Konuyla ilgili daha fazla detay paylaşacağız, bu yüzden gözünüzü açık tutun.

Batuhan BOLAT1 hafta önce