OpenAI'nin yeni o1 modelinin bir dezavantajı var

YAYIN TARİHİ, 13 Eylül 2024 10:10 GÜNCELLEME, 13 Eylül 2024 10:11

OpenAI, karmaşık görevlerde daha fazla düşünebilen ve bilim, matematik gibi alanlarda zor problemleri çözebilen yeni o1 modelini tanıttı.
o1, Uluslararası Matematik Olimpiyatı'nda GPT-4o'yu geride bırakarak yüzde 83 başarı sağladı ve insan zekâsına daha yakın performans sergiledi.
Ancak, GPT-4o ile karşılaştırıldığında öne çıkan bir dezavantajı olduğu söyleniyor.

OpenAI'nin yeni o1 modelinin bir dezavantajı var

OpenAI, cevap vermeden önce daha fazla düşünmek için tasarlanmış yeni bir yapay zeka modeli serisinin ilki olan o1'i tanıttı.

Yeni model, karmaşık görevleri çözebiliyor. Ayrıca önceki modellere kıyasla bilim, kodlama ve matematik gibi alanlarda daha zorlu problemleri aştığı söyleniyor. Temelde, mevcut yapay zeka sohbet botlarına göre insanlara biraz daha fazla benzer şekilde düşünüyor.

OpenAI’nin önceki modelleri, standart sınavlarda başarı sağlarken, şirket o1’in bir adım daha ileri gittiğine dikkat çekti. Fizik, kimya ve biyoloji gibi zorlu sınavlarda doktora öğrencilerine benzer performans gösterdiği ifade ediliyor.

Örneğin o1, OpenAI'nin mayıs ayında tanıttığı çok modlu model olan GPT-4o'yu Uluslararası Matematik Olimpiyatı'nın elemelerinde açık ara farkla geçti. GPT-4o sınavdaki soruların yalnızca yüzde 13’ünü doğru çözerken, o1 yüzde 83’lük bir başarıya ulaştı.

O1'in akıl yürütme yeteneklerindeki bu artışın, düşünce zinciri olarak bilinen bir yönlendirme tekniğinden kaynaklandığı belirtiliyor.

OpenAI, o1’in hatalarını tanımayı ve düzeltmeyi öğrendiğini, zor adımları daha basit adımlara ayırmayı bildiğini, mevcut yöntem işe yaramadığında farklı bir yaklaşım denemeyi öğrendiğini belirtiyor.

OpenAI'nin yeni o1'inin bir dezavantajı var

OpenAI, insan test kullanıcılarının, veri analizi, kodlama ve matematik gibi akıl yürütmeye dayalı kategorilerde o1'in yanıtlarını tercih ettiğini, ancak GPT-4o'nun kişisel yazım gibi doğal dil görevlerinde hala üstün olduğunu kaydetti. Bu da onu kardeşi GPT-4o'ya göre biraz da olsa dezavantajlı hale getiriyor.

OpenAI'nin ana misyonu uzun zamandır yapay genel zekâ (AGI) oluşturmak. AGI, insan yeteneklerini taklit eden hala teorik bir yapay zeka biçimi.

Yaz aylarında şirket, henüz o1 tanıtılmamışken, bu hedefe ulaşma süreci içinde beş seviyeli yeni bir sınıflandırma sistemi açıkladı.

Şirket yöneticileri, o1'in ikinci seviyeye yaklaştığını ve bu seviyenin insan düzeyinde problem çözme yeteneğine sahip düşünürler olarak tanımlandığını çalışanlarına bildirmişti.

Pennsylvania Üniversitesi'nden Ethan Mollick, o1 modeline bir aydan fazla süredir erişimi olan bir kişi olarak, modelin kazanımlarının en iyi örneğinin bulmaca çözme yeteneği olduğunu söyledi.

Mollick'e göre bulmacalar genellikle büyük dil modelleri için zorlayıcı. Çünkü birbirini etkileyen birçok cevabın denenmesini ve reddedilmesini gerektiriyor. Mollick, çoğu büyük dil modelinin yanıtlarına yalnızca bir seferde bir kelime ekleyebildiğini belirtti.

Ancak Mollick, o1’den bir bulmaca çözmesini istediğinde, yanıt vermeden önce tam 108 saniye boyunca düşündüğünü söyledi. Yanıtlarının etkileyici olduğunu söylese de tamamen doğru olmadığının altını çizdi.

İkna olmayan yapay zeka uzmanları da var

New York Üniversitesi'nde bilişsel bilim profesörü olan Gary Marcus, Business Insider'a yaptığı açıklamada, modelin "tkileyici bir mühendislik çalışması olduğunu ancak büyük bir sıçrama olmadığını söyledi ve ekledi, "Her zamanki gibi göklere çıkarılacağına eminim, ancak AGI'ye yakın değil."

OpenAI, geçen yıl GPT-4'ü tanıttığından beri AGI’yi icat etme arayışında ardışık güncellemeler yayınlıyor. Nisan ayında, GPT-4 Turbo, ücretli abonelere sunuldu. Bu güncelleme, daha sohbet tarzında yanıtlar üretme yeteneği içeriyordu.

Şirket, temmuz ayında sınırlı bir kullanıcı grubuyla SearchGPT adlı bir yapay zeka arama ürününü test ettiğini duyurdu.