Araştırma: Yapay zeka analog saatleri ve takvimleri doğru okuyamıyor

PAYLAŞ
  • Yapay zeka zamanı söylemede başarısız: Edinburgh Üniversitesi'nde yapılan araştırmaya göre, büyük dil modelleri (LLM) analog saatleri okuma ve takvim verilerini doğru anlama konusunda düşük performans gösterdi.
  • Analog saatleri doğru okuma oranı yüzde 25’in altında kaldı: Test edilen yapay zeka modelleri, özellikle Roma rakamları içeren saatlerde, saniye ibresi bulunmayan tasarımlarda ve açısal hesaplamalarda zorluk yaşadı.
  • Takvim hesaplamalarında hatalar yapıldı: GPT-o1 modeli yüzde 80 doğruluk oranına ulaşarak en iyi sonucu verdi, ancak en başarılı model bile yüzde 20 hata oranıyla takvim sorularında eksiklikler gösterdi.
Araştırma: Yapay zeka analog saatleri ve takvimleri doğru okuyamıyor

Edinburgh Üniversitesi'nde yapılan bir araştırmada, büyük dil modellerinin (Large Language Model - LLM) analog saatleri okuma ve takvim verilerini anlama konusunda beklenenden düşük performans gösterdiği belirlendi. Yapay zekanın, zamanla ilgili temel görevlerde bile hatalar yaptığı ortaya çıktı.

Hangi yapay zeka modelleri test edildi?

Edinburgh Üniversitesi araştırmacıları, farklı medya türlerini yorumlayabilen ve üretebilen yedi büyük dil modelini (LLM) test etti. Test edilen modeller şunlardı:

  • OpenAI’ın GPT-4o ve GPT-o1,
  • Google DeepMind’ın Gemini 2.0,
  • Anthropic’in Claude 3.5 Sonnet,
  • Meta’nın Llama 3.2-11B-Vision-Instruct,
  • Alibaba’nın Qwen2-VL7B-Instruct,
  • ModelBest’in MiniCPM-V-2.6.

Araştırmada, bu modellerin analog saatleri okuma ve takvim verilerini anlama becerileri test edildi. Deney kapsamında yapay zekalara, Roma rakamları içeren saatler, farklı kadran tasarımları ve saniye ibresi eksik olan saatler gibi görseller gösterildi. Takvim testlerinde ise yılın belirli günleriyle ilgili sorular sorularak modellerin zamansal hesaplama yetenekleri ölçüldü.

Roma rakamlı saatleri okuyamıyor

Test edilen yapay zeka modellerinin analog saatleri doğru okuma oranı yüzde 25’in altında kaldı. Yapay zekaların özellikle şu durumlarda hata yaptığı gözlemlendi:

  • Roma rakamları içeren saatleri doğru okuyamama,
  • Saniye ibresi olmayan saatlerde açısal hesaplamaları yanlış yapma,
  • Saat ibresi ve kadran üzerindeki konumları yanlış yorumlama.

Takvim verileriyle ilgili yapılan testlerde ise GPT-o1 modeli yüzde 80 doğruluk oranına ulaşarak en iyi sonucu verdi. Ancak, en başarılı model bile yüzde 20 oranında hata yaptı.

Google’ın Gemini 2.0 modeli saat okuma testlerinde en yüksek başarıyı elde etti, ancak genel olarak yapay zeka sistemlerinin bu konuda geliştirilmesi gerektiği belirlendi.

Basit görevlerde zorlanıyor

Edinburgh Üniversitesi Bilişim Okulu'nda doktora öğrencisi ve çalışmanın ortak yazarı Rohit Saxena, yapay zekanın insanlara kıyasla zaman konusunda temel becerilere sahip olmadığını belirtti.

Çoğu insan zamanı kolayca söyleyebilir ve küçük yaşlardan itibaren takvim kullanabilir. Bulgularımız, yapay zekanın bu tür basit görevlerde zorlandığını gösteriyor.

Araştırmacılar, bu eksikliklerin giderilmesinin zaman bazlı otomasyonlar, otonom sistemler ve etkinlik planlaması gibi alanlar için önemli olduğunu ifade ediyor.

Sonuç: Yapay zekanın zaman yönetimi konusunda gelişmeye ihtiyacı var

Yapay zeka, metin üretimi, görüntü işleme ve veri analizi gibi alanlarda başarılı olsa da, basit zaman hesaplamalarında beklenen doğruluğa ulaşamıyor.

Araştırmacılar, yapay zekanın gelecekte zamanlama ve otomasyon gibi alanlarda daha güvenilir hale gelebilmesi için bu eksikliklerin giderilmesi gerektiğini vurguluyor.