Araştırma: Yapay zeka analog saatleri ve takvimleri doğru okuyamıyor

YAYIN TARİHİ, 17 Mart 2025 14:14 GÜNCELLEME, 17 Mart 2025 14:16

Yapay zeka zamanı söylemede başarısız: Edinburgh Üniversitesi'nde yapılan araştırmaya göre, büyük dil modelleri (LLM) analog saatleri okuma ve takvim verilerini doğru anlama konusunda düşük performans gösterdi.
Analog saatleri doğru okuma oranı yüzde 25’in altında kaldı: Test edilen yapay zeka modelleri, özellikle Roma rakamları içeren saatlerde, saniye ibresi bulunmayan tasarımlarda ve açısal hesaplamalarda zorluk yaşadı.
Takvim hesaplamalarında hatalar yapıldı: GPT-o1 modeli yüzde 80 doğruluk oranına ulaşarak en iyi sonucu verdi, ancak en başarılı model bile yüzde 20 hata oranıyla takvim sorularında eksiklikler gösterdi.

Araştırma: Yapay zeka analog saatleri ve takvimleri doğru okuyamıyor

Edinburgh Üniversitesi'nde yapılan bir araştırmada, büyük dil modellerinin (Large Language Model - LLM) analog saatleri okuma ve takvim verilerini anlama konusunda beklenenden düşük performans gösterdiği belirlendi. Yapay zekanın, zamanla ilgili temel görevlerde bile hatalar yaptığı ortaya çıktı.

Hangi yapay zeka modelleri test edildi?

Edinburgh Üniversitesi araştırmacıları, farklı medya türlerini yorumlayabilen ve üretebilen yedi büyük dil modelini (LLM) test etti. Test edilen modeller şunlardı:

OpenAI’ın GPT-4o ve GPT-o1,
Google DeepMind’ın Gemini 2.0,
Anthropic’in Claude 3.5 Sonnet,
Meta’nın Llama 3.2-11B-Vision-Instruct,
Alibaba’nın Qwen2-VL7B-Instruct,
ModelBest’in MiniCPM-V-2.6.

Araştırmada, bu modellerin analog saatleri okuma ve takvim verilerini anlama becerileri test edildi. Deney kapsamında yapay zekalara, Roma rakamları içeren saatler, farklı kadran tasarımları ve saniye ibresi eksik olan saatler gibi görseller gösterildi. Takvim testlerinde ise yılın belirli günleriyle ilgili sorular sorularak modellerin zamansal hesaplama yetenekleri ölçüldü.

Roma rakamlı saatleri okuyamıyor

Test edilen yapay zeka modellerinin analog saatleri doğru okuma oranı yüzde 25’in altında kaldı. Yapay zekaların özellikle şu durumlarda hata yaptığı gözlemlendi:

Roma rakamları içeren saatleri doğru okuyamama,
Saniye ibresi olmayan saatlerde açısal hesaplamaları yanlış yapma,
Saat ibresi ve kadran üzerindeki konumları yanlış yorumlama.

Takvim verileriyle ilgili yapılan testlerde ise GPT-o1 modeli yüzde 80 doğruluk oranına ulaşarak en iyi sonucu verdi. Ancak, en başarılı model bile yüzde 20 oranında hata yaptı.

Google’ın Gemini 2.0 modeli saat okuma testlerinde en yüksek başarıyı elde etti, ancak genel olarak yapay zeka sistemlerinin bu konuda geliştirilmesi gerektiği belirlendi.

Basit görevlerde zorlanıyor

Edinburgh Üniversitesi Bilişim Okulu'nda doktora öğrencisi ve çalışmanın ortak yazarı Rohit Saxena, yapay zekanın insanlara kıyasla zaman konusunda temel becerilere sahip olmadığını belirtti.

Çoğu insan zamanı kolayca söyleyebilir ve küçük yaşlardan itibaren takvim kullanabilir. Bulgularımız, yapay zekanın bu tür basit görevlerde zorlandığını gösteriyor.

Araştırmacılar, bu eksikliklerin giderilmesinin zaman bazlı otomasyonlar, otonom sistemler ve etkinlik planlaması gibi alanlar için önemli olduğunu ifade ediyor.

Sonuç: Yapay zekanın zaman yönetimi konusunda gelişmeye ihtiyacı var

Yapay zeka, metin üretimi, görüntü işleme ve veri analizi gibi alanlarda başarılı olsa da, basit zaman hesaplamalarında beklenen doğruluğa ulaşamıyor.

Araştırmacılar, yapay zekanın gelecekte zamanlama ve otomasyon gibi alanlarda daha güvenilir hale gelebilmesi için bu eksikliklerin giderilmesi gerektiğini vurguluyor.

POPÜLER HABERLER

1 Volkswagen'de sosis rekoru: Otomobil satışlarını geçti

2 OpenAI’dan Trump yönetimine 'Çin' uyarısı: DeepSeek, ABD’nin yapay zeka liderliğini tehdit ediyor

3 Emekliye 25 bin liraya varan promosyon: Hangi banka ne kadar veriyor?

4 Turizmde deprem etkisi: Yunan adalarındaki iptaller, Türkiye’de rezervasyonları artırdı

5 Fenerbahçe hisseleri taban fiyatı gördü

DAHA FAZLA TEKNOLOJİ

Yapay zeka destekli Siri için büyük vaatlerde bulunan Apple'da çalışanlar mutsuz

4 saat önce

Sony'den deepfake temizliği: Beyonce, Harry Styles ve Queen’in sesleriyle üretilen 75 bin şarkı kaldırıldı

Sony'den deepfake temizliği: Beyonce ve Queen’in sesleriyle üretilen 75 bin şarkı kaldırıldı

6 saat önce

100 kilometreden yüz tespiti: Çin uzaydan yüz tanıma yapabilecek kapasitede casus kamerası geliştirdi

100 kilometreden yüz tespiti: Çin'den uzaydan yüz tanıma yapabilecek kapasitede casus kamerası

8 saat önce

Kurtarma ekibi ISS'e ulaştı, uzayda mahsur kalan astronotlar bu hafta geri dönüyor

Kurtarma ekibi istasyona ulaştı, uzayda mahsur kalan astronotlar bu hafta geri dönüyor

9 saat önce

Rekabet Kurulu'ndan Netflix, Disney+, Exxen, BluTV, Amazon ve GAİN'e 'ayrımcılık' soruşturması

Rekabet Kurulu'ndan dijital platformlara 'ayrımcılık' soruşturması

16.03.2025

DAHA FAZLA