15:33 / Baz istasyonu çökerse ne yapacağız?

15:26 / Bülent Uygun’un kızı Almina Tude Uygun hayatını kaybetti

14:56 / Yüzbinlerce insan, Papa’nın naaşını ayakta karşıladı: Tüyleri diken diken eden tören

00:00 / Daha Çıkış Yapmadan Oyun Dünyasını Sallayan Rematch’in Game Pass’e Geleceği Açıklandı

22:04 / Sektörel güven endekslerinde düşüş

20:00 / Ghost of Yōtei Çıkış Tarihi ve Fragmanı Yayınlandı

19:48 / İstanbul Tıp Fakültesi’nde iki bina boşaltıldı, hastalar tahliye edildi

17:45 / Almanya’dan Eurofighter açıklaması

16:40 / Cardano kurucusundan yıl sonu Bitcoin tahmini

16:07 / Sokakta ‘diplomasız Erdoğan’ sloganı atan 5 genç gözaltına alındı

Son dakika haberleri

Anasayfa / Teknoloji & Bilim / OpenAI’nin o3 modelinde şeffaflık tartışması! Beklentiler gerçeklerle çatışıyor

OpenAI’nin o3 modelinde şeffaflık tartışması! Beklentiler gerçeklerle çatışıyor

Web-Haber
Gündem
Teknoloji & Bilim
OpenAI’nin o3 modelinde şeffaflık tartışması! Beklentiler gerçeklerle çatışıyor

41 kez okundu | Güncelleme: 21/04/2025 16:23

41 okunma

OpenAI’nin o3 modelinde şeffaflık tartışması! Beklentiler gerçeklerle çatışıyor

OpenAI’nin o3 AI modelinin FrontierMath benchmark’ında yüzde 25’lik başarı oranı elde ettiği iddiası, bağımsız testlerde yüzde 10’a düşerek şeffaflık tartışmalarını alevlendirdi. Şirketin test koşulları, optimize edilmiş model farkları ve sektördeki benchmark güvenilirliği sorgulanırken, OpenAI daha güçlü modellerle ilerlemeyi planlıyor.

ABONE OL

21/04/2025 16:23

OpenAI’nin o3 modelinde şeffaflık tartışması! Beklentiler gerçeklerle çatışıyor

0

BEĞENDİM

ABONE OL

OpenAI, Aralık’ta tanıttığı o3 AI modeliyle matematik problemlerinde devrim yaratacağını duyurmuştu. Şirket, FrontierMath benchmark’ında %25’in üzerinde başarı oranı elde ettiğini iddia ederken, bağımsız testler bu rakamın gerçeği yansıtmadığını ortaya koydu. Epoch AI’nin yaptığı testler, o3’ün yalnızca %10’luk başarı gösterdiğini belirtirken, OpenAI’nin test yöntemleri ve şeffaflığı tartışma konusu haline geldi.

OpenAI, o3 modelinin FrontierMath’ta rakiplerini sollayarak %25’in üzerinde başarı yakaladığını açıklamıştı. Ancak Epoch AI’nin bağımsız testleri, modelin bu benchmark’ta sadece %10 başarı elde ettiğini gösterdi. Epoch, test koşulları ve FrontierMath’ın güncellenmiş versiyonunun bu farkı açıklayabileceğini belirtti. OpenAI ise halka sunulan o3 modelinin, daha az hesaplama gücüyle ve gerçek dünya kullanımına odaklanacak şekilde optimize edildiğini savundu.

OpenAI’nin o3 açıklamaları, AI sektöründe sıkça rastlanan benchmark tartışmalarını yeniden alevlendirdi. ARC Prize Foundation, halka sunulan o3 modelinin, test edilen daha güçlü versiyondan farklı olduğunu doğruladı. Ayrıca, Epoch’un OpenAI’den aldığı fonu geç açıklaması, akademik çevrelerde güvenilirlik tartışmalarını körükledi. Benzer şekilde, xAI ve Meta gibi şirketler de yanıltıcı benchmark sonuçları nedeniyle eleştirilerin hedefi olmuştu.

OpenAI, o3-mini-high ve o4-mini modellerinin FrontierMath’ta o3’ü geçtiğini belirtirken, yakın zamanda daha güçlü bir o3-pro modelini tanıtmayı planlıyor. Ancak bu olay, AI benchmark’larının yüzeysel bir şekilde değerlendirilmemesi gerektiğini bir kez daha hatırlattı. Sektördeki rekabet, şirketlerin şeffaflık ve doğruluk konusunda daha özenli davranmasını zorunlu kılıyor.

Yorum yapabilmek için giriş yapmalısınız.

HIZLI YORUM YAP

SON DAKİKA HABERLERİ

GENEL

19 dakika önce

Baz istasyonu çökerse ne yapacağız?

GÜNDEM

27 dakika önce

Bülent Uygun’un kızı Almina Tude Uygun hayatını kaybetti

GÜNDEM

57 dakika önce

Yüzbinlerce insan, Papa’nın naaşını ayakta karşıladı: Tüyleri diken diken eden tören

GÜNDEM

Daha Çıkış Yapmadan Oyun Dünyasını Sallayan Rematch’in Game Pass’e Geleceği Açıklandı

EKONOMİ

Sektörel güven endekslerinde düşüş

GÜNDEM

Ghost of Yōtei Çıkış Tarihi ve Fragmanı Yayınlandı

GENEL

İstanbul Tıp Fakültesi’nde iki bina boşaltıldı, hastalar tahliye edildi

GÜNDEM

Almanya’dan Eurofighter açıklaması

EKONOMİ

Cardano kurucusundan yıl sonu Bitcoin tahmini

GÜNDEM

Sokakta ‘diplomasız Erdoğan’ sloganı atan 5 genç gözaltına alındı

GENEL

20 ildeki yasa dışı bahis operasyonu! 128 kişi tutuklandı

GÜNDEM

Bu uyarı sistemi, depremi 9 saniye önceden bildirmiş

GÜNDEM

İmamoğlu’ndan iktidara ’19 Mart’ tepkisi: Maddi kayıp 1 milyon konut!

GÜNDEM

Nasuh Mahruki’den kritik yorum: 6,2’lik deprem bir uyarı!

GÜNDEM

İstanbul’daki depremde yaralıların sayısı açıklandı

GENEL

İstanbul beşik gibi sallanıyor! 4.9 büyüklüğünde bir deprem daha

GÜNDEM

Naci Görür’den İstanbul Silivri depremine ilişkin ilk açıklama

SPOR

Fenerbahçe’de ayrılık kesinleşti! Sezon sonunda gidiyor

EKONOMİ

Gram altın tüm zamanların zirvesini test etti

EKONOMİ

Bitcoin, ABD Başkanı’nın tarife açıklamasıyla birlikte sıçrama yaşadı!

Yeni Geliştirilen Instagram Edits, CapCut’a Rakip Oldu

Yeni Geliştirilen Instagram Edits, CapCut’a Rakip Oldu

Lenovo, yeni IdeaPad Slim 3 modelini tanıttı!

Lenovo, yeni IdeaPad Slim 3 modelini tanıttı!

OpenAI’nin o3 modelinde şeffaflık tartışması! Beklentiler gerçeklerle çatışıyor

OpenAI’nin o3 modelinde şeffaflık tartışması! Beklentiler gerçeklerle çatışıyor

Dünya dışı yaşamın kanıtı, bilim dünyasını sarstı: ‘Dünya dışında, canlı varlıklarla dolu bir okyanus’

Dünya dışı yaşamın kanıtı, bilim dünyasını sarstı: ‘Dünya dışında, canlı varlıklarla dolu bir okyanus’

Yapay zeka enerji tüketimini patlatacak: 4 kat artacak

Yapay zeka enerji tüketimini patlatacak: 4 kat artacak

Kripto & Altcoin

Ethereum (ETH) $ 1,815.19 2.49%

Bitcoin (BTC) $ 95,496.00 2.41%

Official Trump (TRUMP) $ 14.15 15.37%

Tether (USDT) $ 1.00 0.04%

BNB (BNB) $ 606.95 1.18%

XRP (XRP) $ 2.22 0.03%

TRON (TRX) $ 0.243855 1.11%

Litecoin (LTC) $ 86.93 4.03%

Polygon (MATIC) $ 0.247058 4.11%

Melania Meme (MELANIA) $ 0.523488 15.78%

Dogecoin (DOGE) $ 0.185472 3.15%

Solana (SOL) $ 154.14 2.27%