OpenAI’nin o3 modelinde şeffaflık tartışması! Beklentiler gerçeklerle çatışıyor
51 okunma

OpenAI’nin o3 modelinde şeffaflık tartışması! Beklentiler gerçeklerle çatışıyor

OpenAI’nin o3 AI modelinin FrontierMath benchmark’ında yüzde 25’lik başarı oranı elde ettiği iddiası, bağımsız testlerde yüzde 10’a düşerek şeffaflık tartışmalarını alevlendirdi. Şirketin test koşulları, optimize edilmiş model farkları ve sektördeki benchmark güvenilirliği sorgulanırken, OpenAI daha güçlü modellerle ilerlemeyi planlıyor.

ABONE OL
21/04/2025 16:23
OpenAI’nin o3 modelinde şeffaflık tartışması! Beklentiler gerçeklerle çatışıyor
0

BEĞENDİM

ABONE OL

OpenAI, Aralık’ta tanıttığı o3 AI modeliyle matematik problemlerinde devrim yaratacağını duyurmuştu. Şirket, FrontierMath benchmark’ında %25’in üzerinde başarı oranı elde ettiğini iddia ederken, bağımsız testler bu rakamın gerçeği yansıtmadığını ortaya koydu. Epoch AI’nin yaptığı testler, o3’ün yalnızca %10’luk başarı gösterdiğini belirtirken, OpenAI’nin test yöntemleri ve şeffaflığı tartışma konusu haline geldi.

İDDİALAR İLE GERÇEKLER ARASINDAKİ FARK

OpenAI, o3 modelinin FrontierMath’ta rakiplerini sollayarak %25’in üzerinde başarı yakaladığını açıklamıştı. Ancak Epoch AI’nin bağımsız testleri, modelin bu benchmark’ta sadece %10 başarı elde ettiğini gösterdi. Epoch, test koşulları ve FrontierMath’ın güncellenmiş versiyonunun bu farkı açıklayabileceğini belirtti. OpenAI ise halka sunulan o3 modelinin, daha az hesaplama gücüyle ve gerçek dünya kullanımına odaklanacak şekilde optimize edildiğini savundu.

ŞEFFAFLIK VE BENCHMARK REKABETİ

OpenAI’nin o3 açıklamaları, AI sektöründe sıkça rastlanan benchmark tartışmalarını yeniden alevlendirdi. ARC Prize Foundation, halka sunulan o3 modelinin, test edilen daha güçlü versiyondan farklı olduğunu doğruladı. Ayrıca, Epoch’un OpenAI’den aldığı fonu geç açıklaması, akademik çevrelerde güvenilirlik tartışmalarını körükledi. Benzer şekilde, xAI ve Meta gibi şirketler de yanıltıcı benchmark sonuçları nedeniyle eleştirilerin hedefi olmuştu.

OpenAI, o3-mini-high ve o4-mini modellerinin FrontierMath’ta o3’ü geçtiğini belirtirken, yakın zamanda daha güçlü bir o3-pro modelini tanıtmayı planlıyor. Ancak bu olay, AI benchmark’larının yüzeysel bir şekilde değerlendirilmemesi gerektiğini bir kez daha hatırlattı. Sektördeki rekabet, şirketlerin şeffaflık ve doğruluk konusunda daha özenli davranmasını zorunlu kılıyor.

Yorum yapabilmek için giriş yapmalısınız.


HIZLI YORUM YAP

SON DAKİKA HABERLERİ

GÜNDEM

1 saat önce

Tanju Özcan’dan otel yangını açıklaması! 2 bakanlığa işaret etti

EKONOMİ

3 saat önce

Egemen yapay zeka fırsatı ne kadar büyük?

GÜNDEM

1 gün önce

İmamoğlu’ndan iktidarın ekonomi politikalarına sert tepki: Tarih sizi ‘faize karşıymış gibi görünen en büyük faizciler’ olarak yazacak

SPOR

1 gün önce

FA Cup’ta tarihi zafer! Crystal Palace tarihe geçti | Crystal Palace – Manchester City maç sonucu: 1-0

EKONOMİ

2 gün önce

Bu hafta yatırım araçlarının performansı belli oldu

EKONOMİ

2 gün önce

Altın yeniden yükseldi! İşte gram, çeyrek, tam altında son durum

EKONOMİ

2 gün önce

Fren arızası Ford’u harekete geçirdi: 300 bine yakın araç geri çağrıldı

GÜNDEM

2 gün önce

Zelenskiy, AB liderleri ve Trump’la görüştü

EKONOMİ

2 gün önce

Tesla en uzun menzil Model Y’yi Türkiye’ye getiriyor

EKONOMİ

2 gün önce

DYO Boya’dan lokavt kararı

GÜNDEM

2 gün önce

CHP’li Akay açıkladı: Vatandaş saniyede 271 bin lira vergi ödedi

EKONOMİ

2 gün önce

Bitcoin, altın ve İsviçre frangını gölgede bıraktı

GÜNDEM

2 gün önce

Xiaomi, 7 akıllı telefon modeli için desteğini sonlandırıyor

GÜNDEM

2 gün önce

CHP Genel Başkanı Özel, Otizm Sempozyumu’nda konuştu

GÜNDEM

3 gün önce

Bakırhan'dan tartışılacak Lozan açıklaması

GÜNDEM

3 gün önce

ABD’den açıklama geldi: Trump ve Putin görüşmesi ne zaman olacak?

GÜNDEM

3 gün önce

Mandalinci “Otellerde doluluk oranı yüzde 90’lara ulaştı”

GÜNDEM

3 gün önce

Turhan Çömez'den dikkat çeken 'ittifak' açıklaması

GENEL

3 gün önce

İnşaat yasağı başladı, 150 gün sürecek

EKONOMİ

3 gün önce

Borsalardaki BTC rezervi son 7 yılın en düşük seviyesinde

ethereum
Ethereum (ETH) $ 2,440.06 1.00%
bitcoin
Bitcoin (BTC) $ 105,732.00 2.56%
official-trump
Official Trump (TRUMP) $ 13.00 3.85%
tether
Tether (USDT) $ 1.00 0.01%
bnb
BNB (BNB) $ 646.57 1.14%
xrp
XRP (XRP) $ 2.40 2.58%
tron
TRON (TRX) $ 0.266711 1.00%
litecoin
Litecoin (LTC) $ 98.91 3.08%
matic-network
Polygon (MATIC) $ 0.237168 2.64%
melania-meme
Melania Meme (MELANIA) $ 0.339133 4.27%
dogecoin
Dogecoin (DOGE) $ 0.227217 6.24%
solana
Solana (SOL) $ 169.29 2.36%