RTX 5090 ile yerel açık kaynak LLM’lerin performans testi.

Nisan 22, 2025 admin Uncategorized

Sonunda RTX 5090 elime geçti ve özellikle yerel olarak çalıştırılan açık kaynak LLM (Large Language Model) projeleriyle nasıl bir performans veriyor diye detaylıca test ettim. Gerçekten uzun süredir bu kadar tatmin edici bir donanım deneyimi yaşamamıştım, hele ki LLM’lerle bu kadar yakın çalışıyorsan aradaki farkı anında hissediyorsun. Eğer sen de evinde büyük dil modelleriyle denemeler yapıyorsan, aşağıdaki veriler oldukça işine yarayacak. Bu arada, daha fazla içerik için istersen ana sayfaya da göz atabilirsin.

RTX 5090 ile İlk Deneyimler

Öncelikle belirtmem gerekiyor: RTX 5090 yalnızca oyun ya da grafik işleme kartı değil, yapay zeka ve LLM tarafında da çok ciddi bir performans artışı sağlıyor. Testlerimde kullandığım modeller arasında Qwen2.5-Coder-7B-Instruct gibi güncel açık kaynak seçenekler de vardı. Bu modelle yapılan testlerde RTX 5090’ın saniyede 5.841 token işlemeyi başarması gerçekten etkileyici. Üstelik bu sonuç, veri merkezi sınıfındaki NVIDIA A100 80GB PCIe karta göre 2.6 kat daha hızlı. Yani bir anlamda masaüstünde veri merkezi deneyimi yaşıyoruz diyebilirim.

Token işlemesi, LLM’lerin performansında belirleyici bir ölçüt. Eğer daha önce örnekleme sırasında modelin beklettiğini yaşadıysan, bu farkı gözünle görmen çok zor olmayacak. Özellikle 1024 token ve batch size 8 konfigürasyonlarıyla, RTX 5090 çok akıcı ve seri çalışıyor. Sadece LLM değil, genel yapay zeka uygulamalarında da modelin tepki süresi ciddi şekilde düşüyor. Bu da hem geliştirme hem test aşamalarında zamandan tasarruf sağlıyor.

VRAM’e Rağmen Stabil Performans

RTX 5090’ın 32 GB VRAM ile gelmesi aslında büyük bir risk gibi görünüyordu. Çünkü örneğin A100 gibi kartların 80 GB VRAM’e sahip olduğunu düşünürsek, bu fark büyük modellerde belirli sınırlamalar yaratabilir. Ancak gerçek senaryolarda yani 7B ve 13B arasındaki sık kullanılan modellerde RTX 5090 birçok rakibini rahatlıkla geride bırakıyor. Özellikle yerel kullanımda, 32 GB VRAM çoğu populer açık kaynak LLM’i hiçbir sorun yaşamadan çalıştırabiliyor. Benim test ettiğim modeller arasında LLaMA 2 7B, Mistral 7B ve Phi-2 gibi seçenekler herhangi bir belleğe takılmadan çok stabil çalıştı.

Elbette 70B parametreli devasa modeller için hala daha geniş belleğe sahip sistemler (örneğin A100) avantajlı. Ancak şunu soralım: Gerçekten bu kadar büyük modelle günlük kullanımda çalışıyor muyuz? Benim gibi çoğu geliştirici veya araştırmacı için 7B ya da 13B modeller fazlasıyla yeterli. Hem inference (çıkarım) süresi kısa oluyor, hem de enerji tüketimi daha az. Bu açıdan RTX 5090, pratikte çok dengeli bir çözüm sunuyor.

Donanım Kıyaslamasına Yakından Bakış

Şimdi gel biraz rakamların içine dalalım. Aşağıdaki tablo, benim birebir test ettiğim ya da literatürde doğrulanmış verilere göre hazırlanmıştır:

GPU	VRAM	Token İşleme Hızı	Bulut Kiralama Saatlik ($)
RTX 5090	32 GB	5.841 tok/s	0,89
RTX 6000 Ada	48 GB	Daha Yavaş	0,77
NVIDIA A100 80GB	80 GB	Daha Yavaş	1,64

Tabloda da görüldüğü gibi, RTX 5090 sadece token başına hızda değil, aynı zamanda fiyat/performans oranında da açık ara önde. 0,89 dolarlık saatlik maliyetiyle neredeyse A100’ün yarı fiyatına sunulan performans inanılmaz değil mi? Hele ki senin gibi yerel modellerle çalışmayı seven biriysen, bu fark hem günlük iş yükünde hem de bütçede ciddi fark yaratacaktır.

Ada ve Blackwell Farkı

RTX 5090’ın bu performansı sağlayabilmesinde mimari yapı da büyük rol oynuyor. Blackwell mimarisi, Ada’ya göre daha optimize edilmiş ve paralel işlem yeteneği olağanüstü yüksek. Özellikle LLM gibi yüksek hesaplama gerektiren uygulamalarda mimarinin avantajları daha açık şekilde hissediliyor. Ada mimarili RTX 6000 bile bu noktada geride kalırken, Blackwell tabanlı RTX 5090 farkını net şekilde ortaya koyuyor.

Buraya kadar olan kısımda özellikle RTX 5090’ın yerel LLM kullanımında nasıl öne çıktığını anlatmaya çalıştım. Şimdi sıra geldi ikinci kısımda daha teknik detaylara, kullanım örneklerine ve bazı püf noktalarına değinmeye. Özellikle hangi modeller hangi batch size ile daha verimli çalışır gibi sorulara birlikte bakacağız.

Devamı yakında…

Model performansı ve kullanım ipuçları

Bir önceki kısımda RTX 5090’ın sunduğu genel performans avantajlarından bahsettik. Şimdi biraz daha derine inip, hangi modelin hangi koşullarda en verimli çalıştığını ve kendi deneyimlerime göre nelere dikkat etmen gerektiğini paylaşmak istiyorum. Çünkü sadece donanımın güçlü olması yetmiyor, doğru model ve ayar seçimiyle sistemden alabileceğin verim bambaşka yerlere çıkabiliyor.

Batch size ayarının önemi

Yerel LLM çalıştırırken çok önemli ama çoğu kişinin göz ardı ettiği bir konu var: Batch size. Kısaca aynı anda işlenen istek sayısı diyebiliriz. RTX 5090 gibi kartlarda bu değer doğrudan performansı etkileyen kritik bir parametre. Örneğin Qwen2.5-Coder-7B-Instruct modelinde yaptığım testlerde batch size’ı 1’den 8’e çıkardığımda, token/s hızındaki artış lineer olmasa da çarpıcıydı. Batch size 8’de saniyede 5.841 token’a kadar çıktım. Ama bu ayar, anlık bellek kullanımını artırdığı için 13B gibi daha büyük modellerde dikkatli olmakta fayda var.

Eğer uygulaman canlı kullanıcılarla çalışıyorsa ve aynı anda çok talep alıyorsan, batch size’ı optimize etmen şart. Ama tek kullanıcı modunda çalışıyorsan ya da inference süreleri seni pek etkilemiyorsa, küçük boyutlu ayarlarda da çok konforlu bir deneyim yaşayabilirsin.

Hangi modeller daha verimli?

Her LLM aynı değil, bunu zaten biliyorsundur. Fakat RTX 5090 ile özellikle verimli çalışan bazı modellerden özellikle bahsetmek istiyorum. Bunlar hem VRAM tüketimi hem de inference kalitesi açısından göze çarpıyor:

LLama 2 7B: Meta’nın açık kaynak projesi. 32 GB VRAM’li 5090’da rahatça çalışıyor. Gerçek zamanlı yanıtlar alabiliyorsun.
Mistral 7B: Performans/kalite dengesi muazzam. Eğitim verisi açısından oldukça güncel ve doğal cevaplar üretiyor.
Qwen 2.5 7B: Kodlama görevlerinde de etkili. Geliştiriciler için birebir.
Phi-2: Microsoft Research tarafından geliştirilen daha küçük ama şaşırtıcı derecede zeki bir model.

Bu modellerle yaptığım testlerde GPU bellek kullanımı 20-28 GB arasında kaldı. Haliyle sistem hiç zorlanmadı, hatta arka planda birkaç küçük işlem daha rahatça yürütebildim.

Yerel mi bulut mu?

Açıkçası RTX 5090 elindeyse, bulut kiralamaya uzun süre ihtiyacın kalmayabilir. Çünkü gece gündüz çalışan bir veri merkezi kiralamak yerine, aynı işi kendi bilgisayarında neredeyse yarı fiyatına yapabiliyorsun. Rakamlarla anlatmak gerekirse, bulutta bir A100 kiralamanın saatlik bedeli 1,64 dolar. Aynı işi RTX 5090 ile 0,89 dolara yapabilmek ciddi bir fark. Hele bu işi meslek hâline getirdiysen ya da projelerin süreklilik istiyorsa, uzun vadeli tasarruf çok büyük oluyor.

Ancak VRAM limiti nedeniyle çok büyük modelleri (mesela Falcon 40B ya da LLaMA 70B) çalıştırmak istiyorsan ya parçalı yükleme tekniklerini ya da yine de bir şekilde A100 veya H100 gibi kartlara yönelmeyi düşünebilirsin. Fakat günümüzün çoğu kullanım senaryosu için 7B-13B aralığı yeterli. Büyük modelleri kullanmak biraz da “güç gösterisi” gibi gelmeye başladı açıkçası.

Sıcaklık ve enerji tüketimi

İşin teknik kısmına biraz daha dalalım. RTX 5090 gibi güçlü bir kartta termal yönetim çok iyi düşünülmüş. Uzun süreli testlerde kartın ısısı 70-75 derece arasında sabit kaldı. Sistemim iyi soğutulmuş bir kasaya sahip, ama stok halinde de bu değerler çok yüksek değil. Üstelik enerji tüketimi tarafında da sürpriz yaşamadım. LLM testleri sırasında ortalama 400-420W civarı çekiyor, bu da RTX 4090’a kıyasla çok da artış değil aslında. Yani hem güçlü hem de kontrol altında diyebilirim.

Teknik ipucu: Model optimizasyonu

Eğer bu deneyimden maksimum fayda sağlamak istiyorsan, bazı ek optimizasyona girebilirsin. Örneğin HuggingFace Transformers kitaplığında bitsandbytes gibi araçlarla modeli 4-bit’e çevirmek, bellek kullanımını ciddi oranda azaltıyor. Bu sayede 13B modelleri bile 32 GB VRAM içinde çalıştırmak mümkün olabiliyor. Ayrıca bazı model checkpoint’lerinin saf float16 ya da int8 versiyonunu indirerek de ciddi hız kazanabilirsin.

Blackwell farkı daha da açılacak mı?

Kısaca şunu merak ediyorum: RTX 5090 ile bu verimi sağladıysak, ileride Blackwell mimarisinin profesyonel versiyonları (örneğin H200 ya da B100 gibi) piyasaya çıktığında aradaki fark ne kadar açılacak? Şimdiden RTX 5090, 2.6x gibi farklarla veri merkezi kartlarını yakaladıysa, gelecekte masaüstü çözümleri çok daha yaygın hale gelebilir gibi görünüyor. Bu da birçok geliştirici için oyunun kurallarını değiştirecek.

Eğer hala “Acaba RTX 5090 bana fazla mı?” diye düşünüyorsan, söyleyeyim: Eğer aktif şekilde LLM kullanıyorsan ve lokal çalışmayı tercih ediyorsan, bu kart seni uzun süre idare eder ve seni performans anlamında asla üzmez. Tabii yine neye ihtiyacın olduğuna göre karar senin.

Daha fazla benzer sistemlerle ilgili yazılara ana sayfa üzerinden ulaşabilirsin.

Ayrıca, RTX 5090 ve Blackwell mimarisi hakkında daha teknik bilgiye sahip olmak istersen Wikipedia’daki bu sayfa oldukça iyi açıklıyor.

Son düşünceler

Bu kadar model test ettikten ve RTX 5090 ile haftalarca çalıştıktan sonra şunu rahatlıkla söyleyebilirim: Eğer yerel açık kaynak LLM kullanımı senin için önemliyse, RTX 5090 sadece bir ekran kartı değil; adeta bir üretkenlik motoru. Donanım kadar yazılımsal uyumu da seni memnun eder. Doğru model ve doğru ayarlamalarla, elindeki potansiyeli tam anlamıyla kullanabilirsin.