LLM faturasını yönetmek — 6 etkili teknik

GPT-4 ile başlayan POC un ay sonu 14 bin dolar fatura getirdiğini gördükten sonra çıkardığımız oyun planı.

Bu yazıda konuyu üretim deneyimimizden 5 maddeyle açıyoruz: hangi durumda hangi tercih kazanır, hangi tuzaklara dikkat etmek gerekir, ve 2026'da hâlâ yararlı olan kararlar nelerdir. Bizim 12 yılda 9 ürün yayınlarken karşılaştığımız gerçek senaryolar bu yazının kaynağı — pazarlama içeriği değil, mühendislik notu.

İçindekiler

Model routing — basit sorular GPT-3.5'a
Prompt caching — 10× ucuz
Embedding cache — Redis ile
Token compression — geçmişi sıkıştırma
Cost guardrails — kullanıcı başı limit
Local model fallback — Llama 3
Sık sorulan sorular

1. Model routing — basit sorular GPT-3.5'a

Bütün soruları GPT-4'e gönderiyorsanız parayı yakıyorsunuz. Önce "bu soru karmaşık mı?" classifier (Haiku) çalıştırın, basit ise 3.5, kompleks ise 4o. %60 maliyet düşüşü gördük.

Bu noktayı bizim üretim ortamımızda nasıl uyguladığımızdan örnek: ilk projede kararı çabuk verdik ve sonra geri döndük. O günden beri her yeni projede aynı kontrolü 30 dakikada yapıyoruz; süreç bizi çok kazandırıyor.

2. Prompt caching — 10× ucuz

Anthropic ve OpenAI prompt caching destekliyor. Sistem prompt + büyük doküman değişmiyorsa, 5 dakika cache. Bizim RAG SaaS'ta input token cost'unu %80 düşürdü.

Bu noktayı bizim üretim ortamımızda nasıl uyguladığımızdan örnek: ilk projede planlamayı 2 hafta uzattık. Erken kararın geç bakım maliyeti her zaman daha düşük olduğunu öğrendik.

Bizim 4 adımlı uygulama planımız

3. Embedding cache — Redis ile

Aynı sorgu + aynı yanıt; cache hit ise model çağırma. Kullanıcı arama davranışında %40 cache hit oranı yakaladık. Redis 256MB instance ay $14, cache ettiği AI maliyet ay $2.800.

Hızlı kazanç: İlk hafta uygulayın
Orta vade: 30 günlük sprint planına ekleyin
Uzun vade: Çeyreklik metric'lerinizi yeniden tanımlayın

4. Token compression — geçmişi sıkıştırma

Chat geçmişini her N mesajda summarize ile sıkıştırın. Pencerede 50K token'dan 5K token'a düşüyor. Kullanıcı geçmiş soruları unutmuş hissetmiyor; biz kalite testi de yaptık.

5. Cost guardrails — kullanıcı başı limit

Tek kullanıcı $50/ay token tüketince throttle. Abuse vakası bizim 6.500 müşterili SaaS'ta ayda 2-3 kez yaşandı; guardrail olmadan ay sonu sürpriz fatura.

6. Local model fallback — Llama 3

Hassas veri ve maliyet düşük olunca self-host Llama 3 70B. RTX 4090 = $1.500/ay, kapasite 1M token/gün. Ay $4K AI maliyetini $1.5K'ya çekti.

Sık sorulan sorular

LLM faturasını yönetmek ne kadar sürer?

Senaryoya göre değişir; bizim uygulamalarımızda ilk değer 2-4 hafta, tam yapı 8-12 hafta. Bu yazıda detayları paylaştık.

Bu yaklaşımın bütçesi nedir?

Konuya göre değişiyor — ücretsiz ön görüşmemizde gerçek brief üzerinden tahmin veriyoruz.

Türkiye dışı projelerde de aynı tavsiyeler geçerli mi?

Genelde evet; sadece KVKK / vergi tarafları ülkeye göre değişir.

Ayşe Yılmaz

SaaS Mimari Lideri · BubiSoft