"AI ekleyelim" kararı verildikten sonra teknik ekibin ilk haftası genelde araştırmayla geçer. Bu yazı, bizim 4 SaaS projesinde uyguladığımız RAG mimarisinin damıtılmış halidir.
1) Vector DB seçimi
Az veri (<1M chunk) için pgvector yeterli. Mevcut Postgres'inizi kullanır, ekstra altyapı gerekmez. Daha büyük ölçek için Pinecone veya Qdrant. Weaviate'ı denedik, ops yükü ağırdı.
2) Chunking stratejisi
Chunk size 500-800 token sweet-spot. Document'ı sayfa, başlık veya paragraf bazlı bölmek, sabit token bölmekten daha iyi sonuç verir.
3) Citation zorunlu
Cevabın hangi kaynaktan geldiğini göstermeyen RAG = halüsinasyon makinesi. Her chunk'ın kaynağını metadata'da saklayın, modelin cevabında alıntılı dönsün.
"Cevabı biliyor olabilir ama ispatlayamıyorsa kullanıcıya göstermeyiz."
4) Fallback davranışı
Ne yaparsanız yapın, retrieval bazen 0 chunk dönecek. Modelin "bilmiyorum, kaynak bulunamadı" diyebilmesini sistemli olarak sağlayın — boş retrieval'da modeli atlatıp direkt mesaj dönün.
5) Maliyet kontrolü
GPT-4 mini ile başlayın. Sadece kullanıcı "daha detaylı cevap" derse büyük modele yükseltin. Bu pattern faturayı 5×'e kadar düşürdü bizim deneyimimizde.