← Sözlük
Sözlük · Yapay Zekâ

RLHF nedir?

Reinforcement Learning from Human Feedback

Yapay zekayı insan geri bildirimleriyle eğiten bir iyileştirme sürecidir.

Tanım

RLHF, yapay zekanın verdiği yanıtların insanlar tarafından puanlanarak modelin daha güvenli ve yardımcı hale getirilmesidir. Bu süreç, modelin sadece bilgili değil aynı zamanda insan tercihlerine uygun davranmasını sağlar.

Şöyle düşünün: Bir stajyere işi öğretmek gibidir. Stajyer bir rapor hazırlar, siz de 'bu kısım çok iyi ama şu üslubu değiştir' diyerek onu eğitirsiniz. Zamanla stajyer sizin neyi beğeneceğinizi öğrenir.

Nasıl çalışır?

Önce model farklı yanıtlar üretir. İnsanlar bu yanıtları en iyiden en kötüye doğru sıralar. Bu geri bildirimlerle bir ödül modeli eğitilir ve ana yapay zeka modeli, bu ödül modelinden yüksek puan alacak şekilde ince ayar yapılır.

Nerede kullanılır?

ChatGPT gibi sohbet robotlarının insan gibi doğal ve güvenli konuşması için son aşamada uygulanır.

Sık karıştırılanlar

Sadece eğitim değil, modelin davranışını hizalama (alignment) sürecidir.

Sıkça sorulanlar

Neden gerekli?

Çünkü sadece internet verisiyle eğitilen modeller bazen kaba veya yanlış bilgiler verebilir.

İnsanlar mı puanlıyor?

Evet, genellikle eğitilmiş uzmanlar veya geniş kitleler tarafından puanlama yapılır.

İlgili terimler

Bu açıklama TreScout için sade dille hazırlandı · yanlış ya da eksik gördüğünüz bir şey olursa hello@trescout.com. TreScout her gün GitHub, Hacker News ve HuggingFace trendlerini Türkçe özetler.