← Sözlük
Sözlük · Yapay Zekâ

Tokenizer nedir?

Metinleri yapay zekanın anlayabileceği küçük sayısal parçalara bölen araçtır.

Tanım

Tokenizer, metinleri yapay zekanın işleyebileceği sayısal parçalara dönüştüren temel bir araçtır. Yapay zeka kelimeleri bir bütün olarak değil, bu parçaların sayısal karşılıkları üzerinden anlar.

Şöyle düşünün: Bir kitabı okumadan önce onu tek tek harflere veya hecelere ayırıp, her birine bir numara vererek bir kod listesi oluşturmak gibidir.

Nasıl çalışır?

Metin girildiğinde tokenizer onu 'token' adı verilen parçalara böler. Bu tokenlar daha sonra yapay zekanın sayısal olarak işleyebileceği vektörlere dönüştürülür.

Nerede kullanılır?

Tüm büyük dil modellerinin giriş kapısıdır. Bir chatbot ile konuşmaya başladığınız anda, yazdığınız her şey ilk olarak tokenizer tarafından işlenir.

Sık karıştırılanlar

Sadece kelime ayırıcı ile karıştırılır; oysa tokenizer bazen bir kelimeyi birkaç parçaya, bazen de birkaç kelimeyi tek bir tokena bölebilir.

Sıkça sorulanlar

Token nedir?

Modelin işlem birimidir; genellikle bir kelimenin bir kısmı veya noktalama işaretidir.

Neden doğrudan kelimeleri kullanmıyoruz?

Çünkü sayısal verilerle işlem yapmak, kelimelerin karmaşık yapısıyla uğraşmaktan çok daha hızlı ve verimlidir.

İlgili terimler

İlgili araçlar

Bu açıklama TreScout için sade dille hazırlandı · yanlış ya da eksik gördüğünüz bir şey olursa hello@trescout.com. TreScout her gün GitHub, Hacker News ve HuggingFace trendlerini Türkçe özetler.