Keşif · GitHub · Olmocr🚀 +334 bugün
PDF belgelerini yapay zekâ için dönüştürün
AllenAI tarafından geliştirilen olmocr, PDF belgelerini büyük dil modelleri (large language models) için uygun metin formatlarına dönüştüren bir araç takımıdır. Bu yazılım, karmaşık doküman yapılarının doğrusal bir biçimde işlenmesini sağlayarak veri seti hazırlama süreçlerini kolaylaştırır.
Ne kazandırır?
- PDF ve resim formatlarını temiz Markdown metnine dönüştürür
- Denklem, tablo ve karmaşık düzenleri doğru okuma sırasıyla işler
- Üst ve alt bilgileri otomatik olarak temizler
Kurulum
Sistem bağımlılıklarını yükleme
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetoolsPython ortamı oluşturma
conda create -n olmocr python=3.11
conda activate olmocrKod bilmiyorsanız
🤖 Yapay zekâ ajanınıza (Claude Code · Codex · Antigravity) yapıştırın
Elimdeki PDF belgelerini yapay zekâ modellerinin kolayca okuyabileceği temiz bir Markdown formatına dönüştürmek istiyorum. Bu işlem için gerekli olan kurulum adımlarını ve yerel GPU üzerinde çalıştırma yöntemini bana adım adım açıklar mısın?
Kimin içinKarmaşık PDF belgelerini büyük dil modelleri için veri setine dönüştürmek isteyen araştırmacılar ve geliştiriciler içindir.
LisansApache-2.0
Bağlantılar
İlgili sözlük terimleri
TreScout bu aracı geliştirmedi · GitHub trendlerinde keşfedip Türkçe tanıttı. Yıldız ve sayılar keşif tarihindeki değerlerdir.