← Keşif
Keşif · GitHub · Olmocr🚀 +334 bugün

PDF belgelerini yapay zekâ için dönüştürün

AllenAI tarafından geliştirilen olmocr, PDF belgelerini büyük dil modelleri (large language models) için uygun metin formatlarına dönüştüren bir araç takımıdır. Bu yazılım, karmaşık doküman yapılarının doğrusal bir biçimde işlenmesini sağlayarak veri seti hazırlama süreçlerini kolaylaştırır.

Ne kazandırır?

  • PDF ve resim formatlarını temiz Markdown metnine dönüştürür
  • Denklem, tablo ve karmaşık düzenleri doğru okuma sırasıyla işler
  • Üst ve alt bilgileri otomatik olarak temizler

Kurulum

Sistem bağımlılıklarını yükleme
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools
Python ortamı oluşturma
conda create -n olmocr python=3.11
conda activate olmocr

Kod bilmiyorsanız

🤖 Yapay zekâ ajanınıza (Claude Code · Codex · Antigravity) yapıştırın

Elimdeki PDF belgelerini yapay zekâ modellerinin kolayca okuyabileceği temiz bir Markdown formatına dönüştürmek istiyorum. Bu işlem için gerekli olan kurulum adımlarını ve yerel GPU üzerinde çalıştırma yöntemini bana adım adım açıklar mısın?

Kimin içinKarmaşık PDF belgelerini büyük dil modelleri için veri setine dönüştürmek isteyen araştırmacılar ve geliştiriciler içindir.
LisansApache-2.0

Bağlantılar

İlgili sözlük terimleri

TreScout bu aracı geliştirmedi · GitHub trendlerinde keşfedip Türkçe tanıttı. Yıldız ve sayılar keşif tarihindeki değerlerdir.