Keşif · GitHub · Olmocr🚀 +334 bugün

PDF belgelerini yapay zekâ için dönüştürün

AllenAI tarafından geliştirilen olmocr, PDF belgelerini büyük dil modelleri (large language models) için uygun metin formatlarına dönüştüren bir araç takımıdır. Bu yazılım, karmaşık doküman yapılarının doğrusal bir biçimde işlenmesini sağlayarak veri seti hazırlama süreçlerini kolaylaştırır.

★ 18.418
Python
GitHub Trending · 2026-07-02

Ne kazandırır?

PDF ve resim formatlarını temiz Markdown metnine dönüştürür
Denklem, tablo ve karmaşık düzenleri doğru okuma sırasıyla işler
Üst ve alt bilgileri otomatik olarak temizler

Kurulum

Sistem bağımlılıklarını yükleme

sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools

Python ortamı oluşturma

conda create -n olmocr python=3.11
conda activate olmocr

Kod bilmiyorsanız

🤖 Yapay zekâ ajanınıza (Claude Code · Codex · Antigravity) yapıştırın

Elimdeki PDF belgelerini yapay zekâ modellerinin kolayca okuyabileceği temiz bir Markdown formatına dönüştürmek istiyorum. Bu işlem için gerekli olan kurulum adımlarını ve yerel GPU üzerinde çalıştırma yöntemini bana adım adım açıklar mısın?

Kimin içinKarmaşık PDF belgelerini büyük dil modelleri için veri setine dönüştürmek isteyen araştırmacılar ve geliştiriciler içindir.

LisansApache-2.0

Bağlantılar

GitHub deposu →

İlgili sözlük terimleri

TreScout bu aracı geliştirmedi · GitHub trendlerinde keşfedip Türkçe tanıttı. Yıldız ve sayılar keşif tarihindeki değerlerdir.