OCR PDF: kaip iš skenuoto dokumento gauti redaguojamą tekstą
Skenuotas dokumentas atrodo kaip PDF, bet teksto kopijuoti negalima – tai tik vaizdas. OCR (Optical Character Recognition) pavers jį tikru tekstu.
Kada reikia OCR
- Senų dokumentų archyvas – paveikslai be galimybės ieškoti
- Sąskaitos iš tiekėjų – noriu kopijuoti sumas į buhalterinę
- Studijų medžiaga – pažymėti tekstą, daryti pastabas
- Sutartys – ieškoti konkretaus punkto Ctrl+F
OCR su pdftools.lt
- Eikite į pdftools.lt/#tool/ocr
- Įkelkite nuskanuotą PDF
- Pasirinkite kalbą (LT, EN ir kt.)
- Spauskite „Pradėti" – gausite PDF su atpažintu tekstu
Kokybės patarimai
- Geras nuskanavimas – 300 DPI ar daugiau, kontrastingas vaizdas
- Tiesūs puslapiai – pirma pasukite per sukimo įrankį jei reikia
- Lietuvių kalba – pasirinkite teisingą kalbą, kitaip Ą,Č,Ę bus neatpažinti
- Daug puslapių – Pro planui rekomenduojama, Free turi 3/d limitą
OCR tikslumas
Tipiškai 95-99% tikslumas su gerą kokybe turinčiu skenavimu. Tačiau:
- Rankraščio tekstas – tik 70-80%
- Senų popierių dokumentai (geltoni) – ~90%
- Maišytas tekstas su grafikais – atpažįstamas tekstas, grafikai paliekami kaip vaizdai
Susiję įrankiai
- PDF → Word – po OCR konvertuokite į redaguojamą Word
- Pasukti puslapius – paruoškite teisingoms orientacijai
- Ištraukti puslapius – jei reikia OCR tik kai kurių
Išbandykite pdftools.lt nemokamai
21 PDF įrankis. Be vandens ženklų, be registracijos. Lietuviškai.
Atidaryti įrankius