pdftotext
Sanja v.2 19.08.2003 11:43
У кого-нибудь есть опыт использования Subj. (
http://www.foolabs.com/xpdf/) на русскоязычных текстах? Если в него запихнуть, например, доку от парсера, английские слова будут сохранены, русские - заменены точками. Вот во что оно превращает оглавление:
................................................................................................................................... 52 cache. ................................................................................................................................... 52 process. ................................................................................................................................... 53 rem. ................................................................................................................................... 54 ................................................................................................................................... 54 untaint, taint. ......................................................................................................................................................... 55 ................................................................................................................................... 58 try. Очень нужно организовать поиск по куче pdf-файлов (порядка пяти гигов), а в индексирабельный текст оно переводится криво...
- pdftotext, Sanja v.2 [M] 19.08.2003 11:43