parser

Написать ответ на текущее сообщение

 

 
   команды управления поиском

pdftotext

Sanja v.2 19.08.2003 11:43

У кого-нибудь есть опыт использования Subj. (http://www.foolabs.com/xpdf/) на русскоязычных текстах? Если в него запихнуть, например, доку от парсера, английские слова будут сохранены, русские - заменены точками. Вот во что оно превращает оглавление:

................................................................................................................................... 52 cache. ................................................................................................................................... 52 process. ................................................................................................................................... 53 rem. ................................................................................................................................... 54 ................................................................................................................................... 54 untaint, taint. ......................................................................................................................................................... 55 ................................................................................................................................... 58 try.

Очень нужно организовать поиск по куче pdf-файлов (порядка пяти гигов), а в индексирабельный текст оно переводится криво...