parser

Написать ответ на текущее сообщение

 

 
   команды управления поиском

В этом задании суть такая:

kechinoff 23.03.2007 09:37 / 23.03.2007 09:38

Имеются большие и маленькие документы размером от 10 предложений до 150 страниц печатного текста. Эти документы продаются. И их около полутора миллионов. Что за документы? Ну, допустим, нормативные данные. Т.е. документ, в котором есть и таблицы и выделения цветом и рисунки.
Так вот, клиент, прежде чем купить документ, должен ознакомиться - а то ли это вообще или не то? Естественно, если из документа, состоящего на 80% из таблиц тупо поубирать теги, то предпросмотр этого документа не будет нести никакой смысловой нагрузки - набор букв и цифр. Поэтому нужно сделать полноценный предпросмотр.

Товарищ insomnia выслал код, вроде даже работает, но вчера я с ним еще не разбирался. Есть такой минус в нем - если первым в тексте идет не тег, а слово (к примеру, "Здравствуй, я <i>ваша</i> тетя!"), то после разбора текста, получается "<Здравствуйте>, <i>ваша</i> тетя! </Здравствуйте>". Но это мелочи, а так, кстати, все работает. Сегодня буду курочить.

Сам-то я написал уже программку на PHP с учетом возможностей того языка, она все делает, но таблицы не обрабатывает. Если бы просто были таблицы, то ладно еще, а то, что они могут быть еще и вложенными - это уже хуже.