OFFT: Получить превью текста (отрезать первый кусок - типа анонс)

kechinoff 20.03.2007 16:48

Заранее извиняюсь, что не про парсер. Сижу сейчас, голова не соображает. Просто может кто-то делал и сможет подсказать.

Имеем:
1. Текст в HTML. Большой такой текст. Например, статью. В тексте есть теги. Всякие полезные теги, типа P, A, IMG, TABLE, TR, TD, BR. Условие одно - HTML валиден, т.е. каждому открытому тегу соответствует свой закрытый. Кроме BR. Ну, и, нет шапки. Т.е. нет <HTML>, <HEAD>, <BODY>, т.е. только то, что обычно находится между <BODY> и </BODY>

2. Имеем язык программирования, в котором:
- нет ассоциативных массивов
- нет регулярных выражений
- да и вообще функционал - как у JavaScript, может чуть по-больше. Но ориентируемся на JavaScript.

Что нужно?

Нужно взять этот текст, вырезать от него начало. Полученный кусок должен не превышать 10% от веса исходного текста, но при этом быть не больше 20КБ. Т.е. если 10% оказалось больше 20КБ, то отрезок равен 20КБ.

Далее. Нужно закрыть все обрезанные теги. Т.е. если конец пришелся на середину текста внутри <P></P>, то закончить слово, которое обрезано, и поставить там </P>.

Аналогично с H1, H2, H3.

Аналогично <IMG> - если обгрыз текста пришелся на тег IMG, то нужно:
1. Закончить тег IMG
2. Посмотреть размер текста. Если размер текста стал больше 50% от размера первоначального текста, то IMG нафиг удалить.

И самое сложное - то же самое сделать с таблицами. Т.е. если обрыв пришелся на таблицу, то нужно удалить все последующие строки таблицы, а саму таблицу закрыть. При этом могут быть еще и вложенные таблицы.

Одним словом - УЖС.

Если кто-то уже когда-то делал подобное - направьте на путь истинный.

OFFT: Получить превью текста (отрезать первый кусок - типа анонс), kechinoff 20.03.2007 16:48
- вариант через объектную модель документа, insomnia 22.03.2007 01:05
  - Большое спасибо. Если можно - вышлите пример на kechinoff@gmail.com (-), kechinoff 22.03.2007 10:40
- Ответ, AEM 21.03.2007 19:10 / 21.03.2007 19:13
  - Пожалуйста, не нужно гонений по языковому признаку. Я не про язык спросил, а про алгоритм., kechinoff 22.03.2007 10:14
    - Что за язык-то?, AEM 22.03.2007 14:13 / 22.03.2007 14:15
      - Не могу сказать - подписка о неразглашении. Премии лишат. (-), kechinoff 22.03.2007 14:34
- А может кто-нибудь знает, как сделать это с помощью регулярных выражений и ассоциативных массивов?, kechinoff 21.03.2007 12:13
- перебирайте посимвольно, Sanja v.2 [M] 21.03.2007 10:34 / 21.03.2007 10:35
  - Спасибо, буду думать. (-), kechinoff 21.03.2007 10:54
- Off: в javascript, Sergey M. 20.03.2007 17:07
  - Хорошо, имеем базовый функционал JavaScript - его стандартные функции, про которые пишется в учебниках, без сложных объектов., kechinoff 20.03.2007 17:26
- задачка..., agat 20.03.2007 16:55
  - Неа, все намного хуже, kechinoff 20.03.2007 17:05
    - Какие функции для работы со строками есть в языке?, Sumo [M] 20.03.2007 21:03
      - Ответ, kechinoff 21.03.2007 09:18 / 21.03.2007 09:21
        С таким набором функций можно..., Sumo [M] 21.03.2007 09:33
        Нет, в БД регулярных выражений нет. А насчет памяти..., kechinoff 21.03.2007 09:54
        наблюдение: внутренние языки систем часто плохо документированы, Александр Петросян (PAF) [M] 22.03.2007 22:32 / 22.03.2007 22:32
        С этим сложно. Что до документирования, то да ->, kechinoff 23.03.2007 09:29
        doxygen, Александр Петросян (PAF) [M] 23.03.2007 23:32
        В целом на PHP почти написал то, что нужно. Не совсем красиво, но учитывает возможности языка., kechinoff 24.03.2007 00:42
        "пересмотреть такую офигенную кучу кода", Александр Петросян (PAF) [M] 24.03.2007 23:03 / 26.03.2007 21:58
    - попробуйте написать веб-сервис..., agat 20.03.2007 17:41
      - Хех, еще хуже :), kechinoff 20.03.2007 18:17
        забавно, на олимпиаду по информатике похоже, Александр Петросян (PAF) [M] 22.03.2007 22:29
        В этом задании суть такая:, kechinoff 23.03.2007 09:37 / 23.03.2007 09:38

Новости	FAQ	Авторы	Документация	В действии	Библиотека
Инструменты	Полезные ссылки	Хостинги	Скачать	Примеры	Форум