parser

Написать ответ на текущее сообщение

 

 
   команды управления поиском

алгоритм - разобрать любой html

smirom 14.10.2009 08:56

перерыл все, что мог
хотелось бы иметь механизм, который разложит по полочкам любой хтмл и даст хеш вида
$hash[
    $.title[строка]
    $.keywords[строка]
    ...
    $.body[
        $.p[строка]
        $.a[
            $.content[строка или очередной кеш, если внутри есть тэги]
            $.href[строка]
            ]
        $.p[
            $.a[строка]
            ]
    ]
]
т.е. если внутри тега есть еще теги, то возвращается хеш, иначе - строка с содержимым
а еще было бы неплохо если б каждая ветка имела свой id - чтобы потом по нему вытаскивать то, что нужно
с регекспами впринципе разбираюсь, в парсер тоже вникаю потихоньку
но срастить все в кучу - мозгов не хватат
буду счастлив любой помощи
BR,