parser

Написать ответ на текущее сообщение

 

 
   команды управления поиском

RSS Syndication, XML и другое...

Sanja v.2 25.09.2003 14:35 / 25.09.2003 14:40

Не было у бабы забот, так купила порося...

Придумал себе задачку, теперь не знаю, как подступиться. Имеется несколько RSS-ных источников новостей, положим

- http://www.asiamarketresearch.com/research-news/index.xml [rss 0.91]
- http://www.parser.ru/_rss.html [rss 2.0]
- http://forum.gfk.ru/forum/rss.html [rss 2.0]
- http://register.spectator.ru/txt/export.xml [rss 2.0]
- http://p.moreover.com/cgi-local/page?index_marketing+rss [rss 0.91]

В RSS 0.91 структура XML-документа устроена так:
<?xml version="1.0" encoding="iso-8859-1"?>
<rss version="0.91">
  <channel>
    <title>Moreover - moreover...</title>
    <link>http://www.moreover.com</link>
    <description>moreover... - news headlines from around the web, refreshed every 15 minutes</description>
    <language>en-us</language>
    <item>
      <title>Kellogg Company names Harris as Chief Marketing and Customer Officer</title>
      <link>http://c.moreover.com/click/here.pl?r91641939</link>
      <description>Food Ingredients First Sep 25 2003 3:30AM ET</description>
    </item>
    <item>
      <title>Telemarketers free to plague</title>
      <link>http://c.moreover.com/click/here.pl?r91635924</link>
      <description>This Is Money Sep 25 2003 3:04AM ET</description>
    </item>
  </channel>
</rss>
А RSS 2 устроен чуть по другому:
<?xml version="1.0" encoding="windows-1251"?>
<rss version="2.0">
<channel>
<title>Forum.GfK.ru - The roundtable of the Russian marketing researchers</title>
<link>http://forum.gfk.ru/forum/index.html?setdesign=new</link>
<description>"Круглый стол исследователей рынка" на Forum.GfK.ru - место, где общаются маркетологи. Этот форум существует ещё с июня 1999 года и всё это время здесь задают вопросы и получают ответы про то, как проводить маркетинговые исследования, изучать рынки и считать в SPSS.</description>
<language>ru</language>
<copyright>Copyright (c) 1997-2003 GfK MR Russia</copyright>
<managingEditor>Alexander.Bougakov@GfK.ru</managingEditor>
<webMaster>Alexander.Bougakov@GfK.ru</webMaster>

<ttl>10</ttl>
<generator>Parser 3.0007 (http://www.parser.ru)</generator>
<image>
<title>Forum.GfK.ru</title>
<url>http://forum.gfk.ru/etc/img/toplogo.jpg</url>
<link>http://forum.gfk.ru/forum/index.html?setdesign=new</link>
<width>310</width>
<height>55</height>
<description>&quot;Круглый стол исследователей рынка&quot; на Forum.GfK.ru - место, где общаются маркетологи.</description>

</image>
<item>
<author>Василий</author>
<title>рейтинг исследовательских компаний (Василий, Thu, 25 Sep 2003 14:21:46 MSD)</title>
<pubDate>Thu, 25 Sep 2003 14:21:46 MSD</pubDate>
<link>http://forum.gfk.ru/forum/message_23789.html</link>
<guid>23789</guid>
<comments>http://forum.gfk.ru/forum/postnew.html?reply_to=23789</comments>
<description>&lt;p&gt;&lt;b&gt;Начало нового обсуждения в форуме &lt;/b&gt;&lt;/p&gt;

Уважаемые, существует ли где-нибудь рейтинг исследовательских компаний ?&lt;br&gt;На форуме я нашел ссылку, но она не работает </description>
</item>
<item>
<author>Algol</author>
<title>Важность в Conjoint analyse (Algol, Thu, 25 Sep 2003 14:17:12 MSD)</title>
<pubDate>Thu, 25 Sep 2003 14:17:12 MSD</pubDate>
<link>http://forum.gfk.ru/forum/message_23788.html</link>
<guid>23788</guid>
<comments>http://forum.gfk.ru/forum/postnew.html?reply_to=23788</comments>

<description>&lt;p&gt;&lt;b&gt;Начало нового обсуждения в форуме &lt;/b&gt;&lt;/p&gt;
При проведении conjoint analyse получается следующая ситуация:&lt;br&gt;Важность (importance) некого дискретного фактора &lt;br&gt;&lt;b&gt; в целом &lt;/b&gt; получается ниже, чем важность того же фактора &lt;br&gt;&lt;b&gt; в подгруппах &lt;/b&gt; выборки.&lt;br&gt;Например, у мужчин важность фактора A = 70%, у женщин = 72%, а в целом, для всех респондентов, важность A = 60%.&lt;br&gt;&lt;br&gt;Чисто математически, такая ситуация объяснима, но какое физическое объяснение такой парадоксальной ситуации?&lt;br&gt;&lt;br&gt;Спасибо за ответ.</description>

</item>
Элементы

RSS -> Channel -> Title
RSS -> Channel -> Description
RSS -> Channel -> Item
RSS -> Channel -> Item -> Title
RSS -> Channel -> Item -> Description
RSS -> Channel -> Item -> Link

- всё это совпадает.

Вы ещё читаете? Спасибо.

Собственно, теперь о моей проблеме. Я хочу постоить что-то типа френдленты в LiveJournal, но не знаю, как подступиться. Ясное дело, надо выкачивать эти RSS'ки и разбирать, выцепляя упомянутые элементы, но как это лучше сделать? -

Во-первых, вопрос с кодировками. У кого-то RSS выдаётся в кодировке windows, у кого-то - в UTF. Как скрестить ужа с ежом?

Во-вторых, непонятно, как поступать с различиями 0.9 и 2.0 - у одного дата для каждой записи выдаётся, у другого - нет. Как сливать вместе в одну ленту <item>'ы отттуда и оттуда? Делать две ленты - одну для новой версии RSS, другую - для старой?

Вот. Посоветуйте что-нибудь...