разная таблица для каждой кодировки -- это нормально

Misha v.3 15.07.2008 17:21

ибо одна буква может быть представлена несколькими последосвательностями.

в случае декодирования из 1251 и utf это будет одна table (соотв. один replace).
в случае например koi8 вы должны будете сами как-то анализировать раскодированное содержимое и пытаться понять что за кодировка.

process для этих целей я не рекомендовал-бы (попробуйте с таблицей перекодирования и с process, мне кажется что время/память будут сильно не в пользу последней, кроме того она не разберёт нормально utf-8, где одна русская буква кодируется двумя %XX)

P.S. по моему изначально поставлена неправильная задача. есть кучка log analyzer-ов, в том числе бесплатных, которые по моему стоит использовать.

url и русский алфавит, AL 15.07.2008 10:18
- разная таблица для каждой кодировки -- это нормально, Misha v.3 [M] 15.07.2008 17:21
  - Ответ, AL 15.07.2008 21:32
    - koi8-r и windows-1251 в одной таблице? хорошая шутка., Misha v.3 [M] 15.07.2008 23:06
      - Есть где-нибудь готовые таблицы под разные кодировки? (-), AL 16.07.2008 17:38
        cgi-bin/charsets/*.cfg -- что-то можете вытащить отсюда (-), Misha v.3 [M] 16.07.2008 18:05 / 16.07.2008 18:08
      - Ответ, AL 16.07.2008 11:35
- Re: а зачем вам русские рефереры?, Spearance 15.07.2008 15:03
  - Да, совершенно верно (-), AL 15.07.2008 15:04
    - Ответ, Spearance 15.07.2008 15:12
      - Вот у человека та же проблема, AL 15.07.2008 15:15

Новости	FAQ	Авторы	Документация	В действии	Библиотека
Инструменты	Полезные ссылки	Хостинги	Скачать	Примеры	Форум