parser

Написать ответ на текущее сообщение

 

 
   команды управления поиском

С какой стороны подойти к вопросу или какую стратегию принять? Кодировка в урле или я хочу "как в Википедии"...

andylars 12.07.2015 04:14 / 12.07.2015 05:43

HTTP-безобразие. Потому, что (видимо по RFC) браузер не считает нужным послать в Request'e Accept-Charset:
хотя бы как желаемую кодировку, ну так хоть для галочки...
в конце-концов Accept-Language он посылает, чего бы и кодировку не приложить к языку...

В итоге посылает URL как есть..

GET /QonoS (journal на клингонском :)

Т.е. принимай, как есть, и сам догадывайся о чем тебя спросили.

Я хотел бы реализовать:
http://domain.com/Запрос в какой-то кодировке

С одной стороны, нефиг ниче там "спрашивать", пользователь "имеет право", только набрать корневой урл/домен, а для "спрашивать" есть input-ы, где дальше я сам должен вести его по гиперссылкам в таком виде, в каком могу переварить, или он эти гиперссылки должен где-то почерпнуть (но так же из числа переваренных)

Я непременно так и поступлю, но только когда пойму, что победить это не сверх-сложным путём не реально.

Но иногда хочется идти на поводу у UI и дать плюшки, тем более у Википедии то "вон как".

Плюс это дает имитацию omni-запроса сразу в адресной строке, без настройки magic-search в google chrome, и вообще для любых браузеров (наверное).

В современном chrome'e адресная строка в UTF-8, под Windows-XP или старыми браузерами (я не знаю, наверняка windows-1251)


Википедия видимо распознает принимая во внимание одновременно Accept-Language + суб-домен .ru (для однобайтных кодировок других стран)

Потому, что на запросы:

http://ru.wikipedia.org/%FF
http://ru.wikipedia.org/%D0%AF

перекинет на одну страницу:
https://ru.wikipedia.org/Я


Пока я ищу среднюю стратегии "малой крови" - перевести таки весь проект на UTF-8 (это все равно придется когда-то сделать), и пытаться принять в урле:

- или UTF-8 в чистом виде
- или "однобайтники" идут лесом, и шлют escaped(UTF-8) получая его в гиперссылках
(опять же как мне различать кому формировать в теле страницы escaped-урлы, а кому "красивые")

UPD: опытным путем выяснено:

- что конкретно Wiki по-умолчанию показывает экспейпленные урлы, это потом или javascript-ом или например Google Chrome - автоматически, если распознает вменяемую последовательность, до делает unescape автоматически и подменяет на "красивые".
- расходимся... даже IE6 под WinXP SP2 (ru) посылает UTF-8 в урле