Кодировки в PHP DOM XML

Суббота, 16 апреля 2011 г.
Рубрика: Технологии
Метки:
Просмотров: 932
Подписаться на комментарии по RSS

Возможно, кому-то будет полезна исчерпывающая статья (на английском) об особенностях взаимодействия расширения DOM XML с различными кодировками. Многие солидные сайты русскоязычного сегмента Сети все еще работают в кодировках, отличающихся от UTF-8, что ставит небольшую заковыку при парсинге их посредством DOM XML или его оберток типа Zend_Dom. В частности, страница в Windows-1251 после парсинга имеет шансы быть интерпретированной как ISO-8859-1 (некоторые раскодировщики ошибочно считают, что это Windows-1252). А все из-за употребления кириллических символов до

<meta http-equiv="Content-Type" content="text/html; charset=Windows-1251">

Зная причину, легко назначить лечение: принудительно запихиваем этот метатэг в любое место ДО появления кириллицы, хотя бы сразу после <head>.

twitter.com facebook.com vkontakte.ru odnoklassniki.ru mail.ru ya.ru rutvit.ru myspace.com technorati.com digg.com friendfeed.com pikabu.ru blogger.com liveinternet.ru livejournal.ru memori.ru google.com bobrdobr.ru mister-wong.ru yahoo.com yandex.ru del.icio.us

Оставьте комментарий!

Используйте нормальные имена.

Если вы уже зарегистрированы как комментатор или хотите зарегистрироваться, укажите пароль и свой действующий email. При регистрации на указанный адрес придет письмо с кодом активации и ссылкой на ваш персональный аккаунт, где вы сможете изменить свои данные, включая адрес сайта, ник, описание, контакты и т.д., а также подписку на новые комментарии.

Авторизация: MaxSiteAuth. Войти через loginza

(обязательно)