Кодировки в PHP DOM XML

Просмотров: 3554Комментарии: 0
Технологии

Возможно, кому-то будет полезна исчерпывающая статья (на английском) об особенностях взаимодействия расширения DOM XML с различными кодировками. Многие солидные сайты русскоязычного сегмента Сети все еще работают в кодировках, отличающихся от UTF-8, что ставит небольшую заковыку при парсинге их посредством DOM XML или его оберток типа Zend_Dom. В частности, страница в Windows-1251 после парсинга имеет шансы быть интерпретированной как ISO-8859-1 (некоторые раскодировщики ошибочно считают, что это Windows-1252). А все из-за употребления кириллических символов до

<meta http-equiv="Content-Type" content="text/html; charset=Windows-1251">

Зная причину, легко назначить лечение: принудительно запихиваем этот метатэг в любое место ДО появления кириллицы, хотя бы сразу после <head>.

Оставьте комментарий!


Используйте нормальные имена.

     

  

Если вы уже зарегистрированы как комментатор или хотите зарегистрироваться, укажите пароль и свой действующий email. При регистрации на указанный адрес придет письмо с кодом активации и ссылкой на ваш персональный аккаунт, где вы сможете изменить свои данные, включая адрес сайта, ник, описание, контакты и т.д., а также подписку на новые комментарии.

MaxSiteAuth. Войти через loginza

(обязательно)