рецепт

Кодировки в PHP DOM XML

Просмотров: 3406Комментарии: 0
Технологии

Возможно, кому-то будет полезна исчерпывающая статья (на английском) об особенностях взаимодействия расширения DOM XML с различными кодировками. Многие солидные сайты русскоязычного сегмента Сети все еще работают в кодировках, отличающихся от UTF-8, что ставит небольшую заковыку при парсинге их посредством DOM XML или его оберток типа Zend_Dom. В частности, страница в Windows-1251 после парсинга имеет шансы быть интерпретированной как ISO-8859-1 (некоторые раскодировщики ошибочно считают, что это Windows-1252). А все из-за употребления кириллических символов до

<meta http-equiv="Content-Type" content="text/html; charset=Windows-1251">

Зная причину, легко назначить лечение: принудительно запихиваем этот метатэг в любое место ДО появления кириллицы, хотя бы сразу после <head>.