Многобайтовые кодировки, зачем нужны функции с префиксом mb в PHP
Часто при разработке веб-приложения или сайта бывает необходимость работы с текстовыми ресурсами. Как правило, текст имеет свою кодировку, поэтому важно применять соответствующие функции. Сегодня наиболее популярная кодировка – UTF8, это многобайтовая кодировка.
Что значит многобайтовая кодировка? Это означает, что на один символ может выделяться больше чем один байт. Ведь действительно, все символы представлены байтами, чтобы закодировать символ потребуется некоторое их количество и одного может и не хватить. Особенно это касается необычных символов и букв каких-либо языков. Поэтому многобайтовые кодировки нужны, их поддержка конечно же есть в PHP.
Есть функции, которые способны самостоятельно определять кодировку текста. Также в них можно самому указать нужную кодировку при необходимости. Существует часть функций, которые начинаются с префикса mb_. Они специально предназначены для работы с текстом, mb значит многобайтовость.
Посмотрим, какие есть основные функции mb в PHP, ниже приводятся только самые используемые:
- mb_convert_case - производит смену регистра символов в строке,
- mb_convert_encoding - преобразует кодировку символов,
- mb_detect_encoding - определение кодировки символов,
- mb_internal_encoding – установка или получение внутренней кодировки скрипта,
- mb_ord - получает кодовую точку символа,
- mb_split - разделение строк в многобайтных кодировках, используя регулярное выражение,
- mb_strcut - получение части строки,
- mb_stripos - регистронезависимый поиск позиции первого вхождения одной строки в другую,
- mb_strlen - получает длину строки,
- mb_strpos - поиск позиции первого вхождения одной строки в другую,
- mb_strripos - поиск последнего вхождения одной строки в другую, нечувствительный к регистру,
- mb_strrpos - поиск позиции последнего вхождения одной строки в другую,
- mb_strstr - находит первое вхождение подстроки в строке,
- mb_strtolower - приведение строки к нижнему регистру,
- mb_strtoupper - приведение строки к верхнему регистру,
- mb_substr - возвращает часть строки.
Таким образом, для работы с текстом лучше всего использовать многобайтовые кодировки. Они позволяют правильно осуществлять операции с символами.
Последние статьи
- 09.07.22ИТ / Разное Конвертация офисных файлов DOC, DOCX, DOCM, RTF в форматы DOCX, DOCM, DOC, RTF, PDF, HTML, XML, TXT без потерь и изменения разметки
- 07.07.22ИТ / Безопасность Как защитить исходный код PHP, JS, HTML, CSS - обфускация, минимизация, сжатие и шифрование
- 06.07.22ИТ / Безопасность Подключение не защищено, проблема с Lets Encrypt - как исправить истекший 30.09.2021 DST Root CA X3, удалить его вручную и установить ISRG Root X1. Пример на MS Windows 7
- 08.07.21ИТ / Разное Как бесплатно сделать перевод для сайта без API, перевод документов в Google Translate
- 06.07.21ИТ / Разное Как сделать кнопку подписки на сайте, базу подписчиков и автоматическую рассылку