mb_strpos() used in a loop on a long string may become very slow even if you provide the $offset. Unlike strpos(), mb_strpos() has to skip the number of characters
every call specified by $offset to get the real byte position used internally. (Whereas strpos can just add the offset.)
If your encoding is UTF-8 and you try to find only single characters with ordinal <= 127 you may still use strpos(), substr(), ... This works cause every byte of a UTF-8 sequence is >= 128.
Greetz maz
mb_strpos
(PHP 4 >= 4.0.6, PHP 5)
mb_strpos — Поиск позиции первого вхождения одной строки в другую
Описание
$haystack
, string $needle
[, int $offset = 0
[, string $encoding
]] )Ищет позицию первого вхождения одной строки string в другую строку string.
Выполняет безопасную с точки зрения многобайтных кодировок операцию strpos(), которая опирается на число символов в стоке. Первый символ стоит на позиции 0, позиция второго 1 и так далее.
Список параметров
-
haystack -
Строка string в которой производится поиск.
-
needle -
Строка, поиск которой производится в строке
haystack. В отличие от strpos(), числовые значения не применяются в качестве порядковых номеров символов. -
offset -
Смещение начала поиска. Если не задан, используется 0.
-
encoding -
Параметр
encodingпредставляет собой символьную кодировку. Если он опущен, вместо него будет использовано значение внутренней кодировки.
Возвращаемые значения
Возвращает число - позицию первого вхождения строки
needle в строку haystack
string. Если строка needle не найдена,
функция вернет FALSE.
Смотрите также
- mb_internal_encoding() - Установка/получение внутренней кодировки скрипта
- strpos() - Возвращает позицию первого вхождения подстроки
Hello,
Just replaced strpos() with mb_strpos() and now I am getting following error:
PHP Warning: mb_strpos() [<a href='function.mb-strpos'>function.mb-strpos</a>]: Empty delimiter
PHP version: 5.2.3
OS: Win XP Prof
Web Server: IIS
I checked your bugs and mentioned that mb_string functions have been fixed as of 5.2.0 but it does not seem to be the case (Bug #39400).
My code:
==============================================
$charOut = mb_substr($tmpStr, $tmpKey[0], 1);
$posOut = mb_strpos($charList, $charOut);
if ($posOut !== FALSE) {
// do something here
}
==============================================
sorry, my previous post had an error. replace the 1000 with strlen($haystack) to handle strings longer than 1000 chars.
btw. This is an issue with the mbstring functions. you can't specify the $encoding without specifying a $length, thus this reduces the functionality of mb_substr compared to substr
a sample mb_str_replace function:
function mb_str_replace($haystack, $search,$replace, $offset=0,$encoding='auto'){
$len_sch=mb_strlen($search,$encoding);
$len_rep=mb_strlen($replace,$encoding);
while (($offset=mb_strpos($haystack,$search,$offset,$encoding))!==false){
$haystack=mb_substr($haystack,0,$offset,$encoding)
.$replace
.mb_substr($haystack,$offset+$len_sch,1000,$encoding);
$offset=$offset+$len_rep;
if ($offset>mb_strlen($haystack,$encoding))break;
}
return $haystack;
}
It appears that the $offset value is a character count not a byte count. (This may seem obvious but it isn't explicitly stated)
