从字符串PHP中删除多字节空格
|
我试图使用preg_replace从字符串输入中消除日语全宽白色空格“”但我最终得到一个损坏的多字节字符串. 我更喜欢preg_replace而不是str_replace.
$keywords = ' ラメ単色';
$keywords = str_replace(array(' ',' '),' ',urldecode($keywords)); // outputs :'ラメ単色'
$keywords = preg_replace("@[ ]@",urldecode($keywords)); // outputs :' 単色'
任何人都知道为什么会这样,以及如何纠正这种情况? 将u标志添加到正则表达式中.这使得RegEx引擎将输入字符串视为UTF-8.$keywords = preg_replace("@[ ]@u",urldecode($keywords));
// outputs :'ラメ単色'
CodePad. 它破坏字符串的原因是因为RegEx引擎,你的替换字符,20(空格)或e3 80 80(IDEOGRAPHIC SPACE)不被视为两个字符,而是单独的字节20,e3和80. 当你查看要扫描的字符串的字节序列时,我们得到e3 80 80 e3 83 a9 e3 83 a1 e5 8d 98 e8 89 b2.我们知道第一个字符是IDEOGRAPHIC SPACE,但是因为PHP将它视为一个字节序列,它会单独替换前四个字节,因为它们匹配正则表达式引擎正在扫描的单个字节. 对于导致 (REPLACEMENT CHARACTER)的重整,我们可以看到这种情况发生,因为字节e3在字符串中进一步出现. e3字节是三字节长日文字符的起始字节,例如e3 83 a9(KATAKANA LETTER RA).当前导e3被替换为20(空格)时,它不再成为有效的UTF-8序列. 当您启用u标志时,RegEx引擎将字符串视为UTF-8,并且不会基于每个字节处理字符类中的字符. (编辑:安卓应用网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
