Unicode文本标准化

编辑日期: 2024-11-28 文章阅读: 次

Unicode文本标准化

最近遇到unicodedata模块，才知道它的一个应用。某些字符能够用多个合法的编码表示，这就会导致一些问题。如一个字符ñ既可以使用\u00f1，也可以使用n\u0303表示，如下所示：

In [2]: '\u00f1'                
Out[2]: 'ñ'

In [3]: 'n\u0303' # 注意前面有个字符n                  
Out[3]: 'ñ'

原因是第一种表示\u00f1为整体表示法，第二种n\u0303为组合表示法，是n和字符~的组合字符。

很显然，在需要比较字符串的程序中，使用像上面字符的多种表示法会产生问题，如下所示：

In [4]: s1='\u00f1'                                                            

In [5]: s2='n\u0303'                                                            

In [6]: s1==s2                                                                 
Out[6]: False

我们期望上面的字符ñ在两种表示下是相等的，这就需要使用unicodedata模块，将这些字符标准化：

s1='\u00f1' 
s2='n\u0303'
t1 = unicodedata.normalize('NFC', s1)
t2 = unicodedata.normalize('NFC', s2)
In [25]: t1==t2                                                                
Out[25]: True