2015/09/10

Python Chinese String Index Usage 中文字串

我在《Python String List Chinese Encode Decode 中文編碼解碼》一文介紹了 Python 中文 String 和 List 的編碼和解碼方法。

在本文裏,我們利用以下兩種方式使用 [] 指定索引來取得字串中的某個字元:
  • 直接印出宣告 Unicode 的特定字串
  • 使用 unicode 的 .encode 函數以 UTF-8 編碼 String 印出

但要特別注意 Python2 和 Python3 在 Unicode 上的重要差別:
在Python3因為字串已經全部統一成 unicode ,所以不必加上 u ,這是Python2和Python3的重要差別之一,需要特別注意

直接印出宣告 Unicode 的特定字串


我們可以直接用 [] 指定索引來取得字串中的某個字元:
#!/usr/bin/env python
# -*- coding: utf-8 -*-

gan = u'甲乙丙丁戊己庚辛壬癸'
print u'字數:', len(gan)
print gan[0]


印出的結果如下:
字數: 10


使用 unicode 的 .encode 函數編碼成 UTF-8 String 印出


在範例裏,我們直接在 [] 指定索引後面,使用 .encode('utf8') 指定以 UTF-8 編碼取得字串。
#!/usr/bin/env python
# -*- coding: utf-8 -*-

gan = u'甲乙丙丁戊己庚辛壬癸'
for i in range(0,len(gan),+1):
   print 'gan[{}]:{}'.format(i, gan[i].encode('utf8'))


gan[0]:甲
gan[1]:乙
gan[2]:丙
gan[3]:丁
gan[4]:戊
gan[5]:己
gan[6]:庚
gan[7]:辛
gan[8]:壬
gan[9]:癸



沒有留言:

張貼留言