求真百科歡迎當事人提供第一手真實資料,洗刷冤屈,終結網路霸凌。

編碼模型

事實揭露 揭密真相
前往: 導覽搜尋
  編碼模型

編碼模型就是通過編碼方案將人類可讀的數據轉換成機器存儲數據(0、1數據形式),即將字符流轉換為字節流。常見的編碼方案有ASCII、Latin、GBK和UTF8等。

簡介

機器存儲數據只有01數據形式,讀取數據的時候,只有藉助編碼方案的映射,才能轉換為人類可讀的數據形式;保存數據的時候,也同樣需要藉助於編碼方案,將其轉換成01數據形式。常見的編碼方案有ASCII、Latin、GBK和UTF8等。讀取過程(解碼):01數據—>編碼方案映射轉換—>人類可讀的數據形式。保存過程(編碼):人類可讀的數據形式—>編碼方案映射轉換—>01數據。01數據以字節為單位進行展示,那麼可得到字節流;人類可讀的數據以字符為單位進行展示,那麼可得到字符流。二者之間的關係如圖1。

評價

UTF-16 統一採用兩個字節表示一個字符,雖然在表示上非常簡單方便,但是也有其缺點,有很大一部分字符用一個字節就可以表示的現在要兩個字節表示,存儲空間放大了一倍,在現在的網絡帶寬還非常有限的今天,這樣會增大網絡傳輸的流量,而且也沒必要。而 UTF-8 採用了一種變長技術,每個編碼區域有不同的字碼長度。不同類型的字符可以是由 1~6 個字節組成UTF-8 有以下編碼規則: 如果一個字節,最高位(第 8 位)為 0,表示這是一個 ASCII 字符(00 - 7F)。可見,所有 ASCII 編碼已經是 UTF-8 了。 如果一個字節,以 11 開頭,連續的 1 的個數暗示這個字符的字節數,例如:110xxxxx 代表它是雙字節 UTF-8 字符的首字節。 如果一個字節,以 10 開始,表示它不是首字節,需要向前查找才能得到當前字符的首字節。[1]

參考文獻