編碼模型

編碼模型
原圖鏈接來自搜狗的圖片

編碼模型就是通過編碼方案將人類可讀的數據轉換成機器存儲數據（0、1數據形式），即將字符流轉換為字節流。常見的編碼方案有ASCII、Latin、GBK和UTF8等。

簡介

機器存儲數據只有01數據形式，讀取數據的時候，只有藉助編碼方案的映射，才能轉換為人類可讀的數據形式；保存數據的時候，也同樣需要藉助於編碼方案，將其轉換成01數據形式。常見的編碼方案有ASCII、Latin、GBK和UTF8等。讀取過程（解碼）：01數據—>編碼方案映射轉換—>人類可讀的數據形式。保存過程（編碼）：人類可讀的數據形式—>編碼方案映射轉換—>01數據。01數據以字節為單位進行展示，那麼可得到字節流；人類可讀的數據以字符為單位進行展示，那麼可得到字符流。二者之間的關係如圖1。

評價

UTF-16 統一採用兩個字節表示一個字符，雖然在表示上非常簡單方便，但是也有其缺點，有很大一部分字符用一個字節就可以表示的現在要兩個字節表示，存儲空間放大了一倍，在現在的網絡帶寬還非常有限的今天，這樣會增大網絡傳輸的流量，而且也沒必要。而 UTF-8 採用了一種變長技術，每個編碼區域有不同的字碼長度。不同類型的字符可以是由 1~6 個字節組成UTF-8 有以下編碼規則：如果一個字節，最高位（第 8 位）為 0，表示這是一個 ASCII 字符（00 - 7F）。可見，所有 ASCII 編碼已經是 UTF-8 了。如果一個字節，以 11 開頭，連續的 1 的個數暗示這個字符的字節數，例如：110xxxxx 代表它是雙字節 UTF-8 字符的首字節。如果一個字節，以 10 開始，表示它不是首字節，需要向前查找才能得到當前字符的首字節。^[1]

參考文獻

移至 ↑ 編碼模型搜狗

[1] 移至 ↑ 編碼模型搜狗

[1]

編碼模型

目錄

簡介

評價

參考文獻