Python 实现哈夫曼编码:原理与代码详解
Python 实现哈夫曼编码:原理与代码详解
哈夫曼编码是一种常用的数据压缩算法,它利用字符出现的频率来构建一棵最优的二叉树(哈夫曼树),并根据这棵树为每个字符分配一个唯一的编码,从而实现对文本数据的压缩。本文将通过 Python 代码实现一个完整的哈夫曼编码器,并详细解释其原理。
代码实现
import heapq
from collections import defaultdict
class HuffmanNode:
def __init__(self, char, freq):
self.char = char
self.freq = freq
self.left = None
self.right = None
# 哈夫曼树节点对象之间的比较规则,用于堆的排序
def __lt__(self, other):
return self.freq < other.freq
# 计算字符出现的概率
def get_char_frequency(text):
freq_dict = defaultdict(int) #创建一个默认值为 0 的空字典,如果字典中访问一个不存在的键,那么这个键的默认值就会是 0。
for char in text:
freq_dict[char] += 1 #把字符导入到字典中去并且相同的就加1
n = len(text)
for char in freq_dict:
freq_dict[char] /= n
return freq_dict
# 构建哈夫曼树
def build_huffman_tree(freq_dict):
# 将每个字符及其概率构造为一个哈夫曼树节点
heap = [HuffmanNode(char, freq) for char, freq in freq_dict.items()] #这些对象存储到一个列表中,即 heap 中。在这个列表中,每个 HuffmanNode 对象都代表了一个字符以及其出现的频率
# 用堆来存储所有哈夫曼树节点,每次取出频率最小的两个节点合并
heapq.heapify(heap) #将heap转化为堆
while len(heap) > 1:
# 取出频率最小的两个节点,合并为一个新节点
node1 = heapq.heappop(heap) #heapq.heappop弹出最小值
node2 = heapq.heappop(heap)
parent_freq = node1.freq + node2.freq
parent = HuffmanNode(None, parent_freq) #给中间的点的值都设置为空
parent.left = node1
parent.right = node2
# 将新节点放回堆中
heapq.heappush(heap, parent)
# 堆中仅剩下一个节点,即为哈夫曼树的根节点
return heap[0]
# 递归生成哈夫曼编码
def generate_huffman_code(node, code_dict, code=''):
if node.char is not None:
# 到达叶节点,将字符和对应的编码存储到字典中
code_dict[node.char] = code
return
# 递归遍历左子树和右子树
generate_huffman_code(node.left, code_dict, code + '0')
generate_huffman_code(node.right, code_dict, code + '1')
# 将文本编码为哈夫曼编码
def encode_text(text, code_dict):
return ''.join(code_dict[char] for char in text)
# 将哈夫曼编码解码为原始文本
def decode_text(encoded_text, root):
decoded_text = ''
node = root
for bit in encoded_text:
if bit == '0':
node = node.left
elif bit == '1':
node = node.right
if node.char is not None: #中间点的值都为空
decoded_text += node.char
node = root #继续开始找下一个原码
return decoded_text
text= input('输入即将被编码的字符:')
freq_dict = get_char_frequency(text)
root = build_huffman_tree(freq_dict)
code_dict = {}
generate_huffman_code(root, code_dict)
#打印每个字符的概率和对应的编码
for char, freq in freq_dict.items():
code = code_dict[char]
print(f'char: {char}, freq: {freq:.3f}, code: {code}')
#将文本编码为哈夫曼编码
encoded_text = encode_text(text, code_dict)
print(f'Encoded text: {encoded_text}')
#将哈夫曼编码解码为原始文本
decoded_text = decode_text(encoded_text, root)
print(f'Decoded text: {decoded_text}')
在上述代码中运行到 heap = [HuffmanNode(char, freq) for char, freq in freq_dict.items()]处时
heap里的内容是啥
内容:
在运行到 `heap = [HuffmanNode(char, freq) for char, freq in freq_dict.items()]` 处时,`heap` 中存储着每个字符及其出现的频率对应的 `HuffmanNode` 对象。每个 `HuffmanNode` 对象代表了一个字符及其出现的频率,并且每个对象之间可以通过 `left` 和 `right` 属性来表示它们之间的父子关系,从而构成一个完整的哈夫曼树。具体而言,`heap` 中的每个 `HuffmanNode` 对象都包含以下属性:
- `char`:表示字符本身,如果是内部节点则为 `None`。
- `freq`:表示字符出现的概率,也就是频率。
- `left`:表示左子树,如果是叶节点则为 `None`。
- `right`:表示右子树,如果是叶节点则为 `None`。
例如,假设输入文本为 `'hello'`,则 `heap` 中的元素将如下所示:
[HuffmanNode('h', 0.2), HuffmanNode('e', 0.2), HuffmanNode('l', 0.4), HuffmanNode('o', 0.2)]
其中,`HuffmanNode('h', 0.2)` 表示字符 `'h'` 出现的频率为 0.2,`HuffmanNode('e', 0.2)` 表示字符 `'e'` 出现的频率为 0.2,以此类推。
在接下来的代码中,`heapq.heapify(heap)` 将把这个列表转换为一个最小堆,使得堆顶元素始终为频率最小的 `HuffmanNode` 对象。然后,算法会不断从堆中取出频率最小的两个 `HuffmanNode` 对象,并将它们合并为一个新的 `HuffmanNode` 对象,并将新节点放回堆中。这个过程会持续进行,直到堆中只剩下一个节点,即哈夫曼树的根节点。
``
原文地址: https://www.cveoy.top/t/topic/lLMc 著作权归作者所有。请勿转载和采集!