[词库压缩] 电子词典的词库压缩_计算机软件

原文

一. 引言
1. 本课题的研究意义
本课题是研究一种压缩算法，用这种算法对电子词典中的词库进行压缩，如果不对它进行压缩，电子词典里的maskrom根本无法容下这么庞大的词库.，所以对词库进行压缩成为了电子词典领域的关键技术。谁掌握了先进的压缩技术,谁就能在这一领域独占鳌头.
2. 本论文的目的,内容及作者的主要贡献
本论文的目的是首先用Huffman的思想对一个词库进行压缩，但我们编码并不是用Huffman树编码的，而是在Huffman基础上进行了改进。其次，我们用Lz系列算法对一个词库进行压缩。至此，我们就想到了把这两者结合起来的办法。当我们完成了这项工作后同时也最后也给我们留下了思考:如何才能进一步提高压缩率。我们两个在整个程序的编写时,并与其他同事进行了讨论,主要负责了压缩算法构造过程。

二. 研究现状设计目标
1. 相近研究课题的特点及优缺点分析
在对词库进行压缩时，我综合考虑了现在流行的几种压缩算法，通过对比，我们发现虽然现行的lz系列算法压缩率比较高，但这种算法解压时，并不能把每一个单词一一的解出来，也就是说这种算法只能通压通解，不能分开来解压，并且一旦分段来压缩的话,它的压缩率变得十分低，而我们要求的是压缩时可以通压，但解压时一定是每个单词每个单词的进行解压。所以最后我们还是选择了Huffman,虽然它的压缩率并不是很高，但它的解压能力十分好，我们在解压时用的了索引的方法，使得解压变得十分方便。
2．本课题要达到的目标
通过本算法,我们要达到的目的是对词库的压缩率要达到80%以下.

一．引言…………………………………………………………4
二．研究现状设计目标…………………………………………4
三．要解决的几个关键问题……………………………………4
四．系统实现技术………………………………………………5
五．性能测试与分析…………………………………………...16
六．结束语……………………………………………………...16
七．参考文献及附录…………………………………………..16

参考资料

1．《通信的数学理论》（A Mathematical Theory of Communication） C. E. Shannon
2．《最小冗余度代码的构造方法》
（A Method for the Construction of Minimum Redundancy Codes ） D. A. Huffman
3．2003年9月《CSDN开发高手》
4．《数据结构》严尉敏清华大学出版社

简单介绍

关于压缩算法的介绍

数据压缩不外有两大功用。第一，可以节省空间。拿乘车来说，要是八个人可以挤进一辆出租车里，那该有多省钱啊！第二，可以减少对带宽的占用。这就好人们总希望用一尺布裁出七件衣衫。简单地说，如果没有数据压缩技术，我们就没法用 WinRAR 为 Email 中的附件瘦身；如果没有数据压缩技术，从 Internet 上下载一部电影也许要花半年的时间。
严格意义上的数据压缩起源于人们对概率的认识。当我们对文字信息进行编码时，如果为出现概率较高的字母赋予较短的编码，为出现概率较低的字母赋予较长的编码，总的编码长度就能缩短不少。信息论之父 C. E. Shannon 第一次用数学语言阐明了概率与信息冗余度的关系。把信息中排除了冗余后的平均信息量称为“信息熵” 。从本质上讲，数据压缩的目的就是要消除信息中的冗余，而信息熵及相关的定理恰恰用数学手段精确地描述了信息冗余的程度。利用信息熵公式，人们可以计算出信息编码的极限，即在一定的概率模型下，无损压缩的编码长度不可能小于信息熵公式给出的结果。
第一个实用的编码方法是由 D. A. Huffman 在 1952 年的论文“最小冗余度代码的构造方法（ A Method for the Construction of Minimum Redundancy Codes ）”中提出的。Huffman 编码效率高，运算速度快，实现方式灵活，从 20 世纪 60 年代至今，在数据压缩领域得到了广泛的应用。Huffman 编码所得的编码长度只是对信息熵计算结果的一种近似，还无法真正逼近信息熵的极限。正因为如此，现代压缩技术通常只将 Huffman 视作最终的编码手段，而非数据压缩算法的全部。
逆向思维永远是科学和技术领域里出奇制胜的法宝。就在大多数人绞尽脑汁想改进 Huffman 或算术编码，以获得一种兼顾了运行速度和压缩效果的“完美”编码的时候，两个聪明的犹太人 J. Ziv 和 A. Lempel 独辟蹊径，完全脱离 Huffman 及算术编码的设计思路，创造出了一系列比 Huffman 编码更有效，比算术编码更快捷的压缩算法。我们通常用这两个犹太人姓氏的缩写，将这些算法统称为 LZ 系列算法。
按照时间顺序， LZ 系列算法的发展历程大致是： Ziv 和 Lempel 于 1977 年发表题为“顺序数据压缩的一个通用算法（ A Universal Algorithm for Sequential Data Compression ）”的论文，论文中描述的算法被后人称为 LZ77 算法。 1978 年，二人又发表了该论文的续篇“通过可变比率编码的独立序列的压缩（ Compression of Individual Sequences via Variable Rate Coding ）”，描述了后来被命名为 LZ78 的压缩算法。 1984 年， T. A. Welch 发表了名为“高性能数据压缩技术（ A Technique for High Performance Data Compression ）”的论文，描述了他在 Sperry 研究中心（该研究中心后来并入了 Unisys 公司）的研究成果，这是 LZ78 算法的一个变种，也就是后来非常有名的 LZW 算法。 1990 年后， T. C. Bell 等人又陆续提出了许多 LZ 系列算法的变体或改进版本。
说实话， LZ 系列算法的思路并不新鲜，其中既没有高深的理论背景，也没有复杂的数学公式，它们只是简单地延续了千百年来人们对字典的追..

[词库压缩] 电子词典的词库压缩

栏目导航

热门关键词

最新论文

随机论文