![]() |
在多媒体应用中,常见的压缩方法有:PCM(脉冲编码调制),预测编码,变换编码,插值和外推法,统计编码,矢量量化和子带编码等,混合编码是近年来广泛采用的方法。mp3 divX Xvid jpeg rm rmvb wma wmv等都是有损压缩。有损数据压缩方法是经过压缩、解压的数据与原始数据不同但是非常接近的压缩方法。有损数据压缩又称破坏型压缩,即将次要的信息数据压缩掉,牺牲一些质量来减少数据量,使压缩比提高。这种方法经常用于因特网尤其是流媒体以及电话领域。在这篇文章中经常成为编解码。它是与无损数据压缩对应的压缩方法。根据各种格式设计的不同,
![]() |
| 有损压缩 |
有两种基本的有损压缩机制:一种是有损变换编解码,首先对图像或者声音进行采样、切成小块、变换到一个新的空间、量化,然后对量化值进行熵编码。另外一种是预测编解码,先前的数据以及随后解码数据用来预测当前的声音采样或者或者图像帧,预测数据与实际数据之间的误差以及其它一些重现预测的信息进行量化与编码些系统中同时使用这两种技术,变换编解码用于压缩预测步骤产生的误差信号。
有损方法的一个优点就是在有些情况下能够获得比任何已知无损方法小得多的文件大小,同时又能满足系统的需要。有损方法经常用于压缩声音、图像以及视频。有损视频编解码几乎总能达到比音频或者静态图像好得多的压缩率(压缩率是压缩文件与未压缩文件的比值)。
![]() |
| 比较 |
——MP3(MP3PRO\MP3SURROUND)、AAC(*.3gp/*.mp4/*.m4v)、ATRAC3/ATRAC3+(*.aa3)。先来明白音频压缩的原理:利用人耳听觉的心理声学特性(频谱掩蔽特性和时间掩蔽特性等)以及人耳对信号幅度、频率、时间的有限分辨能力,编码时凡是人耳感觉不到的频率不编码、不传送,即凡是对人耳辨别声音信号的强度、声调、方位没有贡献的部分(称为不相关部分或无关部分)都不编码和传送。对感觉不到的部分进行编码时,允许有较大的量化失真、并使其处于听阈(即人耳所能听到的最低音量)以下,人耳仍然感觉不到。音频的压缩就是利用这些特点来工作的。
![]() |
| 有损压缩 |
1、等响度曲线人的听觉的灵敏度随着频率而改变。即通常两个功率一样但频率不同的音调听起来并不一样响。通过等响度曲线,我们可以看出,人耳对4KHz的频率最灵敏,即在4KHz下能被察觉出来的声音压力水平(响度),在其他频率下并不能被察觉。这就给在一些不太灵敏的频率下失真提供了条件。
2、屏蔽我们上高中物理时学过屏蔽。就是强的声音信号把弱的声音信号覆盖,导致我们无法察觉。而且,当两个声音在时间和频率上很接近时,屏蔽效应就会很强。因此,我们可以在编码时对被屏蔽的部分不编码、不传送。这样,音质依然没有大的损失,人耳也不易察觉。
3、临界频带对于人类的听觉来说,对声音的感知特性并不是以线形频率为尺度来变化的(人的听觉还没那么好),而是可以用被称为临界频带的一系列有限的频段来表达。简单的说,把整个频带划分成几段,在这每个频段里,人耳的听觉感知是相同的,即心理声学特性都是一样的。言归正传,编码的精髓就是算法。主流编码及其算法1、MP3(MP3PRO\MP3SURROUND)MP3应该算目前应用最广泛的有损压缩数字音频格式了。它的全称是MPEG(MovingPictureExpertsGroup)AudioLayer-3。1987年德国Fraunhofer研究院研制成功的一种有损压缩数字音频格式,并于1989年取得专利。起初,它并不完善,它更像一个编码标准框架,留待人们去完善。1992年,这一技术并入了MPEG规范,并有了正式名号——MP3。MP3文件是由帧(frame)构成的,帧是MP3文件最小的组成单位。什么是帧?还记得最初的动画是怎么做的吗?不同的连续画面切换以达到动态效果,每幅画面就是一个“帧”,不同的是MP3里面的帧记录的是音频数据而不是图形数据。MP3的帧速度大概是30帧/秒。每个帧又由帧头和帧数据组成,帧头记录着该帧的基本信息,包括位率索引和采样率索引(这对理解ABR和VBR编码方式很重要)。帧数据,顾名思义就是记录着主体音频数据。上面说的都是MP3编码的基础,但事实上,早期的编码器都非常不完善,压缩算法近于粗暴,音质很不理想。MP3的音质达到现在的水平有两次飞跃:人体听觉心理学模型(PerceptualModel)的导入和VBR技术的应用。PS:VBR是variablebitrate的缩写,意思是可变比率,就是MP3文件压制的时候声音元素较多,比率较高时,将自动减低压缩比特率,在比特率需求比较低时自动升高比特率,这样做的目的是在保证音质基本不被损害的情况下增加文件在线播放时的速度,和减少在本机播放时所占的系统资源……这是Xing发展的算法,他们将一首歌的复杂部分用高Bitrate编码,简单部分用低Bitrate编码。主意虽然不错,可惜Xing编码器的VBR算法很差,音质与CBR相去甚远。幸运的是,Lame完美地优化了VBR算法,使之成为MP3的最佳编码模式。这是以质量为前提兼顾文件大小的方式,推荐编码模式。MP3能生存到今天,它的发展仍未止步。2001年6月14日,法国汤姆森与美国RCA两家公司联合推出了一种新的压缩格式:MP3PRO。MP3PRO是基于MP3技术改良而来,它利用了CodingTechnologies公司开发的编解码增强技术,
![]() |
| 有损压缩 |
2、AAC(*.3gp/*.mp4/*.m4v)AAC是高级音频编码(AdvancedAudioCoding)的缩写,它是由Fraunhofer研究院、杜比和AT&T共同研发的。AAC是MPEG-2规范的一部分,它适用于从速率8Kbps的单声道电话音质到160Kbps多声道的超高质量音频范围内的编码。AAC与MP3相比,增加了诸如对立体声的完美再现、码流效果音扫描、多媒体控制、降噪优化等MP3音频格式所没有的特性,使得在音频压缩后仍能完美地再现CD音质。它还同时支持多达48个音轨、15个低频音轨、更多种采样率和比特率、多种语言的兼容性、更高的解码效率。总之,AAC可以在比MP3文件缩小30%的前提下提供更好的音质。现将其中的几个模块作一些说明:增益控制(Gaincontrol)增益控制模块用在可变采样率配置中,它由多相正交滤波器PQF(polyphasequadraturefilter)、增益检测器(gaindetector)和增益修正器(gainmodifier)组成。这个模块把输入信号分离到4个相等带宽的频带中。在解码器中也有增益控制模块,通过忽略PQF的高子带信号获得低采样率输出信号。滤波器组(FilterBank) 滤波器组是把输入信号从时域变换到频域的转换模块,它是MPEG-2AAC系统的基本模块。这个模块采用了改进离散余弦变换MDCT,它是一种线性正交交迭变换,使用了一种称为时域混迭取消TDAC(timedomainaliasingcancellation)技术。MDCT使用KBD(Kaiser-Besselderived)窗口或者使用正弦(sine)窗口,
![]() |
| 有损压缩 |
3、ATRAC3/ATRAC3+(*.aa3)早年玩MD的朋友都知道SONY专为MD量身定做的ATRAC音频格式算法,后来又广泛应用于SONY的NetworkWalkman和其他便携音频设备。“ATRAC3plus”代表“自适应转换声音编码3+”,是一套基于心理声学原理的音频压缩技术,从ATRAC3格式发展而来,到2002年这项技术才日趋完美。这一技术是把MD随身听的体积缩小到很小的理论基础。要分析ATRAC3/ATRAC3+,我们先要谈谈它的大哥——ATRAC算法。当数字音频数据被压缩时,通常都会把一定数量的量化噪音带入信号。为了不让这些信号被人耳感知,通常的做法是,音频编码把信号分解为一组单元,每组单元都对应着特定的时间频率范围。编码器会依据前文提到的心理声学原理来分析,对重要的单元进行高精度编码,对不敏感的单元可以保留一些量化的噪音但不影响人耳的感知质量。解码时,量化频谱会根据比特分配重新建立,然后合成音频信号。ATRAC也不例外,但有一些改进。ATRAC还应用了子频带译码和转换译码技术,输入的信号被分配得到不均匀的强调重要低音区的频率分割。另外,ATRAC使用一个可变块长度改变输入的信号,这可以确保在稳定通过时高效的译码,不会在瞬间通过时影响时间的分辨率。具体说,输入的信号在5.5125KHz和11.025KHz被分为3个频带。子频带的分解使用QMF(QuadratureMirrorFilters积分映射过滤器)来完成;
![]() |
| 有损压缩 |
4、AAL(ATRACAdvancedLossless)AAL是ATRACAdvancedLossless(自适应声学转换高级无损编码)的缩写,是SONY新开发的一个音频压缩格式其特点是无损压缩,不损失一点音频信息,一张CD可以压缩到原来的30%--80%但目前PSP还不支持ATRACAdvancedLossless,但我相信在PSP3.0里极有可能对其支持。目前,其技术资料我还没有见到,所以暂不作分析。
一个音乐文件从录制到播放,有3个重要环节:编码(算法)、解码(硬件解码器)、输出(耳机、耳塞)。这每个环节都对最终我们聆听到的声音音质有着重要的意义,缺一不可。今天,我谈的是基础的编码(算法),希望大家能找到最适合你的编码,我个人的看法是AAC256Kbps和ATRAC3plus256Kbps。AAC的算法是“精致”,ATRAC的算法是“巧妙”。
→ 如果您认为本词条还有待完善,请 编辑词条 收藏词条 至个人空间
- 同义词:






