什么叫大小音频?
什么是音频
我们自以为知道什么是音频,可是我们所知道的音频将要永远改变了。当然,很多变革宣布了,却从未到来(有的到来了却未曾宣布)。在音频国度中,MPEG-4音频也许只是一个偏远的小省。另一方面,通信技术正在以我们5年或10年前根本无法想象的方式,改变我们的生活。我们所知道的音频(包括MP3和其它数据压缩格式)最后也许成了一种少数人的消遣。
在探讨这个话题前,不妨先介绍一点有关MPEG-4的知识及其与视频的关系。首先,根本就不存在MPEG-3—MPEG-2已包括了原来准备用在MPEG-3上的一些特征。其次,MP3是MPEG-1与MPEG-2的一个声音分量,根本就不存在“MP4”。
各种各样MPEG系统的基本思想都是以节省带宽和满足数据存储要求的方式编码音、视频信号的。我还记得,当我第一次知道可以用相当于4比特编码准CD质量音频时,我最初的反应是表示怀疑。MP3现在用约1.6比特就达到了这一目标!MP3使因特网传送音频成为可能。若非如此,音频将是因特网的陌路人,唱片公司可能还在睡大觉。MPEG-2使奇妙的DVD视频获得了成功,并很快普及开来。但是还有一个潜在的要求,即要求传送更多的内容,尤其是下一代移动电话技术,它可使小小的手机能访问因特网,包括视频流,在未来的几年内,这项技术将会以不可思议的速度发展起来。虽然移动电话的带宽将增加,但还必须进一步压缩音视频数据,这就导致了对MPEG-4的要求。
最重要的是想提醒大家,MPEG-4不是MPEG-2的替代品。它有完全不同的功能。我之所以说“最重要”,是因为MPEG-4有可能被许多人误解成是MPEG-2的替代品,而且因为MPEG-2的流行,有人会说:“我们对MPEG-2现在这个样子很满意了”。MPEG-2有着一个长远和确信无疑的未来。MPEG-4将不会替代MPEG-2现有的任何功能。
自然音频
MPEG-4 巧妙地把音频分为两类:自然音频和结构性音频。自然音频是我们所知道的,包括MP3和其它数据压缩格式的音频。结构性音频是我们完全不熟悉的东西,甚至是吓唬人的东西。让我们先从原始概念着手吧。
过去10年中最时髦的一个词是“可缩放性”。如果一个系统不能够缩放,你就可能同时拥有好几个互不兼容的系统。在音频或视频术语中,可缩放系统意味着可将信号传送到一台便宜的接收机(也许主要是用纸板制作的一次性手机),该机将拾取信号的低带宽部分,或基本层。可是,传输包含了更多的层—增强层,这时可用较高级的接收机来提供更好的质量。我们将它与同步广播做个比较,同步广播是从电视还没有像样的立体声伴音开始的,有时广播活动要通过电视和立体声调频广播同时进行。假如带宽有守护神的话,他肯定会高兴地看到肆意挥霍带宽的日子结束了。(带宽是否用得合理或者被浪费主要取决于内容,但那又是另外的话题了)。
自然音频又被细分为一般性音频和语音。例如,一般性音频可能是音乐,它需要的带宽显然比语音高,因为往往主要传送的是其信息内容。对于最高质量信号来说,即从“超过AM”到“透明”(对音频专业人士和其它苛求的听众来说可能更像是半透明的),可通过某些附加物使用高级音频编解码器(MPEG-2 AAC)—它作为标准MP3的一种增强型,面世已有一段时间了。这里涵盖了每声道16kb/s至64kb/s以上的比特率。MP3和MPEG-2 AAC系统丢弃了人耳不能听到的信息,只保留人耳朵可以听到的信息。有些方面是容易理解的,值得在这里提一下,因为里面包含了更复杂的技术。
1.联合立体声编码用于双声道中立体声信号常包含基本相同数据的场合。例如,立体声像中最重要的信号将受益于MS编码,这里的S信号将传送很少的信息,因此可用很少的比特来描述。由此带来的一个有用的“副产品”是,双声道中的量化噪声是相关的,因此落在声像中心,而且大都被信号的M分量所屏蔽。
2.声强编码依赖人耳的相对不灵敏性定相2kHz以上信息。因此可按左、右求和和方向性信息对信号进行编码。声强编码是有损耗的,因此更适合于低比特率的应用。
3.时间噪声整形是AAC中的一个新特性,它影响那些可显著改变信息块中电平的语音等信号。再加上每个信息块中的量化噪声是恒定的,因此失真可被人听见。时间噪声整形随时间整形量化噪声,以减少这种影响。
4.支持知觉噪声置换技术的人认为,对人的听觉系统来说,一种噪声非常像另外一种噪声。因此,如果发现任何频带含有类似噪声的数据时(我差点要说“类似噪声的信息”,这二个词是完全矛盾的),则它能被本地产生的噪声替换。最近用这个办法把Limp Bizkit声轨数据压缩到千字节以下的说法完全是无稽之谈。
我们再来看看TwinVQ。它是一种适合普通音频信号(包括音乐在内)的编解码器,比特率非常低(每声道低于16kb/s)。TwinVQ提取AAC的比例因子和频谱数据,并应用了矢量量化(VQ)。到目前为止,还没有找到向我们作出合理解释的有效方法,所以我只能说编码效率比AAC高,它很好用,缺点是总是损耗一定量的主观音质。
语音编码原理比较好理解(我们现在把音乐排除在外,并脱离开一般性音频),虽然实用性和以前同样复杂。我们可以把人的发音声道比作是一个声源(喉)和一个滤波器(喉、嘴和唇等)。在HVXC (谐波矢量激励编码)和CELP (码激励线性预测编码)编解码器中,编码器和解码器中都有发音声道模型。先用编码器合成近似语音的信号。然后将其与原信号和产生的参数组进行比较。重复此程序优化合成器,并传输量化和压缩的参数。解码器将参数复原,并用它们操纵声道模型—这模型与从中提取它们的的模型类似。HVXC与CELP的比特率随信号要求而变。HVXC的比特率为2kb/s 或4kb/s,这个带宽肯定太小。CELP以低达200b/s的步长在3.85~23.8kb/s之间变化。HVXC与CELP具有可缩放性,因此他们在传输中是基本层,而TwinVQ或AAC则可能是增强层。
结构性音频
你可以视在网络空间里没有人能听见你的喊叫声。那么就继续发挥你的想象吧……
你可以把结构音频的起点设想成是从一家流行音乐预录伴音带专业公司买来的一个General MIDI文件。把这个文件装载到你的定序器中,接上你的GM模块,马上就能卡拉OK了。确实,预录伴音带不会与原版本一模一样,甚至不同的GM模块也有不同的声音,但它都是由同类乐器演奏的音乐(样版),至少音质没问题。想到这些容易,但大量的音频处理可能在几年内以极其相同的方式进行是相当不容易想到的。结构性音频对带宽问题采取完全不同的态度,它通过发送音频事件的描述,而不是音频事件本身的压缩数据型式,减少传送音频所需的数据量。
我们再回过头来看看相似的问题。声音可以通过熵编码器传送或压缩存储。这意味着冗余码的数量减少了或没有了,但有意义的数据完整无缺,重放时可以完全重新组合。DVD-Audio建议采用的Meridian Lossless Packing就是这样的一个例子。这个方法固然好,但我们多半生活在一个现实的环境中—难以获得充足的带宽。MPEG AAC是一个知觉编码器,它所依靠的人耳和大脑不能或根本不需要处理所有的音频信息,只要找到不必要的数据并将其弃之即可。前面提到的HVXC与CELP是基于模型的编解码器,它能分析和重新合成可能存在的各种声音类型的非常小的子集,也就是人语。所有这些系统的目的是去除冗余或重复的信息。但问题依然存在,怎样才能准确地确定哪些信息是多余的呢?以上举的General MIDI的例子采区的是不折衷的方法,这就是结构性音频的起点。在未受到数字化影响的传统声音中,可在钢琴上演奏“G”调。钢琴可以是Steinway, Bechstein, Bosendorfer或 Bluthner—甚至是 Yamaha的。钢琴演奏家可能是Askenazy, Brendel 或Bill Evans,音乐厅可在Royal Festival Hall, Wigmore Hall或 Camegie Hall。传声器可以用……,好了,我想你们明白我的意思了。但是MIDI型可将此压缩到三个字节的数据,然后用任意数量的GM模块的钢琴声学程序恢复这些数据。但丢失了好多内容。
General MIDI里面可能包含一个指向结构音频相关信息的指针,但它还远远不够。还是以钢琴为例子,例如结构音频可传送一种类属的“G”调,但然后编码描述能播放和记录音符的不同方式的各种参数。这事实上效率更高、更灵活了。简单的编解码器只能描述几种参数,如响度、踏板踩下去另一根琴弦是否发出共振声。较复杂一点的编解码器几乎包括了所有与音符有关的参数,可以对这些音符进行分析。结构音频可能的声调范围主要是编码器的职责,凭借有足够计算能力的解码器,任何人都可以欣赏到音质的提高。
结构音频出现已有相当一段时间,但似乎是有了MPEG-4,才开创了结构音频的时代。其工作方式是这样的:在MPEG-4 SA码流的开头有一个标题,其中包括一大段交响乐。这大段交响乐听起来就像是一顿新奇的早点麦片粥一样的一个好听名字,它以各种乐器的形态出现,但实际上是描述将演奏码流中包含的音乐的乐器的数据(实际上是乐器的算法表达)。这大段交响乐写成“SAOL”(结构化的音频交响乐语言)。例如,每种乐器包含一种发声器的物理模型,如钢琴的琴键。此外,乐器还可能包含取样数据及描述怎样演奏声音和变音的指令和参数。码流本身含有定时事件。它反过来与标题有关。比如,一个事件可能说明被拔琴弦的物理模式(在标题中被描述),现在开始稍加抑制地大声弹奏“A”调。或者可演奏管乐器的曲调,码流可能要求音调应该渐高,有些地方要奏出颤音。颤音的深度和频率也可被描述。这一点比General MIDI有所改进,在GM中,没有标出确切的声响,只是说“钢琴”或“长笛”。在结构音频中标出了确切的声响。SA长笛(当编程在SAOL中时) 有可能听起来不太逼真,但至少这是听众将感受的方式,是内容创作者想要的、至少是认可的方式。
这是需要考虑的一个重要概念。可是过去一直对General MIDI视而不见,认为它只是与音频领域里的一小部分有关的点缀,因此很难衡量出结构音频有多重要。但有两点我可以肯定。第一,带宽不会低得让人用不了。结构音频可在低至10b/s的带宽上传输内容,适用于气氛烘托或低音,并与自然音频开始替换处的至少10kb/s相应(不管怎样,10kb/s 以上的SA比特流可能开始超过了解码器硬件要求的处理能力)。第二,结构音频有可能成为一种全新的制作技术,与普通录音和MIDI定序完全不一样。不低估这个挑战是明智的。在极低比特率可达到高品质音频的可能性,以及对这种可能性产生的组合的艺术(不仅仅是技术)的理解,使结构音频本身就是一种新媒体。
新的音频媒体
我们现在可以做些思考,随着结构音频范围的扩大,要说的东西很多。但有些事实现在是可以确定的。
目前还不能把已有的唱片变为结构音频形式。想一想如果有一种工具能把双簧管从已混录成立体声的完整的交响乐唱片中抽出后是什么样子。也许将来能这么做,但目前还远远做不到。这就是说,结构音频制作必须从零开始。还是以管弦乐队为例,这就是说,可以把乐谱装载到一个理想化的SA编码器中,这个编码器已对所有常用管弦乐乐器编程,或许你可以买一个藏族的鼻笛,或其它罕见的乐器作为插件。然后编码器创作出与实际乐器相似的全部声音信息,并将其放入SA比特流的标题中,把音符和演奏时的表现力放入码流中。编码器的操作在技术上相当简单,在艺术上比较复杂。在码流被传送到解码器的预期过程中,听众听到的声音与创作者听到的一样,只是在收听链的最后模拟阶段才有了变化。请注意,不知是什么缘故,可能纯粹是为了节省带宽的缘故,管弦乐队和“真正的”音乐家多余了。获得合适的声音或声槽至关重要的流行音乐制作将发生彻底的改变。获得动听的声音并把它录制到磁带或硬盘上不再足够了。必须把声音当作SA乐器创作,然后将其编入比特流中。结构音频不会彻底消灭传统技术,传统技术还可以使用,这是勿庸置疑的。在可预见的将来,凡是未用结构音频录音的音频都不可能转换
我们自以为知道什么是音频,可是我们所知道的音频将要永远改变了。当然,很多变革宣布了,却从未到来(有的到来了却未曾宣布)。在音频国度中,MPEG-4音频也许只是一个偏远的小省。另一方面,通信技术正在以我们5年或10年前根本无法想象的方式,改变我们的生活。我们所知道的音频(包括MP3和其它数据压缩格式)最后也许成了一种少数人的消遣。
在探讨这个话题前,不妨先介绍一点有关MPEG-4的知识及其与视频的关系。首先,根本就不存在MPEG-3—MPEG-2已包括了原来准备用在MPEG-3上的一些特征。其次,MP3是MPEG-1与MPEG-2的一个声音分量,根本就不存在“MP4”。
各种各样MPEG系统的基本思想都是以节省带宽和满足数据存储要求的方式编码音、视频信号的。我还记得,当我第一次知道可以用相当于4比特编码准CD质量音频时,我最初的反应是表示怀疑。MP3现在用约1.6比特就达到了这一目标!MP3使因特网传送音频成为可能。若非如此,音频将是因特网的陌路人,唱片公司可能还在睡大觉。MPEG-2使奇妙的DVD视频获得了成功,并很快普及开来。但是还有一个潜在的要求,即要求传送更多的内容,尤其是下一代移动电话技术,它可使小小的手机能访问因特网,包括视频流,在未来的几年内,这项技术将会以不可思议的速度发展起来。虽然移动电话的带宽将增加,但还必须进一步压缩音视频数据,这就导致了对MPEG-4的要求。
最重要的是想提醒大家,MPEG-4不是MPEG-2的替代品。它有完全不同的功能。我之所以说“最重要”,是因为MPEG-4有可能被许多人误解成是MPEG-2的替代品,而且因为MPEG-2的流行,有人会说:“我们对MPEG-2现在这个样子很满意了”。MPEG-2有着一个长远和确信无疑的未来。MPEG-4将不会替代MPEG-2现有的任何功能。
自然音频
MPEG-4 巧妙地把音频分为两类:自然音频和结构性音频。自然音频是我们所知道的,包括MP3和其它数据压缩格式的音频。结构性音频是我们完全不熟悉的东西,甚至是吓唬人的东西。让我们先从原始概念着手吧。
过去10年中最时髦的一个词是“可缩放性”。如果一个系统不能够缩放,你就可能同时拥有好几个互不兼容的系统。在音频或视频术语中,可缩放系统意味着可将信号传送到一台便宜的接收机(也许主要是用纸板制作的一次性手机),该机将拾取信号的低带宽部分,或基本层。可是,传输包含了更多的层—增强层,这时可用较高级的接收机来提供更好的质量。我们将它与同步广播做个比较,同步广播是从电视还没有像样的立体声伴音开始的,有时广播活动要通过电视和立体声调频广播同时进行。假如带宽有守护神的话,他肯定会高兴地看到肆意挥霍带宽的日子结束了。(带宽是否用得合理或者被浪费主要取决于内容,但那又是另外的话题了)。
自然音频又被细分为一般性音频和语音。例如,一般性音频可能是音乐,它需要的带宽显然比语音高,因为往往主要传送的是其信息内容。对于最高质量信号来说,即从“超过AM”到“透明”(对音频专业人士和其它苛求的听众来说可能更像是半透明的),可通过某些附加物使用高级音频编解码器(MPEG-2 AAC)—它作为标准MP3的一种增强型,面世已有一段时间了。这里涵盖了每声道16kb/s至64kb/s以上的比特率。MP3和MPEG-2 AAC系统丢弃了人耳不能听到的信息,只保留人耳朵可以听到的信息。有些方面是容易理解的,值得在这里提一下,因为里面包含了更复杂的技术。
1.联合立体声编码用于双声道中立体声信号常包含基本相同数据的场合。例如,立体声像中最重要的信号将受益于MS编码,这里的S信号将传送很少的信息,因此可用很少的比特来描述。由此带来的一个有用的“副产品”是,双声道中的量化噪声是相关的,因此落在声像中心,而且大都被信号的M分量所屏蔽。
2.声强编码依赖人耳的相对不灵敏性定相2kHz以上信息。因此可按左、右求和和方向性信息对信号进行编码。声强编码是有损耗的,因此更适合于低比特率的应用。
3.时间噪声整形是AAC中的一个新特性,它影响那些可显著改变信息块中电平的语音等信号。再加上每个信息块中的量化噪声是恒定的,因此失真可被人听见。时间噪声整形随时间整形量化噪声,以减少这种影响。
4.支持知觉噪声置换技术的人认为,对人的听觉系统来说,一种噪声非常像另外一种噪声。因此,如果发现任何频带含有类似噪声的数据时(我差点要说“类似噪声的信息”,这二个词是完全矛盾的),则它能被本地产生的噪声替换。最近用这个办法把Limp Bizkit声轨数据压缩到千字节以下的说法完全是无稽之谈。
我们再来看看TwinVQ。它是一种适合普通音频信号(包括音乐在内)的编解码器,比特率非常低(每声道低于16kb/s)。TwinVQ提取AAC的比例因子和频谱数据,并应用了矢量量化(VQ)。到目前为止,还没有找到向我们作出合理解释的有效方法,所以我只能说编码效率比AAC高,它很好用,缺点是总是损耗一定量的主观音质。
语音编码原理比较好理解(我们现在把音乐排除在外,并脱离开一般性音频),虽然实用性和以前同样复杂。我们可以把人的发音声道比作是一个声源(喉)和一个滤波器(喉、嘴和唇等)。在HVXC (谐波矢量激励编码)和CELP (码激励线性预测编码)编解码器中,编码器和解码器中都有发音声道模型。先用编码器合成近似语音的信号。然后将其与原信号和产生的参数组进行比较。重复此程序优化合成器,并传输量化和压缩的参数。解码器将参数复原,并用它们操纵声道模型—这模型与从中提取它们的的模型类似。HVXC与CELP的比特率随信号要求而变。HVXC的比特率为2kb/s 或4kb/s,这个带宽肯定太小。CELP以低达200b/s的步长在3.85~23.8kb/s之间变化。HVXC与CELP具有可缩放性,因此他们在传输中是基本层,而TwinVQ或AAC则可能是增强层。
结构性音频
你可以视在网络空间里没有人能听见你的喊叫声。那么就继续发挥你的想象吧……
你可以把结构音频的起点设想成是从一家流行音乐预录伴音带专业公司买来的一个General MIDI文件。把这个文件装载到你的定序器中,接上你的GM模块,马上就能卡拉OK了。确实,预录伴音带不会与原版本一模一样,甚至不同的GM模块也有不同的声音,但它都是由同类乐器演奏的音乐(样版),至少音质没问题。想到这些容易,但大量的音频处理可能在几年内以极其相同的方式进行是相当不容易想到的。结构性音频对带宽问题采取完全不同的态度,它通过发送音频事件的描述,而不是音频事件本身的压缩数据型式,减少传送音频所需的数据量。
我们再回过头来看看相似的问题。声音可以通过熵编码器传送或压缩存储。这意味着冗余码的数量减少了或没有了,但有意义的数据完整无缺,重放时可以完全重新组合。DVD-Audio建议采用的Meridian Lossless Packing就是这样的一个例子。这个方法固然好,但我们多半生活在一个现实的环境中—难以获得充足的带宽。MPEG AAC是一个知觉编码器,它所依靠的人耳和大脑不能或根本不需要处理所有的音频信息,只要找到不必要的数据并将其弃之即可。前面提到的HVXC与CELP是基于模型的编解码器,它能分析和重新合成可能存在的各种声音类型的非常小的子集,也就是人语。所有这些系统的目的是去除冗余或重复的信息。但问题依然存在,怎样才能准确地确定哪些信息是多余的呢?以上举的General MIDI的例子采区的是不折衷的方法,这就是结构性音频的起点。在未受到数字化影响的传统声音中,可在钢琴上演奏“G”调。钢琴可以是Steinway, Bechstein, Bosendorfer或 Bluthner—甚至是 Yamaha的。钢琴演奏家可能是Askenazy, Brendel 或Bill Evans,音乐厅可在Royal Festival Hall, Wigmore Hall或 Camegie Hall。传声器可以用……,好了,我想你们明白我的意思了。但是MIDI型可将此压缩到三个字节的数据,然后用任意数量的GM模块的钢琴声学程序恢复这些数据。但丢失了好多内容。
General MIDI里面可能包含一个指向结构音频相关信息的指针,但它还远远不够。还是以钢琴为例子,例如结构音频可传送一种类属的“G”调,但然后编码描述能播放和记录音符的不同方式的各种参数。这事实上效率更高、更灵活了。简单的编解码器只能描述几种参数,如响度、踏板踩下去另一根琴弦是否发出共振声。较复杂一点的编解码器几乎包括了所有与音符有关的参数,可以对这些音符进行分析。结构音频可能的声调范围主要是编码器的职责,凭借有足够计算能力的解码器,任何人都可以欣赏到音质的提高。
结构音频出现已有相当一段时间,但似乎是有了MPEG-4,才开创了结构音频的时代。其工作方式是这样的:在MPEG-4 SA码流的开头有一个标题,其中包括一大段交响乐。这大段交响乐听起来就像是一顿新奇的早点麦片粥一样的一个好听名字,它以各种乐器的形态出现,但实际上是描述将演奏码流中包含的音乐的乐器的数据(实际上是乐器的算法表达)。这大段交响乐写成“SAOL”(结构化的音频交响乐语言)。例如,每种乐器包含一种发声器的物理模型,如钢琴的琴键。此外,乐器还可能包含取样数据及描述怎样演奏声音和变音的指令和参数。码流本身含有定时事件。它反过来与标题有关。比如,一个事件可能说明被拔琴弦的物理模式(在标题中被描述),现在开始稍加抑制地大声弹奏“A”调。或者可演奏管乐器的曲调,码流可能要求音调应该渐高,有些地方要奏出颤音。颤音的深度和频率也可被描述。这一点比General MIDI有所改进,在GM中,没有标出确切的声响,只是说“钢琴”或“长笛”。在结构音频中标出了确切的声响。SA长笛(当编程在SAOL中时) 有可能听起来不太逼真,但至少这是听众将感受的方式,是内容创作者想要的、至少是认可的方式。
这是需要考虑的一个重要概念。可是过去一直对General MIDI视而不见,认为它只是与音频领域里的一小部分有关的点缀,因此很难衡量出结构音频有多重要。但有两点我可以肯定。第一,带宽不会低得让人用不了。结构音频可在低至10b/s的带宽上传输内容,适用于气氛烘托或低音,并与自然音频开始替换处的至少10kb/s相应(不管怎样,10kb/s 以上的SA比特流可能开始超过了解码器硬件要求的处理能力)。第二,结构音频有可能成为一种全新的制作技术,与普通录音和MIDI定序完全不一样。不低估这个挑战是明智的。在极低比特率可达到高品质音频的可能性,以及对这种可能性产生的组合的艺术(不仅仅是技术)的理解,使结构音频本身就是一种新媒体。
新的音频媒体
我们现在可以做些思考,随着结构音频范围的扩大,要说的东西很多。但有些事实现在是可以确定的。
目前还不能把已有的唱片变为结构音频形式。想一想如果有一种工具能把双簧管从已混录成立体声的完整的交响乐唱片中抽出后是什么样子。也许将来能这么做,但目前还远远做不到。这就是说,结构音频制作必须从零开始。还是以管弦乐队为例,这就是说,可以把乐谱装载到一个理想化的SA编码器中,这个编码器已对所有常用管弦乐乐器编程,或许你可以买一个藏族的鼻笛,或其它罕见的乐器作为插件。然后编码器创作出与实际乐器相似的全部声音信息,并将其放入SA比特流的标题中,把音符和演奏时的表现力放入码流中。编码器的操作在技术上相当简单,在艺术上比较复杂。在码流被传送到解码器的预期过程中,听众听到的声音与创作者听到的一样,只是在收听链的最后模拟阶段才有了变化。请注意,不知是什么缘故,可能纯粹是为了节省带宽的缘故,管弦乐队和“真正的”音乐家多余了。获得合适的声音或声槽至关重要的流行音乐制作将发生彻底的改变。获得动听的声音并把它录制到磁带或硬盘上不再足够了。必须把声音当作SA乐器创作,然后将其编入比特流中。结构音频不会彻底消灭传统技术,传统技术还可以使用,这是勿庸置疑的。在可预见的将来,凡是未用结构音频录音的音频都不可能转换
音频的解释:
我们自以为知道什么是音频,可是我们所知道的音频将要永远改变了。当然,很多变革宣布了,却从未到来(有的到来了却未曾宣布)。在音频国度中,MPEG-4音频也许只是一个偏远的小省。另一方面,通信技术正在以我们5年或10年前根本无法想象的方式,改变我们的生活。我们所知道的音频(包括MP3和其它数据压缩格式)最后也许成了一种少数人的消遣。
在探讨这个话题前,不妨先介绍一点有关MPEG-4的知识及其与视频的关系。首先,根本就不存在MPEG-3—MPEG-2已包括了原来准备用在MPEG-3上的一些特征。其次,MP3是MPEG-1与MPEG-2的一个声音分量,根本就不存在“MP4”。
各种各样MPEG系统的基本思想都是以节省带宽和满足数据存储要求的方式编码音、视频信号的。我还记得,当我第一次知道可以用相当于4比特编码准CD质量音频时,我最初的反应是表示怀疑。MP3现在用约1.6比特就达到了这一目标!MP3使因特网传送音频成为可能。若非如此,音频将是因特网的陌路人,唱片公司可能还在睡大觉。MPEG-2使奇妙的DVD视频获得了成功,并很快普及开来。但是还有一个潜在的要求,即要求传送更多的内容,尤其是下一代移动电话技术,它可使小小的手机能访问因特网,包括视频流,在未来的几年内,这项技术将会以不可思议的速度发展起来。虽然移动电话的带宽将增加,但还必须进一步压缩音视频数据,这就导致了对MPEG-4的要求。
最重要的是想提醒大家,MPEG-4不是MPEG-2的替代品。它有完全不同的功能。我之所以说“最重要”,是因为MPEG-4有可能被许多人误解成是MPEG-2的替代品,而且因为MPEG-2的流行,有人会说:“我们对MPEG-2现在这个样子很满意了”。MPEG-2有着一个长远和确信无疑的未来。MPEG-4将不会替代MPEG-2现有的任何功能。
自然音频
MPEG-4 巧妙地把音频分为两类:自然音频和结构性音频。自然音频是我们所知道的,包括MP3和其它数据压缩格式的音频。结构性音频是我们完全不熟悉的东西,甚至是吓唬人的东西。让我们先从原始概念着手吧。
过去10年中最时髦的一个词是“可缩放性”。如果一个系统不能够缩放,你就可能同时拥有好几个互不兼容的系统。在音频或视频术语中,可缩放系统意味着可将信号传送到一台便宜的接收机(也许主要是用纸板制作的一次性手机),该机将拾取信号的低带宽部分,或基本层。可是,传输包含了更多的层—增强层,这时可用较高级的接收机来提供更好的质量。我们将它与同步广播做个比较,同步广播是从电视还没有像样的立体声伴音开始的,有时广播活动要通过电视和立体声调频广播同时进行。假如带宽有守护神的话,他肯定会高兴地看到肆意挥霍带宽的日子结束了。(带宽是否用得合理或者被浪费主要取决于内容,但那又是另外的话题了)。
自然音频又被细分为一般性音频和语音。例如,一般性音频可能是音乐,它需要的带宽显然比语音高,因为往往主要传送的是其信息内容。对于最高质量信号来说,即从“超过AM”到“透明”(对音频专业人士和其它苛求的听众来说可能更像是半透明的),可通过某些附加物使用高级音频编解码器(MPEG-2 AAC)—它作为标准MP3的一种增强型,面世已有一段时间了。这里涵盖了每声道16kb/s至64kb/s以上的比特率。MP3和MPEG-2 AAC系统丢弃了人耳不能听到的信息,只保留人耳朵可以听到的信息。有些方面是容易理解的,值得在这里提一下,因为里面包含了更复杂的技术。
1.联合立体声编码用于双声道中立体声信号常包含基本相同数据的场合。例如,立体声像中最重要的信号将受益于MS编码,这里的S信号将传送很少的信息,因此可用很少的比特来描述。由此带来的一个有用的“副产品”是,双声道中的量化噪声是相关的,因此落在声像中心,而且大都被信号的M分量所屏蔽。
2.声强编码依赖人耳的相对不灵敏性定相2kHz以上信息。因此可按左、右求和和方向性信息对信号进行编码。声强编码是有损耗的,因此更适合于低比特率的应用。
3.时间噪声整形是AAC中的一个新特性,它影响那些可显著改变信息块中电平的语音等信号。再加上每个信息块中的量化噪声是恒定的,因此失真可被人听见。时间噪声整形随时间整形量化噪声,以减少这种影响。
4.支持知觉噪声置换技术的人认为,对人的听觉系统来说,一种噪声非常像另外一种噪声。因此,如果发现任何频带含有类似噪声的数据时(我差点要说“类似噪声的信息”,这二个词是完全矛盾的),则它能被本地产生的噪声替换。最近用这个办法把Limp Bizkit声轨数据压缩到千字节以下的说法完全是无稽之谈。
我们再来看看TwinVQ。它是一种适合普通音频信号(包括音乐在内)的编解码器,比特率非常低(每声道低于16kb/s)。TwinVQ提取AAC的比例因子和频谱数据,并应用了矢量量化(VQ)。到目前为止,还没有找到向我们作出合理解释的有效方法,所以我只能说编码效率比AAC高,它很好用,缺点是总是损耗一定量的主观音质。
语音编码原理比较好理解(我们现在把音乐排除在外,并脱离开一般性音频),虽然实用性和以前同样复杂。我们可以把人的发音声道比作是一个声源(喉)和一个滤波器(喉、嘴和唇等)。在HVXC (谐波矢量激励编码)和CELP (码激励线性预测编码)编解码器中,编码器和解码器中都有发音声道模型。先用编码器合成近似语音的信号。然后将其与原信号和产生的参数组进行比较。重复此程序优化合成器,并传输量化和压缩的参数。解码器将参数复原,并用它们操纵声道模型—这模型与从中提取它们的的模型类似。HVXC与CELP的比特率随信号要求而变。HVXC的比特率为2kb/s 或4kb/s,这个带宽肯定太小。CELP以低达200b/s的步长在3.85~23.8kb/s之间变化。HVXC与CELP具有可缩放性,因此他们在传输中是基本层,而TwinVQ或AAC则可能是增强层。
结构性音频
你可以视在网络空间里没有人能听见你的喊叫声。那么就继续发挥你的想象吧……
你可以把结构音频的起点设想成是从一家流行音乐预录伴音带专业公司买来的一个General MIDI文件。把这个文件装载到你的定序器中,接上你的GM模块,马上就能卡拉OK了。确实,预录伴音带不会与原版本一模一样,甚至不同的GM模块也有不同的声音,但它都是由同类乐器演奏的音乐(样版),至少音质没问题。想到这些容易,但大量的音频处理可能在几年内以极其相同的方式进行是相当不容易想到的。结构性音频对带宽问题采取完全不同的态度,它通过发送音频事件的描述,而不是音频事件本身的压缩数据型式,减少传送音频所需的数据量。
我们再回过头来看看相似的问题。声音可以通过熵编码器传送或压缩存储。这意味着冗余码的数量减少了或没有了,但有意义的数据完整无缺,重放时可以完全重新组合。DVD-Audio建议采用的Meridian Lossless Packing就是这样的一个例子。这个方法固然好,但我们多半生活在一个现实的环境中—难以获得充足的带宽。MPEG AAC是一个知觉编码器,它所依靠的人耳和大脑不能或根本不需要处理所有的音频信息,只要找到不必要的数据并将其弃之即可。前面提到的HVXC与CELP是基于模型的编解码器,它能分析和重新合成可能存在的各种声音类型的非常小的子集,也就是人语。所有这些系统的目的是去除冗余或重复的信息。但问题依然存在,怎样才能准确地确定哪些信息是多余的呢?以上举的General MIDI的例子采区的是不折衷的方法,这就是结构性音频的起点。在未受到数字化影响的传统声音中,可在钢琴上演奏“G”调。钢琴可以是Steinway, Bechstein, Bosendorfer或 Bluthner—甚至是 Yamaha的。钢琴演奏家可能是Askenazy, Brendel 或Bill Evans,音乐厅可在Royal Festival Hall, Wigmore Hall或 Camegie Hall。传声器可以用……,好了,我想你们明白我的意思了。但是MIDI型可将此压缩到三个字节的数据,然后用任意数量的GM模块的钢琴声学程序恢复这些数据。但丢失了好多内容。
General MIDI里面可能包含一个指向结构音频相关信息的指针,但它还远远不够。还是以钢琴为例子,例如结构音频可传送一种类属的“G”调,但然后编码描述能播放和记录音符的不同方式的各种参数。这事实上效率更高、更灵活了。简单的编解码器只能描述几种参数,如响度、踏板踩下去另一根琴弦是否发出共振声。较复杂一点的编解码器几乎包括了所有与音符有关的参数,可以对这些音符进行分析。结构音频可能的声调范围主要是编码器的职责,凭借有足够计算能力的解码器,任何人都可以欣赏到音质的提高。
结构音频出现已有相当一段时间,但似乎是有了MPEG-4,才开创了结构音频的时代。其工作方式是这样的:在MPEG-4 SA码流的开头有一个标题,其中包括一大段交响乐。这大段交响乐听起来就像是一顿新奇的早点麦片粥一样的一个好听名字,它以各种乐器的形态出现,但实际上是描述将演奏码流中包含的音乐的乐器的数据(实际上是乐器的算法表达)。这大段交响乐写成“SAOL”(结构化的音频交响乐语言)。例如,每种乐器包含一种发声器的物理模型,如钢琴的琴键。此外,乐器还可能包含取样数据及描述怎样演奏声音和变音的指令和参数。码流本身含有定时事件。它反过来与标题有关。比如,一个事件可能说明被拔琴弦的物理模式(在标题中被描述),现在开始稍加抑制地大声弹奏“A”调。或者可演奏管乐器的曲调,码流可能要求音调应该渐高,有些地方要奏出颤音。颤音的深度和频率也可被描述。这一点比General MIDI有所改进,在GM中,没有标出确切的声响,只是说“钢琴”或“长笛”。在结构音频中标出了确切的声响。SA长笛(当编程在SAOL中时) 有可能听起来不太逼真,但至少这是听众将感受的方式,是内容创作者想要的、至少是认可的方式。
这是需要考虑的一个重要概念。可是过去一直对General MIDI视而不见,认为它只是与音频领域里的一小部分有关的点缀,因此很难衡量出结构音频有多重要。但有两点我可以肯定。第一,带宽不会低得让人用不了。结构音频可在低至10b/s的带宽上传输内容,适用于气氛烘托或低音,并与自然音频开始替换处的至少10kb/s相应(不管怎样,10kb/s 以上的SA比特流可能开始超过了解码器硬件要求的处理能力)。第二,结构音频有可能成为一种全新的制作技术,与普通录音和MIDI定序完全不一样。不低估这个挑战是明智的。在极低比特率可达到高品质音频的可能性,以及对这种可能性产生的组合的艺术(不仅仅是技术)的理解,使结构音频本身就是一种新媒体。
新的音频媒体
我们现在可以做些思考,随着结构音频范围的扩大,要说的东西很多。但有些事实现在是可以确定的。
目前还不能把已有的唱片变为结构音频形式。想一想如果有一种工具能把双簧管从已混录成立体声的完整的交响乐唱片中抽出后是什么样子。也许将来能这么做,但目前还远远做不到。这就是说,结构音频制作必须从零开始。还是以管弦乐队为例,这就是说,可以把乐谱装载到一个理想化的SA编码器中,这个编码器已对所有常用管弦乐乐器编程,或许你可以买一个藏族的鼻笛,或其它罕见的乐器作为插件。然后编码器创作出与实际乐器相似的全部声音信息,并将其放入SA比特流的标题中,把音符和演奏时的表现力放入码流中。编码器的操作在技术上相当简单,在艺术上比较复杂。在码流被传送到解码器的预期过程中,听众听到的声音与创作者听到的一样,只是在收听链的最后模拟阶段才有了变化。请注意,不知是什么缘故,可能纯粹是为了节省带宽的缘故,管弦乐队和“真正的”音乐家多余了。获得合适的声音或声槽至关重要的流行音乐制作将发生彻底的改变。获得动听的声音并把它录制到磁带或硬盘上不再足够了。必须把声音当作SA乐器创作,然后将其编入比特流中。结构音频不会彻底消灭传统技术,传统技术还可以使用,这是勿庸置疑的。在可预见的将来,凡是未用结构音频录音的音频都不可能转换.
我们自以为知道什么是音频,可是我们所知道的音频将要永远改变了。当然,很多变革宣布了,却从未到来(有的到来了却未曾宣布)。在音频国度中,MPEG-4音频也许只是一个偏远的小省。另一方面,通信技术正在以我们5年或10年前根本无法想象的方式,改变我们的生活。我们所知道的音频(包括MP3和其它数据压缩格式)最后也许成了一种少数人的消遣。
在探讨这个话题前,不妨先介绍一点有关MPEG-4的知识及其与视频的关系。首先,根本就不存在MPEG-3—MPEG-2已包括了原来准备用在MPEG-3上的一些特征。其次,MP3是MPEG-1与MPEG-2的一个声音分量,根本就不存在“MP4”。
各种各样MPEG系统的基本思想都是以节省带宽和满足数据存储要求的方式编码音、视频信号的。我还记得,当我第一次知道可以用相当于4比特编码准CD质量音频时,我最初的反应是表示怀疑。MP3现在用约1.6比特就达到了这一目标!MP3使因特网传送音频成为可能。若非如此,音频将是因特网的陌路人,唱片公司可能还在睡大觉。MPEG-2使奇妙的DVD视频获得了成功,并很快普及开来。但是还有一个潜在的要求,即要求传送更多的内容,尤其是下一代移动电话技术,它可使小小的手机能访问因特网,包括视频流,在未来的几年内,这项技术将会以不可思议的速度发展起来。虽然移动电话的带宽将增加,但还必须进一步压缩音视频数据,这就导致了对MPEG-4的要求。
最重要的是想提醒大家,MPEG-4不是MPEG-2的替代品。它有完全不同的功能。我之所以说“最重要”,是因为MPEG-4有可能被许多人误解成是MPEG-2的替代品,而且因为MPEG-2的流行,有人会说:“我们对MPEG-2现在这个样子很满意了”。MPEG-2有着一个长远和确信无疑的未来。MPEG-4将不会替代MPEG-2现有的任何功能。
自然音频
MPEG-4 巧妙地把音频分为两类:自然音频和结构性音频。自然音频是我们所知道的,包括MP3和其它数据压缩格式的音频。结构性音频是我们完全不熟悉的东西,甚至是吓唬人的东西。让我们先从原始概念着手吧。
过去10年中最时髦的一个词是“可缩放性”。如果一个系统不能够缩放,你就可能同时拥有好几个互不兼容的系统。在音频或视频术语中,可缩放系统意味着可将信号传送到一台便宜的接收机(也许主要是用纸板制作的一次性手机),该机将拾取信号的低带宽部分,或基本层。可是,传输包含了更多的层—增强层,这时可用较高级的接收机来提供更好的质量。我们将它与同步广播做个比较,同步广播是从电视还没有像样的立体声伴音开始的,有时广播活动要通过电视和立体声调频广播同时进行。假如带宽有守护神的话,他肯定会高兴地看到肆意挥霍带宽的日子结束了。(带宽是否用得合理或者被浪费主要取决于内容,但那又是另外的话题了)。
自然音频又被细分为一般性音频和语音。例如,一般性音频可能是音乐,它需要的带宽显然比语音高,因为往往主要传送的是其信息内容。对于最高质量信号来说,即从“超过AM”到“透明”(对音频专业人士和其它苛求的听众来说可能更像是半透明的),可通过某些附加物使用高级音频编解码器(MPEG-2 AAC)—它作为标准MP3的一种增强型,面世已有一段时间了。这里涵盖了每声道16kb/s至64kb/s以上的比特率。MP3和MPEG-2 AAC系统丢弃了人耳不能听到的信息,只保留人耳朵可以听到的信息。有些方面是容易理解的,值得在这里提一下,因为里面包含了更复杂的技术。
1.联合立体声编码用于双声道中立体声信号常包含基本相同数据的场合。例如,立体声像中最重要的信号将受益于MS编码,这里的S信号将传送很少的信息,因此可用很少的比特来描述。由此带来的一个有用的“副产品”是,双声道中的量化噪声是相关的,因此落在声像中心,而且大都被信号的M分量所屏蔽。
2.声强编码依赖人耳的相对不灵敏性定相2kHz以上信息。因此可按左、右求和和方向性信息对信号进行编码。声强编码是有损耗的,因此更适合于低比特率的应用。
3.时间噪声整形是AAC中的一个新特性,它影响那些可显著改变信息块中电平的语音等信号。再加上每个信息块中的量化噪声是恒定的,因此失真可被人听见。时间噪声整形随时间整形量化噪声,以减少这种影响。
4.支持知觉噪声置换技术的人认为,对人的听觉系统来说,一种噪声非常像另外一种噪声。因此,如果发现任何频带含有类似噪声的数据时(我差点要说“类似噪声的信息”,这二个词是完全矛盾的),则它能被本地产生的噪声替换。最近用这个办法把Limp Bizkit声轨数据压缩到千字节以下的说法完全是无稽之谈。
我们再来看看TwinVQ。它是一种适合普通音频信号(包括音乐在内)的编解码器,比特率非常低(每声道低于16kb/s)。TwinVQ提取AAC的比例因子和频谱数据,并应用了矢量量化(VQ)。到目前为止,还没有找到向我们作出合理解释的有效方法,所以我只能说编码效率比AAC高,它很好用,缺点是总是损耗一定量的主观音质。
语音编码原理比较好理解(我们现在把音乐排除在外,并脱离开一般性音频),虽然实用性和以前同样复杂。我们可以把人的发音声道比作是一个声源(喉)和一个滤波器(喉、嘴和唇等)。在HVXC (谐波矢量激励编码)和CELP (码激励线性预测编码)编解码器中,编码器和解码器中都有发音声道模型。先用编码器合成近似语音的信号。然后将其与原信号和产生的参数组进行比较。重复此程序优化合成器,并传输量化和压缩的参数。解码器将参数复原,并用它们操纵声道模型—这模型与从中提取它们的的模型类似。HVXC与CELP的比特率随信号要求而变。HVXC的比特率为2kb/s 或4kb/s,这个带宽肯定太小。CELP以低达200b/s的步长在3.85~23.8kb/s之间变化。HVXC与CELP具有可缩放性,因此他们在传输中是基本层,而TwinVQ或AAC则可能是增强层。
结构性音频
你可以视在网络空间里没有人能听见你的喊叫声。那么就继续发挥你的想象吧……
你可以把结构音频的起点设想成是从一家流行音乐预录伴音带专业公司买来的一个General MIDI文件。把这个文件装载到你的定序器中,接上你的GM模块,马上就能卡拉OK了。确实,预录伴音带不会与原版本一模一样,甚至不同的GM模块也有不同的声音,但它都是由同类乐器演奏的音乐(样版),至少音质没问题。想到这些容易,但大量的音频处理可能在几年内以极其相同的方式进行是相当不容易想到的。结构性音频对带宽问题采取完全不同的态度,它通过发送音频事件的描述,而不是音频事件本身的压缩数据型式,减少传送音频所需的数据量。
我们再回过头来看看相似的问题。声音可以通过熵编码器传送或压缩存储。这意味着冗余码的数量减少了或没有了,但有意义的数据完整无缺,重放时可以完全重新组合。DVD-Audio建议采用的Meridian Lossless Packing就是这样的一个例子。这个方法固然好,但我们多半生活在一个现实的环境中—难以获得充足的带宽。MPEG AAC是一个知觉编码器,它所依靠的人耳和大脑不能或根本不需要处理所有的音频信息,只要找到不必要的数据并将其弃之即可。前面提到的HVXC与CELP是基于模型的编解码器,它能分析和重新合成可能存在的各种声音类型的非常小的子集,也就是人语。所有这些系统的目的是去除冗余或重复的信息。但问题依然存在,怎样才能准确地确定哪些信息是多余的呢?以上举的General MIDI的例子采区的是不折衷的方法,这就是结构性音频的起点。在未受到数字化影响的传统声音中,可在钢琴上演奏“G”调。钢琴可以是Steinway, Bechstein, Bosendorfer或 Bluthner—甚至是 Yamaha的。钢琴演奏家可能是Askenazy, Brendel 或Bill Evans,音乐厅可在Royal Festival Hall, Wigmore Hall或 Camegie Hall。传声器可以用……,好了,我想你们明白我的意思了。但是MIDI型可将此压缩到三个字节的数据,然后用任意数量的GM模块的钢琴声学程序恢复这些数据。但丢失了好多内容。
General MIDI里面可能包含一个指向结构音频相关信息的指针,但它还远远不够。还是以钢琴为例子,例如结构音频可传送一种类属的“G”调,但然后编码描述能播放和记录音符的不同方式的各种参数。这事实上效率更高、更灵活了。简单的编解码器只能描述几种参数,如响度、踏板踩下去另一根琴弦是否发出共振声。较复杂一点的编解码器几乎包括了所有与音符有关的参数,可以对这些音符进行分析。结构音频可能的声调范围主要是编码器的职责,凭借有足够计算能力的解码器,任何人都可以欣赏到音质的提高。
结构音频出现已有相当一段时间,但似乎是有了MPEG-4,才开创了结构音频的时代。其工作方式是这样的:在MPEG-4 SA码流的开头有一个标题,其中包括一大段交响乐。这大段交响乐听起来就像是一顿新奇的早点麦片粥一样的一个好听名字,它以各种乐器的形态出现,但实际上是描述将演奏码流中包含的音乐的乐器的数据(实际上是乐器的算法表达)。这大段交响乐写成“SAOL”(结构化的音频交响乐语言)。例如,每种乐器包含一种发声器的物理模型,如钢琴的琴键。此外,乐器还可能包含取样数据及描述怎样演奏声音和变音的指令和参数。码流本身含有定时事件。它反过来与标题有关。比如,一个事件可能说明被拔琴弦的物理模式(在标题中被描述),现在开始稍加抑制地大声弹奏“A”调。或者可演奏管乐器的曲调,码流可能要求音调应该渐高,有些地方要奏出颤音。颤音的深度和频率也可被描述。这一点比General MIDI有所改进,在GM中,没有标出确切的声响,只是说“钢琴”或“长笛”。在结构音频中标出了确切的声响。SA长笛(当编程在SAOL中时) 有可能听起来不太逼真,但至少这是听众将感受的方式,是内容创作者想要的、至少是认可的方式。
这是需要考虑的一个重要概念。可是过去一直对General MIDI视而不见,认为它只是与音频领域里的一小部分有关的点缀,因此很难衡量出结构音频有多重要。但有两点我可以肯定。第一,带宽不会低得让人用不了。结构音频可在低至10b/s的带宽上传输内容,适用于气氛烘托或低音,并与自然音频开始替换处的至少10kb/s相应(不管怎样,10kb/s 以上的SA比特流可能开始超过了解码器硬件要求的处理能力)。第二,结构音频有可能成为一种全新的制作技术,与普通录音和MIDI定序完全不一样。不低估这个挑战是明智的。在极低比特率可达到高品质音频的可能性,以及对这种可能性产生的组合的艺术(不仅仅是技术)的理解,使结构音频本身就是一种新媒体。
新的音频媒体
我们现在可以做些思考,随着结构音频范围的扩大,要说的东西很多。但有些事实现在是可以确定的。
目前还不能把已有的唱片变为结构音频形式。想一想如果有一种工具能把双簧管从已混录成立体声的完整的交响乐唱片中抽出后是什么样子。也许将来能这么做,但目前还远远做不到。这就是说,结构音频制作必须从零开始。还是以管弦乐队为例,这就是说,可以把乐谱装载到一个理想化的SA编码器中,这个编码器已对所有常用管弦乐乐器编程,或许你可以买一个藏族的鼻笛,或其它罕见的乐器作为插件。然后编码器创作出与实际乐器相似的全部声音信息,并将其放入SA比特流的标题中,把音符和演奏时的表现力放入码流中。编码器的操作在技术上相当简单,在艺术上比较复杂。在码流被传送到解码器的预期过程中,听众听到的声音与创作者听到的一样,只是在收听链的最后模拟阶段才有了变化。请注意,不知是什么缘故,可能纯粹是为了节省带宽的缘故,管弦乐队和“真正的”音乐家多余了。获得合适的声音或声槽至关重要的流行音乐制作将发生彻底的改变。获得动听的声音并把它录制到磁带或硬盘上不再足够了。必须把声音当作SA乐器创作,然后将其编入比特流中。结构音频不会彻底消灭传统技术,传统技术还可以使用,这是勿庸置疑的。在可预见的将来,凡是未用结构音频录音的音频都不可能转换.
哈哈我也是不知道