MPEG-4编码标准是目前最新的国际编码标准规范,本文就其主要的内容作了简单的概述,并在此基础上着重介绍了具有特色的音频对象的编码和视频对象的编码。

  1 多媒体传输集成框架

  多媒体传输集成框架(DMIF)主要解决交互网络中、广播环境下以及磁盘中多媒体应用的操作问题,通过传输多路合成比特信息,建立客户端和服务器端的握手和传输。与过去不同的是,由于MPEG-4码流中,包括许多的AV对象,一般而言,这些AV对象都有各自的缓冲器,而不仅仅是视频缓冲器和音频缓冲器。

  2 语法描述

  MPEG-4定义了一个句法描述语言来描述AV对象比特流表示和场景描述信息。这个句法描述语言是对C++的扩展,不仅易于表达其AV对象特性,而且也易于软件仿真实现与模型验证。与MPEG-4相比,MPEG-1和MPEG-2则采用一种类C语言的描述,MPEG-4描述语言反映了面向对象技术来描述对象。

  3 音频对象的编码

  视频音频的压缩编码自然仍是MPEG-4的核心所在。不过,与以前的MPEG-1、MPEG-2不同的是:MPEG-4不仅支持自然的声音(如语音和音乐),而且支持基于描述语言的合成声音,支持音频的对象特征。即一个场景中,同时有人声和背景音乐,它们也许是独立编码的音频对象。

  3.1 自然声音编码

  MPEG-4研究比较了现有的各种音频编码算法,支持2~64K的自然声音编码。如8 kHz采样频率的2~4 kbit/s的语音编码,以及8或16 kHz采样频率4~16 kbit/s的音频编码,一般采用参数编码;6~24 kbit/s的语音编码,一般采用码激励线性预测(CELP)编码技术;16 kbit/s以上码率的编码,则可采用时频(T/F)变换编码技术。这些技术实质上借鉴了已有的音频编码标准,如G.723、G.728以及MPEG-1和MPEG-2等。

3.2 合成声音

  在合成声音编码当中,MPEG-4引入了2个极有吸引力的编码技术:文本到语音编码和乐谱驱动合成编码技术。这为网络上低比特率下交互的带有语音的游戏铺平了道路。事实上,合成声音编码技术即是一种基于知识库的参数编码。特别值得一提的是MPEG-4的乐谱驱动合成技术,在该技术中,解码器是由一种特殊的合成语言——结构化的音频管弦乐团语言(SAOL)驱动的。其中的“管弦乐团”是由不同的“乐器”组成的。当解码器不具有某一“乐器”时,MPEG-4还允许解码器从编码器下载该“乐器”到解码器,以便正确恢复合成声音。可见,MPEG-4不是提供一组角MIDI音乐标准中的“乐器”,而是提供了一个可随时扩充的“管弦乐团”,因此,其可“演奏”乐谱自然更加丰富多彩。

  4 视觉对象的编码

  同样,MPEG-4也支持对自然和合成的视觉对象编码。合成的视觉对象如2D、3D动画,人的面部表情动画等,这些合成图像单独编码,不仅可有效压缩,而且还便于操作。

  对自然视觉对象的编码,仍是MPEG-4的重点。相对于静止图像,MPEG-4采用零树小波算法(Zerotree WAVelet algorithm)以提供高压缩比,同时还提供多达11级的空间分辨率和质量的可伸缩性。

  对于运动视频对象的编码,MPEG-4采用了编码框图,以支持图像的编码。


可见,MPEG-4为了支持基于对象的编码,引入了形状编码模块。为了支持高效压缩,MPEG-4仍然采用了MPEG-1、MPEG-2中的变换、预测混合编码框架。

对于实时的极低比特率的应用,如可视电话,MPEG-4视频编码采用极低比特率视频(VLBV)核进行编码,类似于ITU的H.263直接对矩形视频编码,而不采用形状编码模块。

可见,MPEG-4采取了向前兼容H.263,同时,也提供了一些高层特性,如基于内容的编码。

  MPEG-4支持有误码信道传输下的鲁棒性,提供了更好的同步和误码恢复机制。

  5 场景描述

  场景描述主要用于描述以上单个的AV对象如何在一个具体AV场景坐标下的组织与同步等问题。同时还有AV对象和AV场景的知识产权保护等问题。

  6 MPEG-4展望

  MPEG-4的应用将是广泛而深远的。这一新的标准将至少可以应用于以下场合:

  a) 实时多媒体监控;

  b) 极低比特率下的移动多媒体通信;

  c) 基于内容存储和检索多媒体系统;

  d) Internet/Intranet上的视频流与可视游戏;

  e) 基于面部表情模拟的虚拟会议;

  f) DVD上的交互多媒体应用;

  g) 基于计算机网络的可视化合作实验室场景应用;

  h) 演播室和电视的节目制作。