更新时间:2024-08-30 21:25
MP4是一套用于音频、视频信息的压缩编码标准,由国际标准化组织(ISO)和国际电工委员会(IEC)下属的“动态图像专家组”(Moving Picture Experts Group,即MPEG)制定,第一版在1998年10月通过,第二版在1999年12月通过。MPEG-4格式的主要用途在于网上流、光盘、语音发送(视频电话),以及电视广播。
MPEG-4由一系列的子标准组成,被称为部 (part)(有时也译为卷),包括以下的部分:
第一部分(ISO/IEC 14496-1):系统:描述视讯和音频数据流的控制、同步以及混合方式(即混流 Multiplexing,简写为MUX)。
第二部分(ISO/IEC 14496-2):视讯:定义了一个对各种视觉讯息(包括自然视讯、静止纹理、计算机合成图形等等)的编译码器。(例如XviD编码就属于MPEG-4 Part2)
第三部分(ISO/IEC 14496-3):音讯:定义了一个对各种音频讯号进行编码的编译码器的集合。包括高阶音频编码(AdvancedAudio Coding,缩写为AAC)的若干变形和其他一些音频/语音编码工具。
第四部分(ISO/IEC 14496-4):一致性:定义了对本标准其他的部分进行一致性测试的程序。
第五部分(ISO/IEC 14496-5):参考软件:提供了用于演示功能和说明本标准其他部分功能的软件。
第六部分(ISO/IEC 14496-6):多媒体传输整合框架(DMIF for Delivery Multimedia IntegrationFramework)
第七部分(ISO/IEC 14496-7):优化的参考软件:提供了对实作进行优化的例子(这里的实作指的是第五部分)。
第八部分(ISO/IEC 14496-8):在IP网络上传输:定义了在IP网络上传输MPEG-4内容的方式。
第九部分(ISO/IEC 14496-9):参考硬件:提供了用于演示怎样在硬件上实作本标准其他部分功能的硬件设计方案。
第十部分(ISO/IEC 14496-10):进阶视讯编码或称高阶视讯编码(Advanced Video Coding,缩写为AVC):定义了一个视讯编译码器(codec)。AVC和XviD都属于MPEG-4编码,但由于AVC属于MPEG-4 Part10,在技术特性上比属于MPEG-4Part2的XviD要先进。另外,它和ITU-T H.264标准是一致的,故又称为H.264。
第十二部分(ISO/IEC 14496-12):基于ISO的媒体文件格式:定义了一个储存媒体内容的文件格式。
第十三部分(ISO/IEC 14496-13):知识产权管理和保护(IPMP for Intellectual Property Management andProtection)拓展。
第十四部分(ISO/IEC 14496-14):MPEG-4文件格式:定义了基于第十二部分的用于储存MPEG-4内容的视讯文件格式。
第十五部分(ISO/IEC 14496-15):AVC文件格式:定义了基于第十二部分的用于储存第十部分的视讯内容的文件格式。
第十六部分(ISO/IEC 14496-16):动画框架扩充功能(AFX : Animation Framework eXtension)。
第十七部分(ISO/IEC 14496-17):同步文字字幕格式。
第十八部分(ISO/IEC 14496-18):字型压缩和串流传输(针对开放字型格式 Open Font Format)。
第十九部分(ISO/IEC 14496-19):合成材质流(Synthesized Texture Stream)。
第二十部分(ISO/IEC 14496-20):简单场景表示(LASeR for Lightweight Scene Representation)。
第二十一部分(ISO/IEC 14496-21):用于描绘(Rendering)的MPEG-J拓展。
第二十二部分(ISO/IEC 14496-22):开放字型格式(Open Font Format)。
第二十三部分(ISO/IEC 14496-23):符号化音乐表示(Symbolic Music Representation)。
第二十四部分(ISO/IEC 14496-24):音频与系统互动作用(Audio and systems interaction)。
第二十五部分(ISO/IEC 14496-25):3D图形压缩模型(3D GraphicsCompression Model)。
第二十六部分(ISO/IEC 14496-26):音讯一致性检查:定义了测试音频数据与ISO/IEC 14496-3是否一致的方法(Audioconformance)。
第二十七部分(ISO/IEC 14496-27):3D图形一致性检查:定义了测试3D图形数据与ISO/IEC14496-11:2005, ISO/IEC 14496-16:2006, ISO/IEC 14496-21:2006, 和 ISO/IEC14496-25:2009是否一致的方法(3D Graphicsconformance)。
Profiles是在每个部分内定义的,所以对某个部分的一个实作通常不是对该部分的完整实作。
MPEG-1、MPEG-2、MPEG-7和MPEG-21是由MPEG制定的其他MPEG标准。
(1)对于不同的对象可采用不同的编码算法,从而进一步提高压缩效率;
(2)对象各自相对独立,提高了多媒体数据的可重用性;
(3)允许用户对单个的对象操作,提供前所未有的交互性;
(4)允许在不同的对象之间灵活分配码率,对重要的对象可分配较多的字节,对次要的对象可分配较少的字节,从而能在低码率下获得较好的效果;
(5)可以方便的集成自然音视频对象和合成音视频对象。
MPEG-4码流主要包括基本码流和系统流,基本码流包括音视频和场景描述的编码流表示,每个基本码流只包含一种数据类型,并通过各自的解码器解码。系统流则指定了根据编码视听信息和相关场景描述信息产生交互方式的方法,并描述其交互通信系统。
系统
MPEG-4系统把音视频对象及其组合复用成一个场景,提供与场景互相作用的工具,使用户具有交互能力。MPEG-4的数据在3个层中进行传输,这3层分别是压缩层、同步层和传输层。其中,压缩层是执行媒体解码的系统组件,接收从同步层传来的压缩数据,并完成解码操作。同步层负责各个压缩媒体的同步和缓冲,一方面接收来自传输层的同步层数据包(SL),从流中提取同步数据,为以后的同步解码和基本流解码的合成做准备;另一方面,实现压缩的数据流和同步信息封装层的同步数据包,并将它们传输到传输层。传输层完成各种传输协议的描述,使用DMIF应用接口,通过接口定义数据流的传输接口,并定义信道建立和断开的信号。MPEG-4的系统终端模型如图1所示。
音频
与MPEG-1、MPEG-2相比,MPEG-4不仅支持自然声音(如语音和音乐),还支持合成声音(如MIDI)。MPEG-4音频部分将音频的合成编码和自然声音的编码相结合,并支持音频的对象特征。
MPEG-4研究比较了现有的各种音频编码算法,支持2~64kbit/s的自然声音编码。如8kHz采样频率的2~4kbit/s的语音编码,以及8kHz或16kHz采样频率4~16kbit/s的语音编码,一般采用参数编码;而6~24kbit/s的语音编码,一般采用码激励线性预测(CELP,CodeExcitedLinearPredictive)编码技术;而16kbit/s以上码率的编码.则采用视频变换编码技术。这些技术实质上借鉴了G723、G728以及MPEG-1和MPEG-2等。图2给出了MPEG-4音频支持2~64kbit/s信道语音编码范围。
MPEG-4引入两个有力的编码技术:文本到语音编码(TTS,Text-to-Speech)和乐谱驱动合成语音编码。事实上,合成语音编码技术是一种基于知识库的参数编码技术。乐谱驱动合成技术中,解码器由一种特殊的合成语言—结构化音频管弦乐团语言(SAQL,StructuredAudioOrchestraLanguage)驱动。“管弦乐团”由不同“乐器”组成,解码器不具有某“乐器”时,MPEG-4还允许解码器从编码器下载该“乐器”以恢复合成声音。
视频
MPEG-4支持对自然和合成视觉对象的编码。合成视觉对象包括2D、3D动画和人面部表情动画等。对于静止图像,MPEG-4采用零树小波算法,以提高压缩比,同时还提供多达11级的空间分辨率和质量的可伸缩性。对于运动视频对象的编码,MPEG-4的编码结构如图3所示,包括形状编码、运动补偿和文理编码。其中的主要技术是运动估计补偿、DCT变换和混合的DPCM等。
由于MPEG-4是一个公开的平台,各公司、机构均可以根据MPEG-4标准开发不同的制式,因此市场上出现了很多基于MPEG-4技术的视讯格式,例如WMV 9、Quick Time、DivX、Xvid等。MPEG-4大部份功能都留待开发者决定采用是否。这意味着整个格式的功能不一定被某个程序所完全函括。因此,这个格式有所谓配置(profile)及级别(level),定义了MPEG-4应用于不同平台时的功能集合。