MPEG

1　引言

在过去的20年中,音频和视频的业务经历了迅速的变化。第一个会议电视系统(ＩＴＵ-ＴＨ.120建议)在80年代初出现,而与此同时, PhilIPs和Sony为大众市场成功地开发了一个系统(数字激光唱盘),能够存储70分钟的立体声(以16 bit, 44.1 kHz取样,总比特率为1.41 Mbps)。

80年代末,数字激光唱盘作为一种传播媒体,成功地促进了系统的发展(相匹配的还有视频和音频压缩的发展),能够在数字激光唱盘上存储活动图象和音频,完成这个目标的标准是MPEG-1,接着是MPEG-2,而后者确定了能够把现存的模拟电视系统转换为数字系统的技术。这推动了通过卫星和有线电视(以及很快将通过地面广播的ＵＨＦ网络),广播多套电视节目系统的发展。

一种最新的发展则由DVD提供,虽然其成果令人遗憾地还需要观察一段。这种激光视盘看起来很像数字激光唱盘,但具有更大的容量,能够提供2个多小时的节目,比特率为3　Mbps。这样,就能够提供一种非常有效的方式,与当前的VHS盒式磁带相比,存储质量更高的MPEG-2数据流。

在90年代初期,一种曾在计算机科学环境下开发了近30年的网络技术,现称之为因特网协议(IP, Internet Protocol)变得非常成熟,而且开始跳出学术环境之外进行扩散。一种信息表达标准的定义语言超文本标记语言(ＨＴＭＬ),促进了其解码器的发展,而后者目前称之为万维网浏览器(web browser)。这使得远距离接入(remote access)万维网成为可能。而原来只包含文本和静止图象的信息网页,目前正在被Java程序所丰富,通过各种软插件(ｐｌｕｇ-ｉｎｓ),提供了与其他媒体(例如MPEG-1文件)的接口。其次,已经开发出许多应用系统,能够使ＰＣ接入一个服务器,包含实时的音频和可视的(visual)数据;或者接入一个服务器,通过所谓的IP多重广播(IP Multicast),来播放实时的音频和视频。目前,一方面,以被动方式的消费类音频和视频之传统方式仍在继续,并由MPEG-2标准得到增强;而另一方面,当前无所不在的因特网能够提供用户与信息内容的交互性。令人遗憾的是,后者只能在一个封闭的环境内(内联网,Ｉｎｔｒａｎｅｔ)以满意的方式进行。一般说来,各种音频/可视的业务只能在低比特率下进行,或者在引入某个时延(它是在重放某个文件之前,需要下载该文件所造成的)后进行。

这样,制约更快地发展各种交互式音频/可视的业务的最重要因素,是由接入网络所造成的带宽限制。对基础设施彻底改造之前,用户采用一个调制解调器通过电话线与程控交换机连接,比特率达几十Kbps。如果采用ISDN,比特率可达128Kbps。有线电视的调制解调器可以提供更高的比特率,但这种信息必须与其他用户共享。在以上所有的情形中,能够传输的各种活动图象和音频可能仅对计算机迷有兴趣,但不会提供任何类似今日之模拟广播系统的图象,或者任何类似由数字广播系统提供的基于MPEG-2的清晰图象。

当然,问题是是否有廉价方法,向电话用户们提供更高的比特率,其目的仅仅是以某种交互方式使他们能够观看卫星电视、有线电视、地面广播(或DVD)及在今后几个月或几年里将要广播的完全类似的成百成千套节目。

大多数人对这个问题的回答是否定的,而本文作者就是其中之一。如果当前已有万维网成功的范例,即用户通过对各种热点点击而可以与信息内容实现交互的能力,能够扩充到其他类型的信息(特别是音频和视频),那么也许可以提供经济廉价的方案。

MPEG-2究竟曾是为什么设计的,是不需要议论的,因为,MPEG-2实际上对电视广播的非常清楚的事业情况提供了优秀的答案。而MPEG-4究竟是为什么设计的,是需要讨论的。

2　MPEG-4的基本原理

如果想把当前万维网技术扩展到音频和视频,那么必须走出今日MPEG-1和MPEG-2正在做的范围以外。在这两个标准中,图象是矩形象素阵列的序列。大家知道,通过不同分层的处理,某个图象可以包含一个站着的女士、一个桌子、一个地球仪、一个在其上有多媒体演示的“电子白板”等等,但是对于编码算法而言,活动图象除了是一个象素的矩形矩阵序列外,并不是什么别的东西。与此相似,音频分量可以看成是一个单声道或多声道的声音;然而,仅仅由于高层次的处理,人们能够从背景音乐中或者从“电子白板”上展示的与多媒体演示的伴音中,分辨出女士的说话声。

换句话说,编码算法必须进入各种不同对象(组合成一个情景的音频和视频)的语义含义。站着的女士、桌子、地球仪、“电子白板”、女士的说话声、背景音乐、多媒体演示的伴音等,这些对象都必须独立编码。除此以外,与今天的电视不同,对每个对象进行编码是不充分的,还必须对这些对象如何组合成一个完整的情景进行编码。MPEG-4提供了对音频对象、视频对象、情景描述以及与发送系统的接口进行编码的标准方法。由于音频和视频对象不得不在解码器一端进行组合,它们不限于自然的来源,也可以是人工合成的来源。

一般情况下,一个或几个发送系统可以携带不同的数据流,而每种数据流可以包含一个或几个对象。因此,必须首先对它们进行解复用,然后把它们移交给相应的解码器。组合信息用于把音频/可视的对象放到三维空间中的适当位置,然后把可视的信息投影到一个平面,并对音频信息设置一组接入点。一般说来,用户的交互作用将产生一个上行链路的数据比特流。

3　MPEG-4标准的各个部分

3.1 发送的多媒体综合框架(DMIF)

发送的多媒体综合框架(DMIF, Delivery Multi-media Integration Framework)的结构,使各种应用摆脱了与其下方所示的通信方法

图1　MPEG-4的DMIF功能的各种关系

在应用上,DMIF提出一种标准接口,不管各种MPEG-4数据流究竟是由一个遥控的交互式DMIF搜索各种网络进行交互而接收到的,还是/或者通过与广播或本地存储媒体进行交互而接收到的。MPEG-4的应用可以从DMIF请求而建立具有特定服务质量(QoS)的频道,以及用于每个基本数据流的带宽。DMIF可以保证适时地建立具有各种特定带宽的频道,并同时保证QoS。DMIF允许每次搜索维持其自己的网络领域,这样就能降低每个终端处的堆栈数。

3.2　数据平面

MPEG-4中的数据平面可以划分为两部分:与传输有关和与媒体有关两部分(图2)。

图2　MPEG-4中的数据平面

图中的下部(TransMux, Transport Multiplexing,传送复用)从信息实际传送的方式并不由MPEG-4叙述这个意义来说,已经超出MPEG-4标准的管辖范围。仅仅是这个分层的接口是由MPEG-4所规定。在适当的链接层中,任何适当的现存的传送协议堆栈,例如,ＲＴＰ/ＵＤＰ/IP,MPEG-2ＴＳ,ＡＡＬ5/ＡＴＭ,Ｈ223或ＤＡＢｍｕｘ等都可以采用。DMIF用于协商所请求的QoS。属于同一应用中不同MPEG-4对象,可以通过不同的发送机制到达终端,音频和视频可以采用具有各种实时特性的一种传送,而静止图象采用另一种传送。这留给终端用户/业务提供者进行选择,并允许MPEG-4在较宽的运行环境范围中使用。

灵活复用(FlexMux,FlexMult IPlexing)提供一种复用过程的工具,允许基本数据流(ＥＳ,ＥｌｅｍｅｎｔａｒｙＳｔｒｅａｍ)以较小的额外开销进行汇合。例如,它可以用于以低比特率把具有相同的QoS的需求或相同的数据流进行汇合(有可能不是很有效地利用传输资源)。是否使用FlexMux复用工具可以任选,如果下部的TransMux提供相同的功能时,这个分层可以旁路掉。

接入单元分层(ＡＵＬ,ＡｃｃｅｓｓＵｎｉｔＬａｙｅｒ)总是出现的,它可以识别基本数据流中的接入单元(即视频和音频的数据帧、各种情景描述命令),恢复AV对象或情景描述的时间基准,以实现它们之间的同步。接入单元的信头能够以极大量的方式来设置,以便在各种系统的广泛频谱中使用。

为了在一个情景中把基本数据流与音频/可视的对象(AVO, Audio-Visual Objects)相联系,使用各种对象描述符和各种数据流映射表。对象描述符传递与各种特定AVＯ伴随的基本数据流的数目和特性的信息。数据流映射表把每个数据流链接到一个信道联系标记,用于管理携带此数据流的信道。把各种信道联系标记分解到实际的传送信道,以及各种对话和各种信道的管理,都是由MPEG-4标准的DMIF部分来提出的。

3.3缓存器的管理和定时信息的识别

MPEG-4定义一个系统解码器模型,描述一个理想解码设备的性能,还有数据流的语法和语义。这就给出了终端运行的准确定义,

不需要对设施的各种细节作不必要的各种假定,目的是使实施者可以自由地以各种方式设计各种MPEG-4终端和解码设备。缓存器和各种定时信息模型的技术规范,对编码设备极为重要,因为事先可能不知道终端设备是什么,或者它们怎样来接收该编码的数据流。

当解码器对构成一次MPEG-4对话的各类基本数据流进行解码时,预报解码器将如何工作,系统解码器模型使得编码器可以设定和监视对一次对话所需的最小缓存器资源。所需的缓存器资源是当建立MPEG-4对话时,将在各种对象描述符内传递到解码器,因而解码器可以决定是否能够处理这次对话。

通过管理有限数量的缓存器的空间,该模型允许一个发送器事先转移非实时的数据,只要在接收机端具有足够的空间来存储它们。然后这些预先存储的数据在需要时就可以接入,使得实时信息可以使用更大量的信道容量(图3)。

图3　系统解码器的缓存器体系结构

为实时运行,设定了一个终端到终端的定时模型,其中从编码器输出的信号到解码器输入的信号之间的时延为常数。而且,传输的数据流必须包含隐式或显式的定时信息。共有两类定时信息:第一类用于把编码器时钟或时间基准的速率传递到解码器。而由依附于各部分的编码AV数据之时间标记组成第二类,其中包含用于各个“接入单元”所需的解码时间,或者用于各个组合单元的组合时间和截止时间。这些信息是在接入单元分层中生成的各种协议数据单元(AL-PDU)信头中传递。依靠这些定时信息,图象帧之间的间隔和音频取样率为了同步操作的目的,可以在解码器中进行调节,以匹配编码器的图象帧之间的间隔和音频取样率。

3.4 音频编码

MPEG-4对自然音频的编码制定了标准,其比特率为2～64Kbps(图4)。

图4　MPEG-4自然音频编(范围2～64Kbps)

在2～64Kbps比特率范围内,MPEG-4标准以一组工具的方式,规范了数据流的语法和各种解码过程。为了在整个比特率范围内获得最高的音频质量,并同时提供各种额外的功能,定义了三种类型的编码器。最低的比特率范围,即用2～4Kbps传输8ｋ Hz取样频率的语音,用4～16Kbps传输8ｋ Hz或16ｋ Hz取样频率的音频,均采用各种参量编码技术。而4～16Kbps之间的中等比特率的语音编码,采用各种码字激励线性预测(CELP)的编码技术。在这个领域内,采用8ｋ Hz和16ｋ Hz两种取样频率来分别支持窄带和宽带的语音。从低于16Kbps开始,应用两种时间域至空间域(Ｔ/Ｆ)的编码技术,也即双ＶＱ和自适应音频编码(ＡＡＣ)编解码器。在这个领域内的音频信号一般采用8ｋ Hz以上的取样频率。在MPEG-4工具集内MPEG-2ＡＡＣ标准的出现,提供高比特率中音频的一般压缩方法。

解码器还可以产生基于有结构的各种输入的声音。文本的输入可以在文本至语音(TTS)解码器中转换为语音,并规范地合成为一般的声音(包括音乐)。合成的声音可以以极低的比特率发送,并且仍然能够描述一个准确的声音信号。

文本至语音允许一个文本或具有各种韵律学参数(如音强包络线、音素持续时间等)的文本作为输入,来生成可以听懂的合成语音。它包括下述各种功能:

·采用原始语音的韵律学之语音合成;

·具有音素信息的人脸动画的控制;

·特技模式的功能:暂停、重新开始、向前跳/向后跳;

·文本支持多国语种;·各种音素支持国际符号;

·支持对于说话人的年龄、性别、语种和方言进行技术描述。

乐谱驱动的合成允许一个结构化音频解码器对输入数据进行解码,输出各种声音。解码过程是由一种特殊的合成语言所驱动,称为结构化音频交响乐语言(ＳＡＯＬ)(已作为MPEG-4标准的一部分)。这种语言用于定义一个由各种乐器(从数据流中下载,在终端中不是固定的)组成的交响乐,它建立并处理各种控制数据。一个乐器仅仅是各种信号处理基元的一个小网络,能够仿真某些特殊的声音,例如一个自然的声乐乐器产生的那些声音。该信号处理网络可以用硬件或软件来实施,并且包括各种声音的产生和处理,以及各种预先存储的声音的操纵。

合成的控制是由下载数据流中的各种乐谱和剧本来完成的。乐谱是各种命令的一个时间序列的集合,它引起各种不同的乐器在各种特定的时刻对整个音乐演出贡献其输出,或者生成各种声音效果。以一种称为结构化音频乐谱语言(ＳＡＳＬ)而下载的乐谱描述,用于创建各种新的声音,并且包括用于修改现存声音的附加控制信息。这就允许作曲者更精细地控制最后的合成声音。对于那些不需要这种精细控制的各种合成过程,已经确立的MIDI协议也可以用于控制这个交响乐。

3.5 可视信息的编码

MPEG-4标准的可视信息部分提供一个包含各种工具和算法的工具箱,对于下述各项提供解决方案:

·各种图片和视频的高效率压缩;

·在2D和3D网格上进行纹理映射的各种纹理的高效率压缩;

·各种隐式2D网格的高效率压缩;

·各种网格动画的时变几何学的各种数据流的高效率压缩;

·到所有类型的可视对象之高效随机接入;

·扩充各种图片和视频序列的操纵功能;

·各种图片和视频的信息内容基编码;

·各种纹理、图片和视频的信息之内容基的可分级性(Scalability);

·空间域的、时间域的和质量的可分级性;

·在易于产生误码的各种环境中之误码健壮性和修复能力。

合成节目源的可视信息之编码包括:

·人脸及相应的各种动画数据流之参数描述;

·对纹理映射的静态的和动态的网格编码;

·依赖观看的纹理编码的各种应用。

人脸是一个对象,能够用人脸的几何学,作演示和动画。人脸的形状、纹理和各种表情通常可以由包含各种情况之人脸定义参数(FDP)的集合和/或人脸动画参数(FAP)的集合的数据流来控制。人脸对象包含一个具有中性表情的通用人脸。这种人脸已经可以演示,但还可以从数据流中接收到各种FAP,而后者将生成人脸的动画:各种表情、语音等。如果接收到各种FDP,它们将把通用的人脸变换为由其形状和纹理(任选)确定的特定人脸。可任选的是:一个完整的人脸模型可以下载FDP集合,作为一个情景图解而插入人脸的结点。

2D网格是在一个2D区域内分割成许多多边形小片。多边形的顶点即网格的结点。MPEG-4只考虑三角形结点,其中每个小片都是三角形。2D动态网格涉及在时间间隔内所有网格结点的2D网格几何学和运动信息(图5)。

图5　“Akiyo”视频对象的2D网格模型

在2D网格的纹理映射中,当前图象帧中的三角形小片由各个结点的运动,形变为参考图象帧中的三角形小片,而参考图象帧中的每个小片都采用一个参数映射(定义为各个结点运动矢量的某个函数)扭曲(ｗａｒｐ)到当前图象帧。对三角形网格,通常采用仿射映射。仿射映射可以对平移、旋转、缩放和剪切提供模型,并且保存直线。由一个三角形的顶点之3个运动矢量给出的自由度,与仿射映射的6个参数相匹配。这表明原来的2D运动场可以紧凑地用各个结点的运动来表示,由此可以构造一个连续的按小片方式的仿射运动场。同时,网格结构还约束了邻近各种图象小片的运动。所以各种网格非常适合轻度形变的但空间域连续的各种运动场。

通用的3D网格支持用于把各种自然纹理、图片和视频等映射到各种网格的种种特性,例如色彩,用于阴影的法线及各种纹理坐标。MPEG-4提供一个工具盒,用于:

·各种通用网格的有效压缩;

·(细节的等级)3D网格的可分级性;

·空间域的可分级性。

依赖于观看的可分级性可以对各种纹理图案编码为数据流,它们用于可实现的各种虚拟环境。这包括考虑到在3D虚拟世界中的观看位置,目的是只传输可视信息。这些信息中只有一小部分进行发送,它们取决于对象的几何学和观看点的位移。这部分信息既在编码器中计算,也在解码器中计算。该方法只要反向信道可以使用,将显著降低一个遥远的数据库与用户间所传输的信息量。

自然图片和视频的编码是由很多编码工具来完成,由此给出任意形状的各种可视对象的高效率表达式。它也支持MPEG-1和MPEG-2提供的多数功能,其中包括按照不同等级的输入图象格式、帧频、象素灰度值和比特率,以及按照不同等级的空间域、时间域和质量的可分级性,高效压缩各种标准矩形尺寸的图象序列的有关规定。

MPEG-4可视方面标准目前提供了应用于自然图片和视频各种比特率和功能的基本分类(图6),其企图是为把各种比特率的等级对比各种功能的集合,聚集到一起。

图6　MPEG-4图片和视频的编码工具分类

左下方的低比特率视频(VLBV核)提供运行在典型值为5～64Kbps之间的各种应用工具,它们支持具有低空间分辨率(典型值最高为ＣＩＦ分辨率)和低帧频(典型值最高为15 Hz)的图象序列。

相同的各种基本功能在较高的比特率及更宽范围的空间域和时间域的输入参数(最高为ＩＴＵ-Ｒ601的各种分辨率)也都得到支持,采用VLBV核相同和相似的各种算法和工具。比特率涉及的范围典型值从64Kbps～4Mbps,而涉及的范围包括各种信号的广播或交互式的重放,其质量可与数字电视相比拟。对这些较高的比特率在MPEG-4中已经对隔行扫描信号进行编码的各种工具制定了技术规范。

基于信息内容的各种功能可支持各种视频对象的独立的编码和解码过程。MPEG-4提供了交互性的最基本机制,对图片或视频的ＶＯ内容在压缩过程中进行灵活的表达和操纵,不需在接收端进行进一步的分割或者转换编码。

各种可视的纹理和静止图片的高效编码,是由可视的纹理模式来支持。这是基于零树的小波算法,在非常宽的比特率范围内提高编码效率。在高效编码压缩的同时,还提供空间域和质量的可分级性(高达11个等级的空间域可分级性及连续的质量可分级性),还有对任意形状的对象的编码。

MPEG-4支持各种图片和视频对象编码的具有空间域和时间域可分级性,既对常规的矩形,也对任意形状。可分级性是指对某个数据流中的一部分矩形解码,而重建各种图片或各种图象序列的能力,并且:

·降低解码器的复杂性,因而降低质量;

·降低空间域分辨率;

·降低时间域分辨率;

·具有相同的时间域和空间域分辨率,但降低质量。

MPEG-4提供传输误码的健壮性和修复能力,以便在很宽范围存储和传输媒体内接入图片或视频信息。特别是由于各种移动通信的迅速增长,能够通过各种无线网络接入音频和视频信息,是极为重要的。这就是指在各种误码严重的环境中以低比特率(例如小于64Kbps)能够有效运行各种音频和视频算法的需求。

3.6 情景描述

MPEG-4提供把一组对象组合为一个情景的各种工具,而必须的组合信息构成情景描述。它采用二进制情景描述(BIFS)以二进制的形式表示,而且它已被编码,并与各种AV对象一起传输。

为了方便各种创作过程、控制和交互工具的开发,各种情景描述都是独立于有关原始AV对象而进行编码。对情景描述的各种参数的识别,采取了特殊措施。这是通过下述方式来完成的:把改善一个对象的编码效率所采用的各种参数(例如各种视频编码算法中的运动矢量)与用作一个对象的各种修饰语的各种参数(例如该对象在情景中的位置)区别开来。

下面给出了在一个情景描述中描述的信息的一些例子。

各种对象如何聚集到一起:一个MPEG-4情景遵从某种分层结构,它可以用一个单向的非循环的图解来表达。其中的每个结点是一个AV对象(图7)。该树形结构不一定是静态的:各结点的属性(例如定位的各种参数)可以更改,而且各种结点可以增加、替代或挪走。

图7　情景的逻辑结构

各种对象在空间域和时间域中进行定位:在MPEG-4模型中,各种音频/可视的对象都具有空间域和时间域的范围,每个AV对象都有一个本地坐标系统,在该坐标系统中,对象有一个固定的空间域/时间域的位置和尺度。本地坐标系统可作为一种工具,用于在空间域和时间域中操纵AV对象。通过指定一个坐标变换,把对象的本地坐标变换到一个整体的坐标系统(由情景描述树形结构中的一个以上的上级结点来定义),各AV对象可以在某个情景中定位。

属性数值的选取:每个AV对象和情景描述结点对组合分层提出一组参数,通过它们可以控制其部分行为。如声音的音调,一个合成对象的色彩,可分级编码的增强信息的激活和反激活等。

作用于Ｈｚ的其他变换:情景描述的结构以及结点的各种语义受到虚拟现实建模语言(VRML)(还包括其事件模型)的深刻影响。这向MPEG-4提供一组非常丰富的情景构造运算符,其中还包括可以构造各种复杂情景的各种图形基元。

4 MPEG-4的版本安排

由上面可见,MPEG-4是一个标准,它提供了多媒体领域内所有参与者可以使用的大量工具。由于工具盒的完整性对于一个成功的标准是重要因素,因此它也是及时的。

因此,MPEG已决定将MPEG-4以不同的版本来开发。各版本对MPEG-4的工具集有重要的增加或改善,而不是次要的变更或增加。第1版将对上面介绍的所有元素作完整的技术规定,而第2版将使该标准支持很多新的功能。对第2版要增加的最重要的工具(日程安排到1999年底,达到国际标准的水准)将在下面介绍。

4.1 知识产权的管理和保护(IPMP)

MPEG-4第1版仅仅提供了鉴别知识产权(方法是利用国际标准的号码,如ISAN,ISRC等)的可能性,而第2版将讨论知识产权的管理和保护。

MPEG-4第2版将对(非规范性的)IP管理和保护系统(IPMPＳ)提供挂钩,以便在用户、IP提供者和/或版权持有者之间提供在线和离线的各种交易。IPMPＳ提供的各种功能中有:

·基于由IP提供者定义的判据,对知识产权进行条件接入;

·有知识产权的节目源的授权以及知识产权的完整性的检验;

·鉴别并在可能时阻止非法的复制;

·审计跟踪。

由于IPMP技术正在迅速变化,今天认为适当的各种方法,以后可能不是合适的。为了向用户们提供持久的答案,MPEG-4不对IPMPＳ进行标准化,而这将方便各种外部方案的接入。通过对各种IPMPＳ接口的定义,实现这种方便。

4.2 MPEG-4文件格式

MPEG-4文件格式(M4F)设计为以一种灵活而可扩充的格式来包含一个MPEG-4演示的媒体信息。这将方便媒体的相互转换、管理、编辑和演示。这种演示对于包含该演示系统可以是本地的也可以是通过一个网络或者其他数据流发送机制(TransMux)。

文件格式设计为独立于任何特定的ＴｒａｎｓＭｕｘ,而同时能够普遍地各种高效地支持TransMux。

该格式更具体的技术特性设计充分考虑了下述各种目标:

·TransMux的独立性。MPEG-4设计为主要以数据流的形式进行发送。然而,已经认识到的各类协议和各类数据流底层将用于携带该数据流。所以,文件格式设计为支持各类TransMux。

·TransMux的支持。重要的是,文件格式能够高效地支持各种TransMux。在选取一个特定的TransMux来发送某个数据流的过程必须在空间域和时间域两方面都是比较高效的。

·基本数据流的管理。MPEG-4的各种演示都是由不同类型的大量基本数据流所组成,在形成一个演示的过程(编辑过程)中,必须做到各种新的数据流可以相对地无痛苦地增加或删减,更进一步在整体安排完成前,不必对整个演示进行重新复用。巧妙地处理各种这类混合演示的能力,是一种强有力的工具。

·可扩展性。由于各种文件格式具有长寿命,它们必须支持某种方式的扩展:既非破坏性,又能够讲清楚哪些是基本的,哪些是扩展的,因而能够对这些数据场进行定位并略去它们。

·交换的格式。即使信息内容的发送是通过数据流传输,重要的是,这些文件本身适合以非数据流传输的格式(磁带、CD-ROM、DVD等)对信息素材进行交换和出版。这将使得某个社会大量采用该格式,并且共同发展信息内容,而信息内容可以以最广泛的可能方式被使用。

·可分级。在很多领域中可分级性:各种协议能够从媒体数据中支持可分级的选择(如为了配合各种频带宽度的限制),基本数据流也可以是可分级的,或希望它采用各种不同的编码方法,以便在某个演示(如配合某个频带宽

度)内的不同需求,而且各种演示能够覆盖很宽范围的各种尺寸、复杂性和各种比特率。

·随机接入。在数据流传送、本地观看和编辑过程中,文件读取系统应该能够有进入该演示的定时索引,并且能够找到如何从某个时刻以数据流形式传输或演示。

·同步,无解码,定位,IPＲ。为了支持编辑过程以及信息内容的一般管理,对文件格式不一定要进行解码。文件中的重要结构应该可以通过简单的步骤接入,而不涉及搜索或解码过程。而在演示过程中,基本数据流的数据必须以某种同步的方式进行演出或管理(这对于任何时基系统都是基本的)。

MPEG-J的主要目的是为了支持各种应用程序的发送和执行,因为这些程序一般将影响到演出者的行为、情景以及信息内容的编排过程。为了这个目标,将定义与某个MPEG-4演出者的不同分量的应用程序接口(ＡＰＩ)。其次,MPEG-J将描述各种应用程序的发送,采用标准的MPEG-4的基本数据流发送机制。除将各种应用程序发送到MPEG-4演出者以外,也可采用相同的各种ＡＰＩ以本地的各种应用程序对演出者进行设置。将采用Java作MPEG-J各种应用程序的语言设计。

物体是一种对象,它能够以一组3D多边形网格的形式(已可重放)产生各种虚拟物体模型和动画。对于物体将定义两组参数,物体定义参数集(BDP)和物体动画参数集(BAP)。BDP集定义某组参数,把某个约定的物体用其物体表面、物体尺寸以及(任选的)其纹理,变换到某个定制的物体。而BAP如果正确解释的话,将对不同的物体模型以物体姿态和动画的形式,合理地产生相似的特殊效果,而不需要初始化或标定该模型。

在构造时,该物体对象包含一个具有约定姿态的通用虚拟人体。这个物体已经可以重放,它也可以立即从数据流中接收各个BAP,以产生物体的动画。如果接收到各个BDP,那么它们把通用物体变换为某个特定物体(取决于各种参数的内容)。

这些新工具将允许MPEG-4情景的各种声学特性的参数化(如某个已装饰的房间或音乐厅的3D模型),由BIFS的各种情景描述工具来建立。这些特性有,如房间的混响时间,声音的速率,边界材料的特性(反射、传输)以及声源的方向性。采用这些情景描述参数可以得到很多新的功能,其中包括高级的和渗透的音频/可视的重放过程,详细的房间声学模型设计,以及增强的3D声音演示。

MPEG-4第1版将在1998年12月完成国际标准的状态。这个标准将成为多媒体成功的一个关键因素,因为它将提供一组技术,以满足作者和业务提供者,以及终端用户的各种需求。

对作者而言,MPEG-4将使信息内容的生产具有更强的重复使用性,更多的灵活性(与今天的技术相比,如数字电视、计算机动画、万维网网页及其扩展)。此外,它还能够更好地管理和保护各个信息内容拥有者的权利。

对网络业务提供者而言,MPEG-4将提供透明的信息,将被解释和翻译为某个网络的相应的各自本身的信令消息,而传输的消息将直接伴随着QoS的各种请求。

对终端用户而言,MPEG-4将提供很多新功能以及与信息内容进行各种高级交互能力。