更新时间:2024-10-23 08:31
多媒体技术借助日益普及的高速信息网,可实现计算机的全球联网和信息资源共享,因此被广泛应用在咨询服务、图书、教育、通信、军事、金融、医疗等诸多行业,并正潜移默化地改变着我们生活的面貌。
多媒体技术是使用计算机交互式综合技术和数字通信网络技术处理多种表示媒体——文本、图形、图像、视频和声音,使多种信息建立逻辑连接,集成为一个交互式系统。
它主要涉及如下几个部分:
数据压缩,图像处理
它包括HCI与交互介面设计、多模态转换、压缩与编码和虚拟现实等。
音频信息处理:它包括音乐合成、特定人与非特定人的语音识别、文字——语音的相互转换等。
多媒体数据库和基于内容检索
它包括多媒体数据库和基于多媒体数据库的检索等。
多媒体著作工具
它包括多媒体同步、超媒体和超文本等。
多媒体通信与分布式多媒体
它包括CSCW、会议系统、VOD和系统设计等。
多媒体应用
多媒体技术的开发和应用,使人类社会工作和生活的方方面面都沐浴着它所带来的阳光,新技术所带来的新感觉、新体验是以往任何时候都无法想象的。
数据压缩,图像处理的应用
多媒体计算机技术是面向三维图形、环绕立体声和彩色全屏幕运动画面的处理技术。而数字计算机面临的是数值、文字、语言、音乐、图形、动画、图像、视频等多种媒体的问题,它承载着由模拟量转化成数字量信息的吞吐、存储和传输。数字化了的视频和音频信号的数量之大是非常惊人的,它给存储器的存储容量、通信干线的信道传输率以及计算机的速度都增加了极大的压力,解决这一问题,单纯用扩大存储器容量、增加通信干线的传输率的办法是不现实的。数据压缩技术为图像、视频和音频信号的压缩,文件存储和分布式利用,提高通信干线的传输效率等应用提供了一个行之有效的方法,同时使计算机实时处理音频、视频信息,以保证播放出高质量的视频、音频节目成为可能。国际标准化协会,国际电子学委员会,国际电信协会等国际组织,于二十世纪90年代领导制定了三个重要的有关视频图像压缩编码的国际标准,JPEG标准;H.261标准;MPEG标准。
JPEG
它是国际上彩色、灰度、静止图像的第一个国际标准,它不仅适于静态图像的压缩,电视图像序列的帧内图像的压缩编码,也常采用JPEG压缩标准。
261
它是视频图像压缩编码国际标准,主要用于视频电话和电视会议,可以以较好的质量来传输更复杂的图像。
MPEG
MPEG视频压缩技术是针对运动图像的数据压缩技术。目前又分为MPEG-I、MPEG-Ⅱ、MPEG-Ⅳ、MPEG-7和MPEG-21。
MPEG-I最初用于数字存储上活动图像及伴音的编码,数码率为1.5Mbit/s,图像采用SIF格式,两路立体声伴音的质量接近CD音质,到现在,MPEG-I压缩技术的应用已经相当成熟,广泛地应用在VCD制作,图像监控领域。
MPEG-Ⅱ是MPEG-I的扩充、丰富和完善。MPEG-Ⅱ的视频数据速率为4-5Mit/S,能提供720×480(NTSC)或720×576(PAL)分辨率的广播级质量的视像,适用于包括宽屏幕和高清晰度电视(HDTV)在内的高质量电视和广播。
随着网络、有线/无线通信系统的迅猛发展,交互式计算机和交互性电视技术的普遍应用,以及视频、音频数据综合服务等应用的发展趋势,对计算机多媒体数据压缩编码、解码技术及其遵循的标准提出更多更高的要求,有许多要求MPEG-I和MPEG-Ⅱ标准是难以支持的,因此MPEG-Ⅳ应运而生,它正是为解决这些高需求而推出的。
根据MPEG-Ⅳ开发的不同的压缩编码,我们可以分为如下几类:
●基于内容的多媒体数据访问工具:应用于从在线的程序库和传送信息的数据库中进行基于内容的信息检索。
●基于内容的处理和比特流编辑:应用于交互式家庭购物、影视的制作和编辑、数字特技。
●混合自然和人工数据编码:应用于动画和音响的自然组合,在游戏节目中观众可以移动和传送覆盖在要查看的视频之上的图形,从不同的观察点描绘图形和声音。
●改进的时间随机访问:应用于音像数据的远程终端随机访问。
●改进的编码效率:应用于低带宽信道上的有效音像数据存储和传送。
●多重并行数据流的编码:多媒体表演,如虚拟现实游戏,3维动画,训练和飞行模拟,多媒体演示和教育。
如今,越来越多的声像信息以数字形式存储和传输,这为人们更灵活地使用这些信息提供了可能性。但随之而来的问题是,随着网络上信息爆炸性的增长,获取到我们感兴趣的信息的难度却越来越大。传统的基于关键字或文件名的检索方法显然不适于数据量庞大、又不具有天然结构特征的声像数据,因此近些年来多媒体研究的一个热点是声像数据的基于内容的检索,例如“从这段新闻片中找出有首相、总统的镜头”这种形式的检索。实现这种基于内容检索的一个关键性的步骤是要定义一种描述声像信息内容的格式,而这与声像信息的存储形式(编码)又是密切相关的。国际标准化组织运动图像专家组注意到了这方面的需求和潜在的应用市场,在推出影响极大的MPEG—1、MPEG-2之后,尚未完成MPEG-4的最后定稿,便开始着手制定专门支持多媒体信息基于内容检索的编码方案:MPEG-7。
MPEG-7作为MPEG家族中的一个新成员,正式名称叫做“多媒体内容描述接口”,它将为各种类型的多媒体信息规定一种标准化的描述,这种描述与多媒体信息的内容本身一起,支持用户对其感兴趣的各种“资料”的快速、有效地检索。
以下一些应用领域将从MPEG-7标准的制定中获益:
●数字化图书馆(图像分类目录,音乐字典,…)
●多媒体目录服务
●广播式媒体选择(收音机频道,电视频道,…)
●多媒体编辑(个人电子新闻服务,媒体著作)还有一些潜在的应用领域:
●教育
●旅游信息
●娱乐(例如寻找游戏、卡拉OK节目)
●购物(例如寻找你喜欢的衣服)
MPEG-21的范围可以描述成是一个决定性(关键)技术的集成,这些技术可以通过访问全球网络和设备实现对多媒体资源的透明和增强的使用。其功能包括:内容创建、内容产品、内容发布、内容消耗和使用、内容表示、知识产权管理和保护、内容识别与描述、财政管理、用户的隐私权、终端和网络资源抽取、事件报告等。
音频信息处理的应用
在多媒体技术中,存储声音信息的文件格式主要有:WAV文件、VOC文件、MIDI文件、AIF文件、SON文件及RMI文件等。
音频信息录制编辑
把音乐和语音加到多媒体应用中,是我们研究音频处理技术的目的,下面是我们常用的音频信息录制编辑软件。
WaveEdit工具的REC命令;Sound Blaster卡的VEdit2软件;Microsoft SoundSystem卡的Quick Recorder软件;Cooledit软件;Wave Edit工具;Creative WaveStudio。
语音识别
语音的识别长久以来一直是人们的美好梦想,让计算机听懂人说话是发展人机语音通信和新一代智能计算机的主要目标。随着计算机的普及、越来越多的人在使用计算机,如何给不熟悉计算机的人提供一个友好的人机交互手段,是人们感兴趣的问题,而语音识别技术就是其中最自然的一种交流手段。
自从20世纪80年代中期以来,新技术的不断出现使语音识别有了实质性的进展。特别是隐马尔可夫模型(HMM)的研究和广泛应用,推动了语音识别的迅速发展,陆续出现了许多基于HMM模型的语音识别软什系统。
当前,语音识别领域的研究正方兴未艾。在这方面的新算法、新思想和新的应用系统不断涌现。同时,语音识别领域也正处在一个非常关键的时期,世界各国的研究人员正在向语音识别的最高层次应用——非特定人、大词汇量、连续语音的听写机系统的研究和实用化系统进行冲刺,可以乐观地说,人们所期望的语音识别技术实用化的梦想很快就会变成现实。
文语转换
世界上已研制出汉、英、日、法、德等语种的文语转换系统,并在许多领域得到了广泛应用。
DEC Talk文语转换系统:这是DEC公司在MIT的KLATT教授研制的语音合成器的基础上开发的语音生成系统,用于英语文语转换。
AT&T Bell文语转换系统:这是美国AT&T贝尔实验室研制的文语转换系统,它最初用于英语的文语转换,现在正扩展到其它语种。
Sonic文语转换系统:这是清华大学计算机系基于波形编辑的汉语文语转换系统。该系统利用汉语词库进行分词,并且根据语音学研究的成果建立了语音规则,对汉语中的某些常见语音现象进行了处理。系统采用PSOLA算法修改超音段语音特征,提高了言语输出的质量。
数据库和基于内容检索的应用
多媒体信息检索技术的应用使多媒体信息检索系统、多媒体数据库,可视信息系统、多媒体信息自动获取和索引系统等应用逐渐变为现实。基于内容的图像检索、文本检索系统己成为近年来多媒体信息检索领域中最为活跃的研究课题,基于内容的图像检索是根据其可视特征,包括颜色、纹理、形状、位置、运动、大小等,从图像库中检索出与查询描述的图像内容相似的图像,利用图像可视特征索引,可以大大提高图像系统的检索能力。
随着多媒体技术的迅速普及,Web上将大量出现多媒体信息,例如,在遥感、医疗、安全、商业等部门中每天都不断产生大量的图像信息。这些信息的有效组织管理和检索中都依赖基于图像内容的检索。目前,这方面的研究已引起了广泛的重视,并已有一些提供图像检索功能的多媒体检索系统软件问世。例如,由IBM公司开发的QBIC是最有代表性的系统,它通过友好的图形界面为用户提供了颜色、纹理、草图、形状等多种检索方法;美国加州大学伯克利分校与加州水资源部合作进行了Chabot计划,以便对水资源部的大量图像提供基于内容的有效检索手段。此外还有麻省理工学院的Photobook,可以利用Face,Shape,Texture,Photobook分别对人脸图像、工具和纹理进行基于内容的检索,在Virage系统中又进一步发展了将多种检索特征相融合的手段。澳大利亚的New South Wales大学已开发了NUTTAB系统,用于食品成份数据库的检索。
清华大学计算机系结合国家863高技术研究发展项目“Web上基于内容的图像检索”的研究,于1997年研制了一个Intemet上的静态图像的基于内容检索的原型系统。该项目的研究目标是开发能在Internet/Intranet环境下,通过友好的人-机界面,以颜色、纹理等图像特征或样本图像检索图像的方法和工具。
著作工具的应用
多媒体创作工具是电子出版物、多媒体应用系统的软件开发工具,它提供组织和编辑电子出版物和多媒体应用系统各种成分所需要的重要框架,包括图形、动画、声音和视频的剪辑。制作工具的用途是建立具有交互式的用户界面,在屏幕上演示电子出版物及制作好的多媒体应用系统以及将各种多媒体成分集成为一个完整而有内在联系的系统。
多媒体著作创作工具可以分成:基于时间的创作工具;基于图符(Icon)或流线(Line)创作工具;基于卡片(Card)和页面(Page)的创作工具;以传统程序语言为基础的创作工具。它们的代表软件是Action、Autherware、IconAuther、ToolBook、Hypercard、北大方正开发的方正奥斯和清华大学开发的Ark创作系统。
在多媒体著作创作中,还必须借助一些用于文本、音视频及图像处理软件系统。对于不同的媒体素材,采用的软件也不同。
用多媒体创作工具可以制作各种电子出版物及各种教材、参考书、导游和地图、医药卫生、商业手册及游戏娱乐节目,主要包括多媒体应用系统;演示系统或信息查询系统;培训和教育系统;娱乐、视频动画及广告;专用多媒体应用系统;领导决策辅助系统;饭店信息查询系统;导游系统;歌舞厅点歌结算系统;商店导购系统;生产商业实时监测系统以及证券交易实时查询系统等。
通信及分布式多媒体技术的应用
人类社会逐渐进入信息化时代,社会分工越来越细,人际交往越来越频繁,群体性、交互性、分布性和协同性将成为人们生活方式和劳动方式的基本特征,其间大多数工作都需要群体的努力才能完成。但在现实生活中影响和阻碍上述工作方式的因素太多,如打电话时对方却不在。即使电话交流也只能通过声音,而很难看见一些重要的图纸资料,要面对面的交流讨论,又需要费时的长途旅行和昂贵的差旅费用,这种方式造成了效率低、费时长、开销大的缺点。今天,随着多媒体计算机技术和通信技术的发展,两者相结合形成的多媒体通信和分布式多媒体信息系统较好地解决上述问题。
多媒体通信和分布式多媒体技术涉及:计算机支持的协同工作(CSCW)、视频会议、视频点播(VOD)等。
计算机支持的协同工作系统
CSCW系统具有非常广泛的应用领域,它可以应用到远程医疗诊断系统、远程教育系统、远程协同编著系统、远程协同设计制造系统以及军事应用中的指挥和协同训练系统等。
多媒体会议系统
它是一种实时的分布式多媒体软件应用的实例,它参与实时音频和视频这种现场感的连续媒体,可以点对点通信,也可以多点对多点的通信,而且还充分利用其它媒体信息,如图形标注、静态图像、文本等计算数据信息进行交流,对数字化的视频、音频及文本、数据等多媒体进行实时传输,利用计算机系统提供的良好的交互功能和管理功能,实现人与人之间的“面对面”的虚拟会议环境,它集计算机交互性、通信的分布性已及电视的真实性为一体,具有明显的优越性,是一种快速高效、日益增长、广泛应用的新的通信业务。
VOD和交互电视(ITV)系统
它是根据用户要求播放节目的视频点播系统,具有提供给单个用户对大范围的影片、视频节目、游戏、信息等进行几乎同时访问的能力。对于用户而言,只需配备响应的多媒体电脑终端或者一台电视机和机顶盒,一个视频点播遥控器,“想看什么就看什么,想什么时候看就什么时候看”,用户和被访问的资料之间高度的交互性使它区别于传统的视频节目的接收方式。它是多媒体数据压缩解压技术,综合了计算机技术、通信技术和电视技术的一门综个技术。
在这些VOD应用技术的支持和推动下,网络在线视频、在线音乐、网上直播为主要项目的网上休闲娱乐、新闻传播等服务得到了迅猛发展,各大电视台、广播媒体和娱乐业公司纷纷推出其网上节目,虽然目前由于网络带宽的限制,视频传输的效果还远不能达到人们所预期的满意程度,还是受到了越来越多的用户的青睐。
VOD和交互电视(ITV)系统的应用,在某种意义上讲是视频信息技术领域的一场革命,具有巨大的潜在市场,具体应用在电影点播、远程购物、游戏、卡拉OK服务、点播新闻、远程教学、家庭银行服务等方面。
CAI及远程教育系统
根据一定的教学目标,在计算机上编制一系列的程序,设计和控制学习者的学习过程,使学习者通过使用该程序,完成学习任务,这一系列计算机程序称为教育多媒体软件或称为CAI(Computer Assist Instruction计算机辅助教学)。
网络远程教育模式依靠现代通信技术及多媒体技术的发展,大幅度地提高了教育传播的范围和时效,使教育传播不受时间、地点、国界和气候的影响。CAI的应用,使学生真正打破了明显的校园界限,改变了传统的“课堂教学”的概念,突破时空的限制,接受到来自不同国家、教师的指导,可获得除文本以外更丰富、直观的多媒体教学信息,共享教学资源,它可以按学习者的思维方式来组织教学内容,也可以由学习者自行控制和检测,使传统的教学由单向转向双向,实现了远程教学中师生之间、学生与学生之间的双向交流。
地理信息系统(GIS)
地理信息系统(GIS)获取、处理、操作、应用地理空间信息,主要应用在测绘、资源环境的领域。与语音图像处理技术比较,地理信息系统技术的成熟相对较晚,软件应用的专业程度相对也较高,随着计算机技术的发展,地理信息技术逐步形成为一门新兴产业。
除了大型GIS平台之外,设施管理、土地管理、城市规划、地籍测量的专业应用多媒体技术也层出不穷。
多媒体监控技术
图像处理、声音处理、检索查询等多媒体技术综合应用到实时报警系统中,改善了原有的模拟报警系统,使监控系统更广泛地应用到工业生产、交通安全、银行保安、酒店管理等领域中。它能够及时发现异常情况,迅速报警,同时将报警信息存储到数据库中以备查询,并交互地综合图、文、声、动画多种媒体信息,使报警的表现形式更为生动、直观,人机界面更为友好。
总的来看,多媒体技术正向二个方而发展:一是网络化发展趋势,与宽带网络通信等技术相互结合,使多媒体技术进入科研设计、企业管理、办公自动化、远程教育、远程医疗、检索咨询,文化娱乐、自动测控等领域;二是多媒体终端的部件化、智能化和嵌入化,提高计算机系统本身的多媒体性能,开发智能化家电。
多媒体技术的网络化发展趋势
技术的创新和发展将使诸如服务器、路由器、转换器等网络设备的性能越来越高,包括用户端CPU、内存、图形卡等在内的硬件能力空前扩展,人们将受益于无限的计算和充裕的带宽,它使网络应用者改变以往被动地接受处理信息的状态,并以更加积极主动的姿态去参与眼前的网络虚拟世界。
多媒体技术的发展使多媒体计算机将形成更完善的计算机支撑的协同工作环境,消除了空间距离的障碍,也消除了时间距离的障碍,为人类提供更完善的信息服务。
交互的、动态的多媒体技术能够在网络环境创建出更加生动逼真的二维与三维场景,人们还可以借助摄像等设备,把办公室和娱乐工具集合在终端多媒体计算器上,可在世界任一角落与千里之外的同行在实时视频会议上进行市场讨论、产品设计,欣赏高质量的图像画面。新一代用户界面(UI)与智能人工(Intelligent Agent)等网络化、人性化、个性化的多媒体软件的应用还可使不同国籍、不同文化背景和不同文化程度的人们通过“人机对话”,消除他们之间的隔阂,自由地沟通与了解。
世界正迈进数字化、网络化、全球一体化的信息时代。信息技术将渗透着人类社会的方方面面,其中网络技术和多媒体技术是促进信息社会全面实现的关键技术。MPEG曾成功地发起并制定了MPEG-1、MPEG-2标准,现在MPEG组织也已完成了MPEG-4标准的1、2、3、4版本的标准,2001年9月完成MPEG-7标准的制定工作,同时在2001年12月完成MPEG-21的制定工作。
多媒体交互技术的发展,使多媒体技术在模式识别、全息图像、自然语言理解(语音识别与合成)和新的传感技术(手写输入、数据手套、电子气味合成器)等基础上,利用人的多种感觉通道和动作通道(如语音、书写、表情、姿势、视线、动作和嗅觉等),通过数据手套和跟踪手语信息,提取特定人的面部特征,合成面部动作和表情,以并行和非精确方式与计算机系统进行交互。可以提高人机交互的自然性和高效性,实现以三维的逼真输出为标志的虚拟现实。
蓝齿技术的开发应用,使多媒体网络技术无线电。数字信息家电,个人区域网络,无线宽带局域网,新一代无线、互联网通信协议与标准,对等网络与新一代互联网络的多媒体软件开发,综合原有的各种多媒体业务,将会使计算机无线网络异军突起,牵起网络时代的新浪潮,使得计算无所不在,各种信息随手可得。
多媒体终端的部件化、智能化和嵌入化发展趋势 目前多媒体计算机硬件体系结构,多媒体计算机的视频音频接口软件不断改进,尤其是采用了硬件体系结构设计和软件、算法相结合的方案,使多媒体计算机的性能指标进一步提高,但要满足多媒体网络化环境的要求,还需对软件作进一步的开发和研究,使多媒体终端设备具有更高的部件化和智能化,对多媒体终端增加如文字的识别和输入、汉语语音的识别和输入、自然语言理解和机器翻译、图形的识别和理解、机器人视觉和计算机视觉等智能。
主要用于数学运算及数值处理,随着多媒体技术和网络通讯技术的发展,需要CPU芯片本身其具有更高的综合处理声、文、图信息及通讯的功能,因此我们可以将媒体信息实时处理和压缩编码算法作到CPU芯片中。
从目前的发展趋势看可以把这种芯片分成两类:一类是以多媒体和通讯功能为主。融合CPU芯片原有的计算功能,它的设计目标是用在多媒体专用设备,家电及宽带通讯设备,可以取代这些设备中的CPU及大量ASIC和其它芯片。另一类是以通用CPU计算功能为主,融合多媒体和通信功能,它们的设计目标是与现有的计算机系列兼容,同时具有多媒体和通信功能,主要用在多媒体计算机中。
随着多媒体技术的发展,TV与PC技术的竞争与融合越来越引入注目,传统的电视主要用在娱乐,而PC重在获取信息。随着电视技术的发展,电视浏览收看功能、交互式节目指南、电视上网等功能应运而生。而PC技术在媒体节目处理方面也有了很大的突破,视音频流功能的加强,搜索引擎,网上看电视等技术相应出现,比较来看,收发E-Mail、聊天和视频会议终端功能更是PC与电视技术的溶合点,而数字机顶盒技术适应了TV与PC溶合的发展趋势,延伸出“信息家电平台”的概念,使多媒体终端集家庭购物、家庭办公、家庭医疗、交互教学、交互游戏、视频邮件和视频点播等全方位应用为一身,代表了当今嵌入化多媒体终端的发展方向。
嵌入式多媒体系统可应用在人们生活与工作的各个方面,在工业控制和商业管理领域,如智能工控设备、POS/ATM机、IC卡等;在家庭领域,如数字机顶盒、数字式电视、WebTV、网络冰箱、网络空调等消费类电子产品,此外,嵌入式多媒体系统还在医疗类电子设备、多媒体手机、掌上电脑、车载导航器、娱乐、军事方面等领域有着巨大的应用前景。