视频通话(Video Telephone)又称为视频电话,是指实时传送音频和视频的一种通信方式。视频通话是一种由
语音处理部分、视频采集、视频显示、视音频压缩编码以及控制器等部分组成的通话系统。
视频通话概念最早可以追溯到19世纪70年代通过信号线传输图像和音频的概念的提出。1927年,贝尔实验室研发的“图像电话”设备将视频和音频从
华盛顿哥伦比亚特区传输到AT\u0026T位于
纽约的办公室。1956年AT\u0026T开发出了一种新的图像电话测试系统,这被认为是视频通话的原型。20世纪90年代末,随着互联网的逐渐普及,基于互联网的视频通话技术开始飞速发展。现有的视频通话主要应用在医疗保健、商业和远程工作等领域。
历史
早期视频通话
视频通话概念最早可以追溯到1870年代,那时通过电线传输图像和音频的概念就已经诞生了。1878年,
托马斯·爱迪生在一篇文章中也描述了一种设备,名为“电话影像机(Telephonoscope)”。
1927年,贝尔实验室开始开发一种真正“图像电话”设备。这款设备的原型机进行了测试,时任美国商务部长
赫伯特·胡佛(Herbert Hoover)将视频和音频从
华盛顿哥伦比亚特区传输到AT\u0026T位于
纽约的办公室。到1929年,这些单方向视频电话传输升级至全彩色视频交流。在次年,贝尔实验室已经开发出了双向视频电话,也称之为“Iconophone”。全球首个公共场所运行双向图像电话服务开始于1936年,是由
德国一家邮局运营。
柏林民众能够与身处在
莱比锡市城等城市的人群进行面对面通话,不过这项服务后来由于
第二次世界大战影响而关闭。到1956年,贝尔实验室开发出了一种可以在现有电话电路上使用的可视电话。进一步的研究导致了第一个完整的实验性可视电话系统的开发,称为可视电话,1963-1968年,贝尔工程师开发出了第二代可视电话,商业可视电话服务于1970年在匹兹堡首次亮相。并于1971年投入公共服务。
第二代可视电话被设计为一个完整的系统。该系统的各个方面——例如终端设备、本地环路传输、交换、长途传输和专用交换分机——都是为了支持电话电路上的双向视频通信而设计和开发的。可视电话采用类似于电视广播中使用的模拟黑白视频传输。关键的区别在于视频信号的带宽。传统电视采用4.5兆赫信号,可以以每秒60帧的
速率传输跟踪每帧525行的标准美国
模拟电视图像所需的信息。为了将视频信号降低至1兆赫兹(电话线可以支持的带宽),Picturephone采用了大约250条线的图像帧。屏幕尺寸为14x12.5米(5.5x5英寸),该屏幕尺寸被认为适合视频监视器,并且与传输信号的分辨率兼容。可视电话终端由独立式麦克风和视频显示单元组成,视频显示单元包含扬声器、电子管摄像机和阴极射线显像管。
尽管AT\u0026T视电话系统经过了广泛的开发(超过15年的工程工作和5亿美元的开发成本),但可视电话服务的市场接受度却很低。最终,AT\u0026T得出结论,可视电话是一个“寻找市场的概念”,并于20世纪70年代末停止了该服务。
数字视频通话系统
20世纪80年代末,几家公司开始开发和销售可以直接通过公共交换电话网(PSTN)。静止帧视频电话采用摄像机和帧捕获系统来捕获单个视频帧以进行传输。由于静止帧不表现出时间依赖性,因此它们不必通过PSTN实时传输,从而允许使用标准的商用
调制解调器以每秒2.4至9.6kb的速度进行传输。为了实现互联互通,从而推动视频通话系统的发展,
国际电信联盟(ITU-T)于20世纪90年代推出了H.310、H.320、H.321、H.322、H.323和H.324的系列
多媒体通信标准。以H.320、H.323和H.324应用最为广泛。1992年AT\u0026T推出VideoPhone2500,是一款PSTN可视电话,可以通过PSTN将呼叫者的视频图像发送到另一台可视电话。它是世界上第一台可以通过模拟电话线传输的彩色可视电话。与早期的可视电话不同,VideoPhone2500采用数字压缩方法,可以显著减少全动态视频传输所需的带宽。采用V.34
调制解调器通过模拟电话线传输压缩视频信号以访问PSTN,信号可以轻松地通过中心局交换机进行电路传输。根据电话线的质量,VideoPhone2500的传输速度为19.2或6.8kbps。Video Phone2500中采用的视频压缩算法已授权给许多
日本制造商用于类似的可视电话。然而,由于销量不足,AT\u0026T于1995年停止了VideoPhone2500。美国和
欧洲的其他制造商,包括
英国电信和
马可尼公司,都开发了类似的视频电话终端,用于通过PSTN进行操作。1996年,基于普通电话交换网的可视电话标准H.324,为各商户提供了一个统一的通信协议和图像、语言压缩标准,也为各国间的可视通信提供了前提条件。
现代发展
20世纪90年代末,开发了两种新的可视电话解决方案:商务视频会议和桌面视频会议。商务视频会议采用摄像机、视频压缩和解压缩硬件和软件,以及与一条或多条ISDN线路或互联网连接的接口,以便向一个或多个位置提供同步语音和视频的捕获、传输和显示。通常,这些系统安装在会议室中,以便与会者无需出差即可举行会议。一些公司开发了专有的传输协议以及语音和数据压缩技术,但大多数公司都使用
国际电信联盟(ITU)开发的标准,以实现不同系统的互操作性。桌面可视电话通常由连接到个人计算机(PC)、视频共享软件以及两台PC之间的Internet连接(拨号或宽带)。由于带宽限制,桌面系统的质量通常低于商务视频会议系统。一些桌面会议软件包括两台或多台PC之间的应用程序共享、共享剪贴板、文件传输功能、用于共享想法的“白板”以及用户之间的聊天服务。1999年
日本推出了第一款移动彩色可视电话,是由京瓷公司开发的VisualPhoneVP-210,这款移动可视电话的尺寸与普通手机相同,但配备了小型内置摄像头和两英寸彩色液晶显示屏。VP-210与音频信号一起以每秒约两帧的
速率实时传输和接收图像。
苹果公司推出的iSight外部摄像头和iChat加入的音频/视频功能帮助“视频互动”概念被大众消费者所接受,同时也为
Facetime和
Skype应用软件的到来奠定了基础。2005年5月,LifeSize Communications生产的第一套高清视频会议系统在
内华达州拉斯维加斯举行的Interop贸易展上展出,能够以1280x720的显示分辨率提供每秒30帧的视频。在2006年前后,
思科TelePresence3000和Polycom的RPX-400这类复杂和昂贵的系统问世。它们提供了高分辨率、定制化视频会议通讯系统,以及文件分享
工作站显示屏。2010年7日,Apple发布了iPhone4,配备了让可视电话梦想成真的FaceTime功能以及AppleRetina显示屏,可呈现清晰的文字、图像和视频。2013年,休斯登上珠穆朗玛峰(海拔8848米),并于5月19日在山顶成功地通过
Skype与BBC新闻进行视频通话,成为有史以来最高的视频通话(除了来自飞机和航天器的视频通话)。2021年,Facebook宣布推出Portal视频通话设备的两个新版本:Portal Go和Portal for Business服务。2023年推出的5G新通话业务
中国足球协会超级联赛高清视频通话是基于运营商的VoLTE/VoNR技术提供的视频通话,相比OTT的视频通话,网络带宽有保障,画面不卡顿,时延更低。
技术原理
系统组成
语音处理部分
现代的视频语音处理是以数字计算为基础,并借助微处理器、
信号处理器等加以实现。语音处理是传声器或其他装置收到的类音声音信号,经由模拟数字变换装置,将资料数据化进行处理,最后再经过数字模拟变换装置输出。其
信号处理流程如下:首先收取并采样信号,利用传声器或各种收音装置,收取模拟语音信号,再用ADC装置(如模拟数字变换卡)把模拟信号变成数字信号,然后根据奈奎斯特采样理论采样,若不符合理论则会造成信号失真。
视频采集
图像输入部分即视频采集,其功能是采用摄像设备,获取外界物体的光信号,并将其转换为相应的电信号,进而转换为数字信号,一般包括光源滤波、视觉传感、距离测定等,从而摄取本方用户的图像传送给对方。
视频显示
图像输出部分,即视频显示,是采用显示设备,接收对方的图像信号并在荧光屏上显示对方的图像。
视音频压缩编码
视频通话的信号因是数字信号,所以要在数字网中进行传输。而且因包含的信息量大,所占的频带宽,不能直接在用户线上传输,需要把原有的图像信号数字化,变为数字图像信号,且必须采用频带压缩技术,对数字图像信号进行“压缩”,使之所占的频带变窄,这样才可在用户线上传输。视频通话的本质是通过网络实时
双向传输主叫与被叫方的音视频数据。以从主叫终端到被叫终端的音视频传输为例:主叫终端通过摄像头和麦克风分别捕捉主叫用户视频和音频信息,通过编码和压缩算法将数字化的音视频信息形成一系列IP数据包,通过移动互联网传输到被叫终端。被叫终端接收到这一系列数据包,使用对应的解压缩和解码算法还原其包含的音视频数据,并分别将视频信息和音频信息从屏幕和扬声器/耳机播放出来。从被叫终端到主叫终端方向,同时存在相同的音视频数据捕捉、编码压缩、传输、解压解码和播放过程。
控制器
视频通话通过专用控制器来进行图像
信号处理等操作,图像信号处理部分在系统传输图像时,对由摄像机送来的图像信号进行A/D变换后,作为一帧画面高速写入帧存储器中。经解调的信号,通过信道解码和信源解码恢复出原来的数字信号,送入帧存储器后,以高速读出,经D/A变换后就能在显示器上显示原来的图像。
高速
调制解调器:高速调制解调器以高速传输率进行全双工、同步数据传输,其特点是启动时间快,适合于PC机点对点通信的要求。
图片控制器:图像控制器一般采用专用控制器,各种类型的视频通话性能不同,关键在于控制技术的不同。
音频处理器:音频处理器使用自适应编码算法,对数据进行编码和解码。
核心技术
编解码芯片技术
编解码芯片技术是视频通话发展的关键。语音和图像在传输时,必须经过压缩编码一解码的过程,而芯片正是承担着编码解码的重任,只有芯片在输出端将语音和图像压缩并编译成适合通信线路传输的特殊代码,同时在接收端将特殊代码转化成人们能理解的声音和图像,才能构成完整的传输过程,让通话双方实现无障碍交流。在视频通信中通常使用标准化的编解码。视频编码标准主要由国际电联ITU-T和
国际标准化组织(ISO)制定。其中由ITU-T制定的标准有:用于视频会议系统的建议H.261、H.262、H.263、H.264等,主要是用于ISDN、ATM、PSTN以及IP等电信网络上视频信息的传输。由ISO的MPEG制定的标准有:MPEGI、MPEG2、MPEG4、MPEG7等,主要用于
数字电视、视频点播(VOD)等交互式视频通信业务。
信令/媒体协议
信令协议是用于建立、维护和拆除一个呼叫连接的控制信令,如H.323、MGCP、H.248和SIP。媒体协议用于建立呼叫连接后音视频数据流的传送,在传输层使用UDP协议作为传输协议,在UDP之上使用RTP/RTCP协议作为视频和音频的传输协议。这主要源于RTP/RTCP协议不采用复杂的传输控制手段和纠错机制,而是采用尽量少的控制与鉴别功能,满足实时通信的要求。
回声消除
智能终端产品一般至少都含有一个传声器和一个扬声器,由于扬声器和传声器之间的
声学耦合,设备经常会产生回声。这些回声会对语音通话系统或者语音识别系统产生不利影响,因此,回声抵消器是智能语音终端设备中的关键声学信号处理技术之一。基于自适应滤波器的声学回声消除算法是一种线性滤波方法,它假定扬声器至传声器的回声路径是线性的,并且可以使用自适应滤波器进行估计。在已知参考信号的情况下,自适应滤波器可以根据声学路径的估计值得到
回声的估计值,然后从传声器信号中减去回声估计值,最终得到声学回声消除算法输出信号,一般也称为残差信号。理想情况下,
声学回声消除算法可以消除回声而不会对近端信号造成任何失真。
低延时
诸如微信、QQ等大众类软件,其低延时视频传输都是基于
RTC协议,相比RTMP以TCP作为传输层协议,RTC则使用UDP作为传输层基础,UDP是无连接的,不需要三次握手建立连接,RTC实时通讯在不考虑网络链路延时的情况下,延时可降到100ms~200ms。另外,由于TCP为了保证传输质量,会产生很多ACK,在网络不好的情况下会产生很多重传包,而RTC传输则是基于RTP和RTCP的,其重传策略基于NACK完成,使得其在使用过程中消耗的流量也更少。另外由于音视频传输对及时性要求很高,允许部分丢帧,RTC充分利用了UDP的不管控能力,利用各种成熟的算法保证了高质量的音视频传输,可以自动适配码率变换。RTC在应用层则使用安全实时传输协议(SRTP,Secure Real-
时间 Transport Protocol)对RTP数据进行加密从而保证了低延时可靠的视频通话,具备实时视频通讯能力。
分类
按功能分类
视频会议
随着通信的发展,人们已不满足简单的话音和文字通信,希望有集语音、文字和图像于一体的
多媒体通信。视频会议系将多个具有多媒体处理能力的节点通过某种通信机制互相连接起来,相互间可以进行多媒体的交互和数据交换。既可以点对点通信,也可以多点对多点的通信。视频会议系统的结构主要由视频会议终端、多点控制单元MCU、信道(网络)控制管理软件及安全保密系统组成。它在同一传输线路上承载了多种媒体信息:视频、音频和数据等,实现多点
实时交互通信,同时也可以将不同地点与会人员的活动情况、会议内容及各种文件以可视新闻的形式展现在各个分会场。
远程协作
以远程医疗和远程教育为例,远程医疗是指通过
计算机技术、
遥感、遥测遥控技术为依托,充分发挥大医院或专科医疗中心的医疗技术和医疗设备优势,对医疗条件较差的边远地区、海岛或舰船上的伤病员进行远距离诊断、治疗和咨询。旨在提高诊断与医疗水平,降低医疗开支,满足广大人民群众保健需求的一项全新的医疗服务。远程医疗的发展已经从最初的电视监护、电话远程诊断发展到利用高速网络进行数字图像、语音的综合传输,并且实现了实时的语音和高清晰图像的交流。远程教育也称为远距离教育,是指师生凭借媒体所进行的非面对面的教育,它的优点在于使学生在时间和空间并不统一的情况下,能与教师进行交互并完成学习任务。远程教学在很大程度上改变了传统的教学模式,改革了教材内容,缩短了教学双方的空间距离。现代远程教育作为一种新兴的教育思想和教育技术,能提供公平、广泛和廉价的教育方式,使教育效率大大提高。
按传输方法分类
可视电话
可视电话是利用电话线路实时传送人的语音和图像(用户的半身像、照片、物品等)的一种通信方式,由普通电话机、电视摄像机和电视接收机三部分组成。1964年,美国贝尔实验室正式提出了第一个可视电话解决方案。20世纪80年代末,随着通信、
计算机、语音和视频编解码技术的不断发展,可视电话在世界各国得到了迅速发展。1992年,美国
美国电话电报公司推出了基于普通电话交换网的彩色可视电话,随后许多国家都生产出类似的产品。可视电话根据图像显示的不同,分为静态图像可视电话和动态图像可视电话。静态图像可视电话在荧光屏上显示的图像是静止的,图像信号和话音信号利用现有的模拟电话系统交替传送,即传送图像时不能通话,传送一帧用户的半身静止图像需5~10秒。一部可视电话设备可以像一部普通电话机一样接入公用电话网使用。动态图像可视电话显示的图像是活动的,用户可以看到对方的微笑或说话的形象。动态图像可视电话的图像信号因包含的信息量大,所占的频带宽,所以不能直接在用户线上传输,需要把原有的图像信号数字化,变为数字图像信号,而后还必须采用频带压缩技术,对数字图像信号进行“压缩”,使之所占的频带变窄,这样才可在用户线上传输。动态图像可视电话的信号因是数字信号,所以要在数字网中进行传输。
互联网视频通话
互联网视频通话通常指基于互联网和移动互联网通过智能终端之间实时传送人的语音和图像(用户的半身像、照片、物品等)的一种通信方式。互联网视频通话需要两台联网的终端设备(如智能手机、PC、
平板电脑等),通过集成软件或第三方软件来实现音、视频实时
双向传输。互联网视频通话主要有四种常见形式,即PC-to-PC、PC-to-Phone、Phone-to-PC和Phone-to-Phone via Internet。PC-to-PC是最早发展起来的,例如腾讯QQ的视频聊天等。随着网络带宽的快速提升以及硬件设备的发展和普及,市场上主流的互联网视频通话服务商按网络类型可分为基于移动信息系统(如4G、5G等)的视频通话和基于WiFi的视频通话,按操作平台类型可分为基于iOS的视频通话、基于Android的视频通话和兼容各平台的视频通话等。
应用领域
视频通话已经在个人通信、商业、医疗、教育、法律及国际交通等多个领域得到广泛应用。
个人通信
视频通话应用程序如
Skype、
WhatsApp、FaceTime和
微信视频通话使人们能够与家人和朋友实时通信,不论他们身在何处。
商业和远程工作
企业利用视频通话进行
远程会议、沟通和协作,使员工能够在全球范围内协同工作。同时也有企业使用视频通话进行远程面试,以招聘全球范围内的人才,减少招聘流程中的时间和成本。一些项目经理和团队也通过视频通话监督项目进展,确保项目的质量以及交付时间。
医疗保健
视频通话技术实现了远程医疗咨询和线上诊断,采用了先进的视频通话技术和
语音识别技术,使得老年人可以通过互联网与医生进行实时的语音、视频交流,进行远程咨询,讨论症状、获取医疗建议和药物处方,得到及时的医疗建议和指导。而不必亲自前往医疗机构。专家医生也可以通过视频通话协助其他医生执行手术,提供专业建议和指导。对于疫情的防控,在应急指挥中也可使用视频通话技术及时掌握处置现场情况,及时制定出防控措施,第一时间控制疫情,防止疫情扩散。
例如:2020年据
日本《
朝日新闻》网站报道,由于新冠病毒疫情不断蔓延,日本兴起“在线诊疗”的风潮,既能让患者在医院以外的地方及时就诊,也可有效预防医疗人员感染疫情。
教育
教育机构可以使用视频通话工具来提供在线课堂,让学生远程参与教学,与教师互动,并讨论课程内容。学生可以通过视频通话参与
虚拟实验室,观察实验过程,并与导师一起分析和讨论结果。学校也可以使用视频监控和远程考试工具来确保学生在远程环境中进行考试时的诚实性和公平性。两个不同地区、国家的学校进行远程学习和跨文化交流。
例如:2008年5月9日下午,中国学校学生与
意大利巴里马克波罗外语及商贸技术高等中学的学生进行了交流活动,这次活动主要采用网络视频通话的形式,是两校间“中意文化交流”活动的一部分。
法律
视频通话给无法出席的证人通过视频会议作证的途径。由于美国法院没有
传唤外国证人的权力,在
刑事案件中获取他们的亲自证词可以透过视频会议技术来完成。(EU)2020/1783法规(重订)涵盖不同
欧盟国家法院之间在民商事案件取证方面的合作,新规定明确了如何通过视频会议或其他远程通信技术取证。
国际交通
视频通话在国际沟通上带来便利,例如:2021年8月24日,国务委员、公安部部长赵克志同
巴基斯坦总理国家安全顾问
优素福视频通话。2022年3月18日晚,中国国家主席习近平应约同美国总统拜登通过视频通话的方式就中美关系和双方共同关心的问题交换了意见。
发展趋势
视频通话技术仍在不断发展。未来趋势包括更高分辨率的视频、虚拟现实和增强现实的整合,将通过
5G+AI+4K模式,构建万物互融、无缝连接的智能科技生活。视频通话的未来将受到
人工智能、安全措施以及与其他数字工具集成的进步推动,最终提高远程通信的效率和用户体验。人工智能驱动的应用程序将提高视频和音频质量,同时增强虚拟背景和实时语言翻译。此外,随着5G网络的普及和更高效的编解码技术的出现,视频通话将变得更加高效和可靠。在社会生活中视频通话技术趋势允许用户多方进行自由形式的交互,同时查看和发送
视频流。在进行休闲活动时,博物馆等文化景点的虚拟游览使组织可以向新的和更多的受众展示他们的作品。使个人能够在家中观看世界各方景点。视频通话创新将继续影响消费者做出购买决策的方式。专用应用程序可以引导用户完成涉及房地产、家具、车辆和许多其他产品的购买。