21 世纪是视频媒体的时代。和视频相关的应用,逐渐成为我们工作和生活不可或缺的组成部分。

 

除了传统视频业务之外,最近几年,随着新兴技术的不断出现,越来越多的新型视觉体验服务来到我们的身边,例如 4K/8K 超高清视频、VR/AR 沉浸式体验、AI 人脸识别、AI 自动换脸等等。

 

毫无疑问,我们的视觉体验,正在朝平台多样化、内容丰富化、交互智能化、沉浸式互动的方向发展。

 

更丰富多样的业务,意味着对系统及网络性能有更苛刻的要求。视频相关的核心处理流程,例如解码、推理、渲染和编码,都是“吃配置”的大户。如果视频处理平台缺乏灵活性、扩展性,不具备支撑高工作负荷的能力,将无法进行高效的视觉业务服务交付。

 

简单来说,性能不够,就会影响用户的业务体验,进而影响企业业务的进一步拓展。

 

于是,越来越多的企业,将自己的用户视觉体验业务迁移到云端,借助云平台,为业务提供充足动力和安全保障。视觉云,也就随之诞生了。

 

视觉云,包含一套面向远程消费内容和服务的功能,这些功能围绕高效提供直播型和文件型视觉体验,以及可将智能添加到视频内容中和利用机器学习及其它人工智能方面(例如物体识别)的应用。

 

我们常见的视觉云业务,包括媒体处理与交付、媒体分析、沉浸式媒体、云图形、云游戏、云 VR/AR 等。

 

那么,在目前云网深度融合的趋势下,视觉体验服务商该如何构建最适合自己的平台架构?面对媒体转型带来的巨大流量增长,服务商又该如何应对压力和挑战?如何进一步提升平台架构的效能,降低无效成本?

 

2020 年 10 月 12-16 日,英特尔在线上举办的“5G 云网融合线上论坛”。其中的“视觉云,变革媒体体验”分论坛,来自行业的 4 位顶级专家,分享了各自企业在上述问题方面的心得体会和实践经验。

 

 

Part 1

英特尔网络平台事业部市场开拓总监李进文表示,视觉云业务各自有不同的特性,开发部门各自有不同的考虑点,所以,没有一刀切的解决方案。

 

李进文首先对视觉云各个典型服务的发展趋势进行了预测。

 

他认为,视觉云中最关键的应用媒体分析,将达到 130 亿美金的市场。超高清 IP 视频流将在 2025 年达到接近整体 IP 视频流的 21%,这意味着 4K、8K 超高清内容将会成为趋势。增长幅度最快的是直播业务,拥有 15 倍的爆发性增长表现。近些年崛起的 VR/AR 业务也将创造 950 亿美金的市场,这同样是超高清 IP 视频流持续增长的原因之一。

 

面对机遇和挑战,拥有一个强大的平台刻不容缓。采用基于数据中心的基础设施架构来传输存储和处理,是必然的选择。

 

这类型的计算体系结构使大规模的视频交互变得更容易,且具有明显的成本优势,可以应对视觉云不断变化的需求。

 

提供视觉云服务需要广泛的软硬件架构,针对不同的应用快速提供创新服务,还需要一个广泛的生态系统提供完善的端到端解决方案。这些都是英特尔的强项,英特尔拥有广泛的软硬件平台和生态系统加速视觉云服务商的开发和创新。

 

李进文所在的视觉基础设施部门,可以提供完整的软硬件解决方案。在最底层,英特尔提供了广泛硬件,比如通用的英特尔®至强®可扩展处理器, Intel® Server GPU、FPGA、网卡等。软件方面,英特尔的策略是优先软件,目的在于提供完整的解决方案来加速客户的开发周期。

 

两个月前,英特尔发布了用于数据中心的独立图形处理单元,Intel® Server GPU,它最适合用于高密度的手游、云游和媒体传流,支持广泛的编解码功能,可以提供低成本高性价比的解决方案,同时也降低了安卓云游戏行业的入门门槛,从而使更多的游戏企业趁着 5G 的浪潮迈入云游戏行业。

 

 

李进文表示,广泛的视觉体验正在云端和边缘爆发性增长,企业和服务提供商需要更具有可伸缩性的基础架构,以及一系列软硬件和开源工具。基于英特尔的解决方案,是平衡的产品组合,提供更佳的体验和 TCO。

 

Part 2

来自北京华兴宏视技术发展有限公司的技术总监武宇文,重点分享了华兴宏视基于英特尔硬件架构的视频 AI 分析系统——PONTUS。

 

该系统将视频编码技术和视频 AI 分析技术相结合,能够实现多路高清视频的实时智能分析,对视频内容中出现的异常事件进行实时的分析报警以及场景的保存。

 

系统的 AI 能力是通过调用英特尔 openVINOTM 软件平台来实现的。底层硬件采用英特尔的 Scalable 高性能处理器以及 VCAC-A 高性能视频 AI 卡。软件能力能够提供视频图片的编解码与 AI Inference 同步进行,每秒提供 5~10 帧的视频 AI 实时分析,能够确保视频中不遗失关键信息。同时平台还支持视频流以及离线文件的接入实时分析。

 

 

在应用案例方面,武宇文重点介绍了铁塔高点视频监控(垃圾检测、渣土车检测)、实时视频车牌自动识别和视频智能分析。

 

以铁塔高点视频监控为例。基于铁塔顶端的高清摄像设备,可以部署高点监控系统,实现“危险场景的视频实时鉴别”,实现本地分析,实时响应。采用边缘处理的方式,不仅可以提升响应速度,还可以大幅节省带宽。

 

通过对问题内容的实时抓取,系统可以实现实时的报警功能,快速控制危险情况。例如非法排放、森林防火、秸秆焚烧、河道检测、管道检测、海防监控等。

非法作业车辆监测

 

这一方案将非常有利于生态环境综合治理及国土资源安全保护。

 

Part 3

前面我们提到,超高清 VR 直播目前正处于业务快速增长的状态。越来越多的 VR 应用场景出现,大量超高清 VR 内容的生产,进一步刺激 VR 产业的发展。

 

 

 

不过,超高清 VR 直播目前也存在一些问题。例如运营商网络流量费用高,终端下行带宽有限,限制了终端设备能够接收到的 VR 视频的码率,进而影响用户体验。再例如,终端设备的硬件解码能力有限,不同设备之间的解码能力参差不齐,即便是将高质量的码流传输到了终端,也不一定能够实现完美的解码和渲染,等等。

 

对于这些问题,来自北京博雅睿视科技有限公司的研发经理魏建超表示,需要从 VR 直播的各个环节考虑,紧密配合,提供端到端的解决方案,才能真正提高用户的体验。这些环节包括:VR 视频的采集、拼接,到后期的制作,网络传输,以及终端的解码渲染等。

 

博雅睿视的端到端解决方案,输入部分支持视频文件用于 VR 点播的需求,支持广电接口 SDI,支持 VR 相机接入,配备拼接服务器用于实时拼接,预览和后处理。这样的话,可以支持更多的应用场景,并从源端保证视频的质量。

 

 

另外,VR 视频的映射格式方面,方案采用 CubeMap 立方体映射格式,取代传统的 ERP 经纬图映射格式,从源端节省 VR 视频的数据量。

 

转码服务器基于英特尔的 SVT 技术,利用 SVT-HEVC 高并行化编码器,进行独立的编码,为基于 FoV 的 VR 视频传输提供了支持。

 

分发服务器,可以最大限度的利用现存网络的基础设施,实现用户基于 FoV 的内容拉流,大大降低下行的流量。终端用户根据视角拉取对应的 segments,下行带宽和解码压力都大大降低。

 

总结起来,高效的视频映射格式加上基于视角的传输,就得到了带宽的节省和用户体验的提升。

 

Part 4

最后,来自腾讯多媒体实验室的高级工程师许桂森重点介绍了腾讯云的 SVT-AVS3 编码器。

 

AVS3 是 AVS 工作组制定的我国拥有自主知识产权的第三代音视频编解码技术标准,也是中国音视频产业核心技术标准。该标准重点面向 8K 及 5G 产业应用,技术先进,专利清晰,受到行业的广泛关注。

 

根据参考软件的测试表明,AVS3 视频基准档次的性能比上一代标准 AVS2 和 HEVC 提升了约 30%。通过加入 AI 技术,主打智能编码,AVS3 的编码效率将比国际最新的视频编码标准 H.266/VVC 提升 20%。该标准的全面普及,将引领未来 5 年到 10 年 8K 超高清和 VR 视频产业的发展,进而领跑国际市场。

 

SVT-AVS3 超高清视频实时软件编解码系统,基于 AVS3 视频编码标准和英特尔 SVT(可扩展视频技术)实现,能够提供性能、延迟和视频质量之间的完美平衡。

 

腾讯 SVT-AVS3 的编码框架,是基于英特尔 SVT 编码框架经过发展优化而来的。框架主要分为几大块,第一部分是图像预处理相关的模块,第二部分是用原始像素进行 Motion Estimation 的模块,第三部分是码率控制相关的模块,第四部分是 MD 和重建模块,第五部分是环路滤波模块。

 

SVT-AVS3 的编码框架

 

SVT-AVS3 编码器支持视频预分析处理,通过对编码流程各个模块的充分解耦,在多核处理器中可以实现更好的帧级或段级的高度并行编码。在并行化处理的基础上,SVT-AVS3 通过对编码算法的参数化处理,实现了编码过程中速度与质量权衡过程中的无缝切换。在更高效利用处理器与内存资源的同时,更好地实现了速度与质量的权衡。

 

在编码时,SVT-AVS3 还支持对图像块级的分类分析。在使用低复杂度编码逻辑时,通过引入极少量视觉效果,在大幅提升编码速度的同时,可以保证图像主观上的视觉质量。这一点恰好能够满足现在短视频快速增长对编码速度及用户体验的要求。

 

许桂森表示,SVT-AVS3 目前已经适用于视频点播和实时编码 / 转码应用。腾讯多媒体实验室深度优化 SVT 架构的 AVS3 编码器,大幅提升 SVT-AVS3 的编码效率,现已集成到腾讯云,将其它标准码流转换成 AVS3 码流,为相关服务提供支撑。

 

 结 语

根据数据显示,2022 年,预计全球 82%的网络流量将是视频流。毫无疑问,这背后蕴藏着巨大的市场价值和商业机会。

 

英特尔推出的多种支持视觉云的解决方案,包括全套可扩展硬件、软件以及经优化的软硬件组成的精选解决方案,能够帮助云服务提供商、通信服务商及企业满足不断变化的需求。