RTE2021 视频技术专场:权威标准、AV2、脑视觉、点

日期:2021/10/25 作者: admin

  10 月 22 日 -23 日 RTE 2021 实时互联网大会即将在北京望京凯悦酒店举行。今年大会全方位升级议程,推出实时互联网全生态的线 余场,覆盖技术开发、行业观察、创业投资、趋势洞察等多维度话题,更有 Metaverse、VR、AR 等时下最热门场景的现场体验。大会共有 5 场技术分论坛,包括音频技术专场、视频技术专场、大前端与应用开发专场、网络传输与架构专场、AI 技术应用专场。

  其中视频技术专场从标准权威解读、最新 AV2 核心技术分享、脑视觉等全新信源解码研究,以及点云编码重构、实时背景分割算法、HDR 技术实践、弱网视频超码率/分辨率/帧率算法、端到端 QoE 模型等技术应用落地实践,技术讨论与干货满满,在国内视频领域也是超前和顶级的技术论坛之一。

  ISO/IEC 的 MPEG 标准委员会威名远扬,三十多年来开发了多款视频编解码和视频系统标准,多次推动了视频技术的飞跃性变革。比如大家耳熟能详的视频编解码标准 AVC/H.264 和 HEVC/H.265(与 ITU-T VCEG 联合制定),视频系统标准 MPEG-2 TS、MP4 file format、MPEG DASH 和 MPEG CMAF 等著名标准,对视频业界均产生了深远的影响。不夸张的说,今天视频应用能够如此丰富多样,离不开这些 MPEG 视频标准能够成功落地所带来的贡献。最近,MPEG 旗下的两个视频工作组又再次发力,经过几年的努力,在 2020 年这不寻常的一年中相继推出了三款最新视频编解码标准,包括 VVC/H.266(与 ITU-T VCEG 联合制定)、Essential Video Coding (EVC) 和 Low Complexity Enhancement Video Coding (LCEVC)。

  基于此,阿里云智能视频云视频标准与实现负责人叶琰发表了《最新 MPEG 视频标准技术进展》视频演讲,对这三款最新出炉的视频编解码标准做了简介,包括其标准背景、编解码框架和技术、以及压缩性能等信息。以及 MPEG 旗下的视频工作组今年以来的主要工作,以及对未来标准的规划和展望。

  叶琰首先介绍了一些背景历史进程等信息。包括 MPEG 国际标准发展、ITU 与 MPEG 联合视频标准简史、VVC 标准简称的介绍、VVC 标准性能演进、VVC 标准编码工具集等。

  叶琰列举了 VVC 在高清超高清视频性能上,对比以往标准的性能增益,如节省带宽 43-49%,对于高清视频带宽节省 49-51%,以及 360 全景视频方面存在性能增益,在 HDR 视频带宽节省 49%等。

  在后续的分享中,叶琰还分享了 MPEG-5 EVC 标准项目背景,专利和专利授权,EVC 标准发展进程,以及 LVEVC 标准的现状等。

  谷歌首席软件工程师许耀武发表《Towards Next Generation Open Codecs》视频演讲。他简要回顾开放编解码器在移动互联网时代的成功,分享了下一代开放编解码器的核心技术进展,包括音频、图像和视频。

  许耀武首先分享谷歌团队的 4 个研发理念,分别是免费、开源、迅速开发、重视移动端。目前许耀武团队在做几方面工作,分别是 3D Draco、编解码器 Lyra(静止图像从 WebP 到 AVIF 开发工作;视频领域开发 VP9、AV1、AV2,其中重点介绍的 AV2 编码工具,总体性能比 AV1 高 15%左右。)

  在分享过 Lyra 的现状后,许耀武还分享了下一代 Lyra 版本 SoundStream 的设计,以及 AVIF 开发工作,并重点介绍了 AV2 的多个性能提升设计。

  接下来,南京大学电子学院教授马展分享了《从脑视觉到极限视频通信》主题演讲。

  视频通信无处不在,弱网不可避免。传统视频压缩走过 30 年,其效率已近天花板,但却远不能满足深空深海等极限场景的需求。我们的大脑对信息的提取和重建是超级高效的,那对视频编码有何启发呢?近期,我们看到端到端深度学习在视频编码上的应用,这其实是视觉通路前向分层处理的一个简单模拟。生物脑视觉还在信号解构,融合重建,乃至语义理解有着惊人的表现。在这个演讲中我们给大家分享这些方面对视频编码的启发,以期实现数量级的性能超越,从而能真正赋能面向星辰大海的极限通信。

  马展教授的实验室从 2015 年开始探索信源编码,他分享了初步成果,并分享了一些应用案例。例如,在无人区域以极低码率,在 2M 网络下传输传输 16 路 1080p。另一个案例采用南京大学申请人技术实现卫星 2Mbps 窄带下实时 16 路音视频交互,对演练救援各环节全程跟踪,实时传输至省后方指挥部支撑前方应急决策。

  马教授最后表示,可解释性基础上,南京大学方案 User06 比 HEVC 大幅提升了重建质量,低码率下视觉效果超 VVC/H.266 标准小组第三方盲测 User06 为标准基线模型推标准落地。

  视频技术专场上午最后一个环节,声网Agora 首席科学家钟声、南京大学电子学院教授马展、阿里巴巴淘系技术研究员陈颖、微帧科技联合创始人&CEO 朱政围绕“RTE 时代下,视频编解码的发展方向”主题展开讨论。

  近年来,点云作为一种三维图像表达方式,被广泛研究和使用。由于点云数据量庞大,对点云进行高质量的压缩是非常重要的。V-PCC 是 MPEG 针对二类视频点云提出的先进编码框架。本报告将介绍 V-PCC 框架中的关键步骤,包括 Patch 划分、三维至二维投影、几何图/纹理图/占用图生成、二维图填充、图像编解码、三维点云重构与平滑等方法。

  在视频技术专场下午环节,首先由上海大学教育部新型显示技术与应用集成重点实验室副主任沈礼权带来《基于 V-PCC 框架的点云视频编码与重构技术》主题演讲。他结合 V-PCC 算法,分析 V-PCC 框架下,重构点云几何失真的特点和形成的主要原因,分析当前几种针对几何失真改进方法的优势和局限性,并介绍 V-PCC 重构点云几何恢复方法,所提出的方法在重构点云的主客观质量上都有很好的提升。

  沈礼权首先介绍,近年来,随着互联网的发展,人们对视频的需求越来越高,从分辨率上、刷新赫兹和视角上,都有了更高的要求,而随之而来的巨大数据量也对编码技术提出了更高的挑战。在近年来发布的最新视频编码标准上,JVET 提出了 VVC 标准,压缩效率较上一代 HEVC 又有了很大的提升,而在 3D 沉浸式视频这一更新的领域,MPEG 提出了 MPEG-I 标准(Immersive,沉浸式)标准,包括了对三自由度、六自由度等更高维度图像的编码技术。

  不过随着用户体验需求的提升,传统的二维视频已经无法满足很多应用场景,这催生了近年来的许多沉浸式 3D 视频和相关技术,例如立体成像系统、光场、全景、点云等。

  而三维自由度视频无论如何都是多路视频,依然是以视频的形式进行处理与传输,视频都是由二维均匀采样的点阵构成的。针对高自由度应用需求,对三维空间采用点云的方式非均匀采样,是一种新的视觉信息的表达方式,它可以带来更好的沉浸式用户体验,是未来沉浸式视频的重要发展方向。

  沈礼权介绍,随着计算机硬件性能、计算科学、立体采集设备的不断发展,对海量的点直接采集和处理已经可以实现,从而推动了点云在数字媒体、虚拟现实、自动驾驶以及文化等诸多领域的应用。值得一提的是,在 2021 年 10 月 1 日刚实施的《历史建筑数字化技术标准》中,点云格式也被列入了行业标准。

  沈礼权介绍了三种不同类型的点云,并详细地介绍 V-PCC 的算法流程,介绍三维点云是如何转换为二维图像进行压缩,又是如何重建成三维点云。以下为点云压缩、码流、解码重建架构示意图:

  在问答中,对于点云现实中场景落地,沈礼权介绍静态点云重构文物保护和展览,已进入文物保护标准;动态点云,用于视频会议中沉浸式交流;动态获取点云用于无人驾驶。

  声网Agora 大前端 SDK 视频算法架构师谢锦滨带来《实时背景分割模型算法研究与应用落地》主题演讲。他介绍了实现虚拟背景的应用场景和技术方案,分析实时音视频通信中落地虚拟背景的困难点,以及 Agora 的虚拟背景技术如何实现。

  谢锦滨首先介绍实时背景分割目前使用在三类场景中。会议场景,如果房间比价杂乱,可以提供一定隐私空间,或者办公场景,隐藏背后同事电脑信息等;教育场景,可以将老师和 ppt 同时放置在一个屏幕上,又不会造成 PPT 遮挡;娱乐场景,替换趣味性背景。

  谢锦滨分享了声网双师课堂场景方案。其中,教培机构双师课堂,是指远程的主讲教师通过大屏幕对线下教室的学生实现直播授课,同时线下班有一位辅导老师在班内负责维持课堂秩序,在课后负责答疑、批改作业、讲解习题及与家长沟通等服务工作。教学是由身处不同地方的两位教师共同进行的,所以称之为“双师课堂”。另一个场景体制内双师课堂是指名校名师的之间互动,通过网络同步传输到教育欠发达地区的“第二课堂”(学校通常会利用已建成的录播教室环境,录播设备多为 Linux+自采集+自编解码)。远端听讲课堂的学生有两个老师:名校老师远程主讲,自己的老师现场指导、辅助教学、观察并记录学生课堂表现。

  这个场景的特点是,分辨率大,2K 或者 4K 都有可能,还有一点是老师在大屏前授课,大屏显示课件,通过固定摄像头拍摄,课件画质经过拍摄后画质有所损失,所以客户期望可以从原视频取出讲老师人像,再和结合,提高课件清晰度。这种场景下,还有专门的设备,可以利用特定的 GPU 来跑虚拟背景模型,所以模型本身运算量不像移动端或者普通的 PC 场景那么受限。这个场景对虚拟背景模型的效果要求比较高,需要发丝级,而且老师虽然是半身人像,但姿态较多,结果不对的话容易对上课效果会有比较大影响。当然,针对这个场景,对老师的发型和教具最好是要有一些要求。

  接下来谢锦滨介绍了背景分割技术语义分割方法的难点、模型训练、网络设计,以及声网的多个 AI 算法。谢锦滨表示在自研引擎上的性能比在开源的几个常用框架 OpenVINO/CoreML/TNN/MNN 等快 30%左右。未来将研究 Video Matting、Portrait Relighting 两个方向。

  OPPO 多媒体系统工程师熊磊带来《HDR 技术产品实践与探索》主题演讲。他分享了 HDR 视频标准与生态;光电转换曲线,色彩与 Tone mapping;Qcom 平台技术实现;HDR 技术展望。

  SDR 视频与 HDR 视频两者相比,HDR 视频展示了更多暗部和亮部细节,显示效果更贴近原始画面;HDR 系统能保留和传输更多的亮度,色彩范围和量化精度,减少原始画面质量损失。

  对于 HDR 未来发展展望,熊磊提到移动设备的屏幕能力向专业级屏幕持续进化,支持更高的亮度(1000nit),更宽的色域(BT2020);工业级 HDR 视频拍摄能力迁移,将专业设备的 HDR 视频拍摄,编辑,显示能力拓展到移动端;10bit HDR PQ 照片拍摄,将专业相机的照片拍摄能力迁移到移动端;HDR PQ UI,在手机系统中支持 HDR 图片/UI 解码,编辑,渲染和显示。

  在弱网环境中,视频发送的码率、分辨率和帧率受到制约,带来的用户体验是视频卡顿、画面模糊。在低码率、低分辨率和低帧率的条件下,为了提升视频的清晰度和流畅度,声网提出了视频超 X 算法(超码率算法、超分辨率算法和超帧率算法)。

  声网Agora AI 算法工程师周世付在《视频超 X 算法在弱网环境中的应用》主题演讲中,介绍超 X 算法的研究现状,探讨超 X 算法应用于弱网环境所遇到的问题和解决方法,分享声网视频超 X 算法在产品中的落地实践。

  首先,周世付介绍声网基于深度学习的超码率算法,感知视频编码,是设计轻量级模型,有完备的数据集,可以覆盖各种场景,实现像素级标注。

  超分算法,目的是解决弱网下传输低分辨率或低码率视频流;bilinear、bicubic 对低分辨率图像进行插值,高频信息丢失;图像模糊、细节丢失。

  超帧算法目标是从低帧率生成高帧率,因为低帧率视频传输,减轻网络带宽压力,降低传输时延,接收端插帧恢复高帧率视频;另外需要恢复丢失帧率,因为传输过程中,出现丢包,整帧数据丢弃,再重传,传输时延大;利用前后帧,恢复中间帧,无需重传。

  目前,声网超码率算法已端侧落地,实时支持 720p。另外,超分算法已端侧落地,实时支持 360p-720,将支持更高倍数和高分辨率。超帧率算法落地进程中,超分与超帧率合并。

  在实时视频通信中,通常使用网络传输或编解码参数拟合接收端人的感知体验,或者使用图像质量结合其他相关参数拟合实时视频质量。由于无法直接量化视频感知体验,所以当前 QoE 方法有一定局限性。目前端到端的 QoE 模型可以有效解决上述面临的难题,但同时也面临着数据依赖、计算量大的问题。

  声网Agora 视频算法工程师郑林儒发表《实时视频 QoE 评价方法》主题演讲,分享会重点介绍视频数据库的建立、视频质量评估建模及其端上轻量优化。

  郑林儒表示,QoE 可以帮助传统编解码的过程,参数调整,码控节省,提升效率。QoE 模型加速结构设计优化,以减少计算量。

  最后郑林儒表示,声网在 QoE 未来工作包含指标完善、验收、算法超高清适配。具体来说,指标完善:包括流畅度实验设计、不同场景对延迟的主观评估尺度以及整合音频 MOS;指标验收:算法有效且收敛的线)验证;算法超高清适配:在较大分辨率下仍有运算量减小的空间。

  中国电信打造数字化转型样板:5G落地工厂、港口关键场景 产业数字化收入双位数增长

  年内首次,聪明资金连续两日净买入超百亿!大幅加仓却被埋?“盈利王”连续被减持,18股持股量翻倍(附名单)

  【一周北上资金】5天净流入233亿元, 电气设备最受青睐,宁德时代是头号“宠儿”,机构看到740元/股

  投资者关系关于同花顺软件下载法律声明运营许可联系我们友情链接招聘英才用户体验计划涉未成年人违规内容举报

  不良信息举报电话举报邮箱:增值电信业务经营许可证:B2-20090237

推荐作品

荣誉 丝路视觉揽获中国国际空间设计大赛山猫

丝路视觉作品「深圳人工智能与机器人研究院」、「东莞深投控清溪科创展示中心」一举摘下1金1银!丝路视觉300556股吧)科技股份有限公司董事长李萌迪先生荣获「2020年度中国十大杰出...

热门新闻