腾讯云智媒体AI中台_视频结构化管理_智能标签_智能转码_智能拆条

腾讯云智媒体AI中台

腾讯云智媒体AI中台，是集合腾讯先进的AI基础算法模型、媒体业务应用模型的全栈式人工智能服务管理平台。致力于打通从数据采集、算法训练、模型部署、业务编排、到AI应用开发的媒体产业+AI落地全流程链路。帮助用户解决从模型能力到实际业务场景中落地的“最后一公里”问题，提供开箱即用的行业智能应用。

立即咨询

业务挑战 – 媒体AI的机遇与挑战 icon

视频产业蓬勃发展，视频成为娱乐消遣、知识获取、信息传递最主要的方式。传媒行业作为视频主要供给方，同时面临丰富机会和巨大挑战。

智能应用平台化支撑多业务场景
智能化应用从单点能力向业务流程支撑转化，需要建立智能应用平台支撑“采编存管发”全业务场景

多模态内容结构化赋能海量内容运营
传统媒资及融媒体内容库中含有大量内容，运营标签不足且不统一检索效率低，严重影响内容运营与用户体验

智能生产工具赋能融媒体智能生产
每天新增大量短视频节目生产及二次制作，现有的生产工具及手段时效低且复杂，无法满足融媒体业务的需求

业务挑战 – AI在媒体业务挑战中的分布 icon

采
语音识别

智能滤镜

美颜处理

AR形象

智能换脸

智能变声

编
智能剪辑

智能唱词

智能配音

横屏转竖屏

智能纠错

智能配图

智能拆条

智能集锦

存
智能转码

智能封面

智能分类

智能标签

人物识别

物体识别

文字识别

智能审核

质量检测

管
智能编目

智能分类

以文本搜索

以图片搜索

以音频搜索

以视频搜索

落马官员审核

劣迹明星审核

播/发
直播审核

实时字幕

实时翻译

智能转码

运营
人物标签数据

分类标签数据

语音标签数据

文本标签数据

视频标签数据

图像标签数据

物体标签数据

业务挑战 – 应对挑战，媒体AI中台提供三大类智能应用 icon

产品概述 –媒体AI中台概述 icon

什么是腾讯云智媒体AI中台（ Tencent Intelligent Media Platform ）？是集合腾讯先进的AI基础算法模型、媒体业务应用模型的全栈式人工智能服务管理平台。致力于打通从数据采集、算法训练、模型部署、业务编排、到AI应用开发的媒体产业+AI落地全流程链路。帮助用户解决从模型能力到实际业务场景中落地的“最后一公里”问题，提供开箱即用的行业智能应用。

技术架构– 媒体AI中台技术架构 icon

媒体AI中台=智能基座+TI平台+50多个智能引擎+12个智能应用（按需选择）

技术架构 – 在人工智能的发展趋势中领先 icon

我国对人工智能的重视程度持续增加，自2015年国家产业政策正式提及人工智能以来，几年间相关政策已经历了4个阶段的发展升级，如今人工智能成为“新基建”政策的一部分，这为我国进一步加快推进“泛在智能”提供了极为有利的条件和机遇。

应用场景 –内容结构化场景-媒体AI中台赋能媒资内容库 icon

应用场景 – 视频结构化场景-智能标签 icon

需求场景

1. 传统媒资场景，对媒资管理系统的素材文件进行基本信息和标签的提取，供媒资素材存储、管理和后续运营使用；2. 融媒体场景，对融媒体内容库以及互联网上产生的PGC、UGC等媒资内容的素材进行基本信息和标签的提取，供视频素材存储、管理、运营和发布使用；3. 智能推荐场景，对于视频类素材，互联网资讯类的内容进行关键信息提取，用于用户画像提取以及内容推荐。

应用定位

全维度分析视频、音频、图片和文稿中的信息，并通过腾讯领先的图像处理、自然语言处理、多模态融算法等多项AI算法能力，对媒资素材中出现的内容信息和表达的内容进行全方位标签提取。支持输出覆盖人、事、物各维度的丰富、准确、优质的标签内容。输出标签类别包括人物标签、文本标签和图像标签。应用于媒资系统管理、素材检索、运营及推荐等业务场景中。

音、视、图、文

结合音视图文及多维度算法实现智能处理流程编排，进而建立多级数据处理、分析及结果输出。针对视频媒体场景特点，从语境/语义到标签实用性，实现多重优化及专项算法能力的建立。

音频
语音文本识别

说话人分离

音频分类

视频
视频分类

视频概要标签

拍摄方式识别

镜头类型识别

图像
公众人脸识别

场景识别

图像标签

台标识别

文字
视频文字识别

文本标签提取

文本摘要提取

文本纠错

应用场景 – 视频结构化场景-智能标签 icon

应用场景 – 视频结构化场景-智能拆条 icon

应用场景

针对融媒体侧会有长视频拆分为短视频的需求场景，主要是通过人工来进行拆分，在拆分的过程中同时需要进行标签的采集，耗时长，运维文本高，同时人工操作会因个人原因有结果归一性不好。

应用定位

通过智能化手段，实现“音视图文”多维度分析，判断长视频拆分的关键点，在提高拆条效率的同时，丰富拆条结果的细粒度，提高内容搜索、定位、获取的效率，兼容互联网标签体系，为内容运营、多模态搜索提供数据基础。

应用价值

融媒体侧将长节约大量人力成本，降低总运维成本；提高工作效率——短视频上架至用户端时间将降至原用时的 1/3；保证结果的平稳输出，避免人工操作因生理、情绪带来的结果波动，工作标签的采集将更为细化。

应用场景 – 视频结构化场景-智能编目 icon

应用场景

面向广电媒体资产系统，对媒体资产系统中的视频文件依据广电编目标准的叙述方式，进行视频内容结构化分析，输出四层编目结果。

应用定位

通过智能化手段，实现“音视图文”多维度编目，补足原有广电编目数据，生成广电编目标准的叙述方式，为台内提供丰富内容结构化数据提高搜索、定位、获取效率，兼容互联网标签体系为融媒体内容运营、多模态搜索提供数据基础。

应用价值

通过智能编目，规范编目输出标准，保证输出的结果更加完整，质量更有保证；传统编目1小时需要人力8小时，通过智能编目只需15分钟，加快了编目生产速度，提高业务效率；智能编目的输出内容更加完整丰富，可以满足平台运营、内容生产以及分发和推荐。

应用场景 –内容智能生产场景-媒体AI中台赋能视频内容生产 icon

应用场景 – 视频处理场景-智能超分 icon

应用场景：随着新媒体端技术发展和高清频道建立，各个电视台，IPTV，视频网站和APP都有了对于超清4K以及8K片源播放的服务需求，针对这些场景提供超清4K以及8K片源素材生产。应用定位：通过智能话视频处理能力，对输入的视频文件进行超分辨率等画质增强处理，输出更高分辨率的视频。同时对视频进行质量分析，自动进行视频画质修复，去除压缩失真、噪声等问题，支持最高超分至8k。

应用场景 – 视频处理场景-智能转码 icon

应用场景：主要是移动端网络媒体视频及视频流为主。通过动态调整视频播放时片源清晰度、分辨率、码率、帧率、编码算法、播放策略等维度，以匹配最优编码参数，以更低的带宽成本提供更高清的视频流。应用定位：依赖智能场景识别、动态编码技术，CTU/行/帧三级码率精准控制模型，为直播、点播等行业以更低的码率提供更高清的流媒体服务。

内容复杂度自适应码控
根据输入视频的纹理复杂度、运动复杂度以及预编码结果，自适应的确定输出视频的编码码率，从而实现在不影响视频主观质量的前提下尽可能的降低码率的目的。

ROI编码
通过对视频中显著区域的分析，在编码过程中将更多的码率分配给受关注区域，从而实现在相同码率情况下提高视频主观质量的目的。

场景自适应编码
使用深度学习算法对视频场景进行分类，并使用视频分类结果调整目标码率、GOP结构等，克服单纯考虑PSNR、SSIM等客观指标使视频主观质量下降或者浪费码率的问题。

自适应画面修复
对视频进行自适应的画面修复处理，包括锐化、降噪、去压缩失真等。结合视频分析结果，根据失真强度选择适当的去压缩失真类型，根据画面复杂度和运动状况选择最佳的增强强度，根据噪声估计大小匹配合适的降噪强度。

应用场景 – 视频处理场景-老片修复 icon

应用场景：电视台媒资系统历史资料、大型企业机关单位音像资料馆、博物馆&博物院历史资料、电影制片厂新闻专题片老资料。应用定位：运用智能处理的相关能力，对老电影中存在的划痕、雪花、噪声等进行智能修复，显著提升视频主观效果。

去划痕雪花

基于划痕、雪花点只会单帧出现及位置随机的特征，结合空域和时域信息，通过两帧滤波后的信息识别不同区域的运动大小，并通过自适应识别降低当前帧的失真信息。可去除类型包括划痕、雪花点、屏幕闪烁、时域噪点等。

去伪影

通过AI模型学习视频编码、视频处理及其他处理造成的各种失真伪影，从而对重编码的视频去除失真类型，同时保持画面细节和边缘不损失。可去除的伪影类型包括块效应、振铃效应、色度渗透、蚊噪等。

细节增强

借用金字塔原理，对图像进行不同尺度的模糊，利用差值得到不同程度的增强信息，通过融合得到细节增强图像。同时结合场景分析，针对不同场景自适应调整增强强度，做到人眼视觉最佳的细节增强。

应用场景 – 视频处理场景-智能横竖屏转换 icon

应用场景：手机等智能设备的宽高比广泛使用9:16，甚至的更小宽高比，传统4:3和16:9宽高比的视频并不能很好的显示。为了在手机上有更好的视频观看体验，通常需要对视频宽高比格式进行转换。产品定位：视频帧智能裁剪技术，根据视频内容进行自适应裁剪，对于原始16:9的视频，可以根据需求裁剪为9:16,1:1,4:3等。输出结果满足：主要（显著性）目标/区域在裁剪后视频中持续保留；裁剪后视频镜头/场景切换自然；裁剪后视频抖动较小。可以大规模应用于视频编辑和辅助编辑，具有较高的实用价值。

应用场景 – 低质识别场景-视频智能质检 icon

应用场景1. 视频采集过程中，因采集设备感光异常、电子原件间信号干扰、暗光环境、抖动等原因导致的低光照、过度曝光、抖动重影等质量问题；2. 视频传输过程中，因数据包丢失、信号衰减、线材质量差等原因导致的雪花、噪声、有画无声、声画不同步等质量问题；3. 视频后期过程中，因规格填充、人工编辑等原因导致的黑/白边、毛玻璃边等质量问题及出现的二维码、小程序码、条形码等特定对象；4. 视频编/解码过程中，因解码器缓存溢出、丢帧、未同步到帧等原因导致的纯色屏、花屏、马赛克等质量问题。产品定位：面向融媒体视频文件、直播流，通过视频质量检测、音频质量检测、视音频组合检测、特定对象检测，结构化输出存在各质量问题的片段总数、片段总时长、分片段时长、分片段起止点，以及视频相关评分，供媒体审核、内容生产、集成管理流程应用，便于快速发现并定位问题。

应用场景 – 内容生产场景-视频智能填充 icon

产品定位：智能填充应用基于腾讯优图领先的深度学习智能技术，发挥视频中时域的信息价值，对指定擦除区域智能填充背景内容，算法鲁棒性高，对背景复杂、面积较大的区域擦除效果领先。应用场景：智能logo消除功能：支持智能消除视频中的一个或多个logo，还原被遮挡的内容。支持手动框选，灵活指定视频中的消除区域；同时支持结合台标智能检测功能，智能定位视频中台标的位置，实现台标的一键消除。智能字幕消除功能：基于深度学习算法，并利用时域信息，对视频画面进行填充；支持消除视频中一处或多处指定区域的字幕，操作便捷、消除效果自然，一键还原被字幕遮挡的画面区域。

应用场景 – 内容生产场景-智能广告投放 icon

产品定位：智能广告投放是基于优图领先的图像方面的深度学习技术，针对视频中需要植入或者替换的广告内容进行自动生成，减少广告制作成本，提高广告传播效率。

特定点位亚像素级跟踪

特定点位准确跟踪，粘贴广告时序上更稳定。点位消失、重现后仍能继续跟踪。无显著特征点位，结合SLAM技术，仍可准确跟踪。

高保真广告替换

广告边缘精细处理，贴合效果更自然。其它目标遮挡时，可精确分割，准确区分前、背景区域。新增区域和谐化处理，整体风格无违和。

应用场景 – 内容生产场景-智能内容生成 icon

产品定位：利用腾讯优图领先的人像分割、人脸融合、人脸3D重建等AI技术，实现对图像或视频中的人物提取以及再加工，以提升视频制作效率，拓展创作想象空间。比如利用换脸技术在影视剧中“复活”逝世演员、通过AI合成经典动漫中的三次元形象，或者打造虚拟主播、虚拟偶像与粉丝互动。AI内容生产技术在影视、直播、综艺等领域都具有广泛应用场景。

竞品分析–腾讯云智媒体AI中台产品优势 icon

标杆案例 – 央视频5G项目 icon

中央广播电视总台联合腾讯云落地首个国家级5G新媒体平台——“央视频5G新媒体平台”

标杆案例 – 北京电视台8kAPP icon

项目背景：基于5G产业和高清视频发展和2022冬奥会契机，北京台（BRTV）拟推出一款在移动端具有探索性与开创性的产品，手机端支持8K视频内容播放，主打超清视频播放能力。同时为了配合建党一百年宣传契机，在七一之前需要完成第一阶段项目建设。项目需求：手机8KAPP，集成4K、8K播放和直播的能力，支持不同素材格式统一到4K、8K以及各类手机端播放的格式。结合视频发布系统，制定转换管理策略，保证节目内容合理有效。交付内容：媒体AI中台（中台+流程管理定制）智能超分（支持超分到4K、8K） l 智能转码（支持转码720、1080、4K）横竖屏转换点播切片服务（支持 720、1080、4K、8K ）

方案优势

1.流程管理适配统一媒体处理接口，方便业务系统对接，有利于后续业务扩展

2.集成点播切片，从视频素材录入到最终播放格式输出完成闭环，提高生产效率建设意义 “京8” 是北京广播电视台立足5G高新视频产业，在技术、内容和运营发展方向上的一次成功探索，主打超高清、沉浸式与交互式视频体验，是国内首个8K高清移动端的标杆案例。