浅谈人工智能在流媒体领域的应用

作者：UCloud技术市场团队 2017-12-04 12:50:26

云计算人工智能正加速改变各个行业，而流媒体领域可能是其中改变最快的一个。随着神经网络相关算法问题得到解决，人工智能技术在最近几年得到了快速的发展，而人工智能技术在流媒体领域的渗透，使这项技术获得了新的突破。

人工智能正加速改变各个行业，而流媒体领域可能是其中改变最快的一个。随着神经网络相关算法问题得到解决，人工智能技术在最近几年得到了快速的发展，而人工智能技术在流媒体领域的渗透，使这项技术获得了新的突破。当下图片、长视频、短视频、直播、AR等各种媒体形式占据着互联网圈，在媒体内容和形式都非常丰富的今天，如何辨识、解析这些内容，并通过人工智能反馈是目前所有科技巨头关注的焦点，其中图像识别、语音语义识别、同声传译、字幕识别等应用场景的进一步挖掘，需要人工智能大战拳脚。

什么是人工智能？[[215192]]

通俗一点讲，人工智能就是大数据+机器学习。这跟我们人类很像，我们想要获取知识的话，需要很多的源材料，比如通过观察外边的世界，去阅读各种书籍，或者请教老师、他人等。对于计算机来说也是这样的原理，它需要获取大量的数据去做训练，在大量数据里边抽取出有用的信息，构成它的知识库。

数据是人工智能的基础

数据是人工智能技术实现的基础，在UCloud平台中，数据处理是如何操作的呢？首先，我们我们的对象存储、直播云、媒体工厂每天会产生大量的原始数据，比如对象存储每天新增的图片会超过10亿张，但是这些原始数据并不一定是对计算机友好的，例如直播数据，里面有传输的协议、音视频的交错，还有各种编码在里面，这样的原始的数据对机器学习来说是不友好的。我们就需要预处理的平台对原始数据进行处理，譬如图片压缩、音频提取与声道、采样率归一化、视频的抽帧等，这些预处理的功能目前采用docker镜像部署的方式跑在我们的弹性计算平台上，目前有超过10000个虚拟节点在做这个事情。

仅有数据还是不够的，我们需要对数据打上标签，让计算机知道这个东西是什么，然后它通过数据标签去训练和想学习，认识这一类的事物。目前打标签有多种形式，如人工标注、关键字主动抓取等，对于难于标注的语音类的数据，我们也会购买第三方的数据。数据是人工智能的基础，未来在人工智能这个领域，数据层面的竞争将会非常激烈。

机器学习解决哪些问题？

人工智能的另外一个重要环节机器学习，它解决的主要是两类问题，一是分类，二是回归。

分类目前应用得比较广泛，也相对成熟一些，如图片的分类，给出一张图片，识别这个图片是小猫还是小狗；或是对文字内容的分类，比如让计算机去分析一篇文章到底是体育类的还是经济类的等等。回归则是数学的概念，它处理的问题也是偏数学方向的，输入和输出都是数字类型的。据了解，目前有些团队在做类似股票预测的场景，像这种场景依赖的变量非常多，而且本身系统非常复杂，难度比较大。

分类功能在媒体领域的应用

在当下这个内容为王的时代，分类和回归在媒体方面的应用十分广泛，如内容审核、人脸识别、自动标签、字幕识别、同声传译等。

【内容审核】

目前大多数的内容平台对用户都是开放的，用户可以上传图片、视频等。开放本身是好事，使得内容更加丰富，但会涉及到很多网络监管问题，在国家和政府对网络内容的监管要求越来越严格的背景下，很多内容平台公司会专门成立内容审核部门，采用人工审核的方式，对用户上传内容进行全量审核。这项工作如果完全依赖人力审核的话是一项巨大的工程，且审核团队的工作枯燥乏味。

目前UCloud的UMAI平台支持图片与视频的涉黄、暴力等内容识别，通过调用UMAI接口来对内容做预处理，可以将占比为绝大多数的正常内容过滤掉，而只留下极少数判定为疑似不健康的内容，需要审核团队进行进一步的复查，这样极大的减少了人工审核的工作量。

【人脸识别】

人脸识别现在在人工智能这块应用较为广泛，如身份认证、手机刷脸、系统登录等；另外是人脸的搜索，比如在一段视频里快速确定有没有出现某个关键人物，或一个图片集里有没有包含这样的人。人脸识别主要的流程一般如下，首先对这个图片进行人脸的检测，然后提取关键点，包括眼睛、鼻子、嘴巴、耳朵、轮廓等，切分处理以后，再给到卷积网络提取特征，最后再做人脸识别，目前我们在公司考勤、政治任务识别方面已有相关的应用。

【自动标签】

针对用户自主上传的图片，自动标签则发挥出重要作为。用户在上传图片的时候，往往只会标注一到两个关键词，对图片进行描述，而图片里边包含的大量其他的内容和信息，是没办法检索出来的，因为现在很多后台的搜索是基于关键字的。通过计算机视觉的场景识别功能，可以很好的将图片的隐藏信息挖掘出来，让图片有更多的关键字，能够被更多的场景检索出来，发挥其作用。

【字幕识别】

字幕识别的应用非常直接而实用，例如身份证、发票、名片的识别，可以减少手写录入的工作量，而类似视频字幕识别这种，则可以帮助计算机更好地去理解视频的内容。

【同声传译】

目前国内企业出海风潮正盛，利用人工智能实现同声传译可以帮助跨国公司、员工进行不同语种间的交流。在视频直播这一块，我们做了这样的系统，可以在视频直播传输前，把里面的音频提取出来，做切片处理以后，把语音识别出来，经过翻译系统后输出字幕并打上时间戳，播放终端拿到字幕和视频数据后，做一次时间戳同步，在播放端进行展示。

这个系统主要有两个难点：一是它是经过了两次计算机的识别，第一次是语音的识别，第二次是翻译，这会有一个误差的累积；二是这种场景的实时性要求比较高，比如说字幕的翻译有点滞后，视频数据又需要比较低的延迟，这样体验会非常不好。这也是这款产品正在优化的两个方向。

人工智能私有化部署应用

以上提及的是聚焦于公有云平台的人工智能的应用，而我们在跟很多客户的交流中，因为政策以及保密的原因，他们不希望将数据放到公有云上，在他们内部也有不少服务器、视频采集设备等硬件资源，希望能够直接利用上。针对这样的需求，我们会建议使用私有化部署的方案。

UCloud平台做了两件事去实现私有化部署的方案：第一是组件化，我们内部有很多功能，比如直播、存储、录制、截图等，我们将这些功能剥离开，做成各种组件的形式。这样有一个好处，组件可以灵活搭配，用户需要什么功能就部署什么组件，如果对某些功能有个性化需求，只要简单修改对应组件的功能就可以了。第二是我们提供训练好的模型，部署到客户的私有环境中，目前这个模型是在我们公有云上训练好的。

私有化部署在自动考勤系统等场景已经有成熟的应用，我们也在不断挖掘更多可应用的场景，希望运用人工智能技术让我们的工作更便利、生活更美好。

文章来源网络，作者：管理，如若转载，请注明出处：https://shuyeidc.com/wp/228176.html<