Meta 让 AI 视频计算成本暴减 95%
发布时间:2022-07-11 15:40 所属栏目:15 来源:互联网
导读:根据外媒 IEEE Spectrum 报道,Meta 公司的研究人员发表了一系列关于 MAE(masked auto-encoder,掩码自编码器)的新论文。MAE 系统可以通过 SSL 技术(self-supervised learning,自主监督学习)预测数据中缺失的部分,进而还原残缺的文本、图像、视频和音
根据外媒 IEEE Spectrum 报道,Meta 公司的研究人员发表了一系列关于 MAE(masked auto-encoder,掩码自编码器)的新论文。MAE 系统可以通过 SSL 技术(self-supervised learning,自主监督学习)预测数据中缺失的部分,进而还原残缺的文本、图像、视频和音频。 MAE 系统还原不同类型文件的通用原理,就是根据已有信息预测缺失内容,再用其它数据弥补。 通过这项技术,AI 或许能够自动进行数据标注(ground truth),而不用再通过人工标注。这就意味着,AI 模型的学习效率得到很大提升,这或许为 AI 模型的未来发展带来了新思路。 一、智力的本质是预测能力,SSL 技术可以提升 AI 智能水平 MAE 系统使用了 SSL 技术(Self-supervised Learning,自监督学习)。SSL 是指用于机器学习的标注源于数据本身,而非来自人工标注的一种技术。 MAE 系统可以从非常零散的残缺数据中预测出丢失的那些部分,从而还原图像、视频和音频。而这就是 MAE 系统构建“世界模型”(world models)的过程。 二、填字游戏新玩法?AI 帮你补全画面 Meta 的 AI 部门的研究人员罗斯・吉尔希克(Ross Girshick)与人合著了一篇关于 MAE 系统原理的论文。论文中提到,Meta 的 MAE 系统建立在一种叫 Transformer 的神经网络算法上。Transformer 是一类基于注意力机制的神经网络算法。这种算法可以让 AI 模型减少对外部信息的依赖,捕捉数据或特征的内部关系,优化模型训练结果。 ViT 模型(Vision Transformer) 的基本原理就是将 Transformer 架构应用于计算机视觉领域。具体而言,ViT 模型可以将图片切分为相同大小的补丁块,给每个补丁块编码后再组成图像序列,机器可以识别这种图像序列。基于这种启发,MAE 系统在预测缺失的图像时,会把图像分解成很多小补丁块,再用新的补丁块填充丢失的内容。 (编辑:ASP站长网) |
相关内容
网友评论
推荐文章
热点阅读