Meta 让 AI 视频计算成本暴减 95%

发布时间：2022-07-11 15:40 所属栏目：15 来源：互联网

导读：根据外媒 IEEE Spectrum 报道，Meta 公司的研究人员发表了一系列关于 MAE（masked auto-encoder，掩码自编码器）的新论文。MAE 系统可以通过 SSL 技术（self-supervised learning，自主监督学习）预测数据中缺失的部分，进而还原残缺的文本、图像、视频和音

　　根据外媒 IEEE Spectrum 报道，Meta 公司的研究人员发表了一系列关于 MAE（masked auto-encoder，掩码自编码器）的新论文。MAE 系统可以通过 SSL 技术（self-supervised learning，自主监督学习）预测数据中缺失的部分，进而还原残缺的文本、图像、视频和音频。

　　MAE 系统还原不同类型文件的通用原理，就是根据已有信息预测缺失内容，再用其它数据弥补。

　　通过这项技术，AI 或许能够自动进行数据标注（ground truth），而不用再通过人工标注。这就意味着，AI 模型的学习效率得到很大提升，这或许为 AI 模型的未来发展带来了新思路。

　　一、智力的本质是预测能力，SSL 技术可以提升 AI 智能水平
　　MAE 系统使用了 SSL 技术（Self-supervised Learning，自监督学习）。SSL 是指用于机器学习的标注源于数据本身，而非来自人工标注的一种技术。

　　MAE 系统可以从非常零散的残缺数据中预测出丢失的那些部分，从而还原图像、视频和音频。而这就是 MAE 系统构建“世界模型”（world models）的过程。

　　二、填字游戏新玩法？AI 帮你补全画面
　　Meta 的 AI 部门的研究人员罗斯・吉尔希克（Ross Girshick）与人合著了一篇关于 MAE 系统原理的论文。论文中提到，Meta 的 MAE 系统建立在一种叫 Transformer 的神经网络算法上。Transformer 是一类基于注意力机制的神经网络算法。这种算法可以让 AI 模型减少对外部信息的依赖，捕捉数据或特征的内部关系，优化模型训练结果。

　　ViT 模型（Vision Transformer) 的基本原理就是将 Transformer 架构应用于计算机视觉领域。具体而言，ViT 模型可以将图片切分为相同大小的补丁块，给每个补丁块编码后再组成图像序列，机器可以识别这种图像序列。基于这种启发，MAE 系统在预测缺失的图像时，会把图像分解成很多小补丁块，再用新的补丁块填充丢失的内容。

（编辑：ASP站长网）