大模型 GPT-4 预估长这样
发布时间:2022-04-25 16:16 所属栏目:15 来源:互联网
导读:不久前,谷歌发布基于他们最新一代人工智能架构 Pathways 研发的 5400 亿参数大模型 PaLM,具备标记因果关系、上下文理解、推理、代码生成等等多项功能,其中常识推理能力更是较以往的语言模型有较大提升。 但同时,大家也一如既往地注意到 PaLM 的计算成本
不久前,谷歌发布基于他们最新一代人工智能架构 Pathways 研发的 5400 亿参数大模型 ——PaLM,具备标记因果关系、上下文理解、推理、代码生成等等多项功能,其中常识推理能力更是较以往的语言模型有较大提升。 但同时,大家也一如既往地注意到 PaLM 的计算成本:用了 6144 块 TPU。如果租显卡训练,最高花费可能达到 1700 万美元(人民币超过 1 个亿,“一个小目标”)。 显然,这很烧钱,不符合“经济可用”的原则。难怪业内人士常常吐槽:苦大模型久矣。 Alberto Romero 也猜测,或许 GPT-4 的规模会比 GPT-3 略大,但“大”不会像 GPT-3 一样成为 GPT-4 的“卖点”。相反,OpenAI 更致力于如何让规模较小的模型发挥更大的性能。 预测 GPT-4 不会太大 首先,Alberto 判断,GPT-4 不会是最大的语言模型。Altman 也称它不会比 GPT-3 大很多。与前几代的神经网络相比,GPT-4 肯定会很大,但大小不会是它的显著特征。GPT-4 可能介于 GPT-3 和 Gopher (175B-280B) 之间。 接着,Alberto 给出了他预测的理由: 去年由英伟达和微软开发的 Megatron-Turing NLG 有 530B 参数,一直是最大的密集神经网络 —— 其大小已是 GPT-3 的 3 倍 —— 直到最近出现了谷歌的 PaLM,其大小为 540B。但值得注意的是,MT-NLG 之后的一些较小的模型达到了更高的性能水平。 也就是说,更大 ≠ 更好。小型模型的存在有两个意义。 其一是,企业已经意识到,要改善性能,扩大模型的规模不是唯一的方法,也不是最好的方法。2020 年,OpenAI 的 Jared Kaplan 和同事得出结论,当增加的计算预算主要分配到增加参数的数量上时,性能的提高是最显著的,并且遵循幂律关系。谷歌、英伟达、微软、OpenAI、DeepMind 和其他开发语言模型的公司从表面上看接受了这一指导原则。 (编辑:ASP站长网) |
相关内容
网友评论
推荐文章
热点阅读