GPT-4模型架构、训练成本和数据集信息泄露

极客号(Daydx.com)7月11日 消息:今天,SemiAnalysis 发布了一篇付费订阅的内容,「揭秘」了有关 GPT-4的信息,包括模型架构、训练成本、数据集等。

据称,GPT-4是由8个混合专家模型组成的集成系统,每个模型有2200亿个参数。推理过程中采用了混合专家模型,路由方式相对简单。训练数据集包含约13万亿个 token,训练时间为90到100天,成本达到6300万美元。推理成本为每1000个 token 约为0.0049美分。

GPT-4模型架构、训练成本和数据集信息泄露

文章还提到了 GPT-4的视觉多模态、推测式解码等特点。这些揭秘的数据对理解 OpenAI 的架构决策非常有意义。

此外,文章还介绍了 A100上 GPT-4的训练和推理成本,以及如何拓展到下一代模型架构 H100。

郑重声明:本文内容及图片均整理自互联网,不代表本站立场,版权归原作者所有,如有侵权请联系管理员(admin#wlmqw.com)删除。
(0)
用户投稿
上一篇 2023年7月11日
下一篇 2023年7月11日

相关推荐

联系我们

联系邮箱:admin#wlmqw.com
工作时间:周一至周五,10:30-18:30,节假日休息