该大学尤洋：高性能 AI 的突破丨GAIR 2023

2024-01-19 来源 : 综艺

培训一次相当须要有有数几个月初等待时间。这也是为什么以外 ChatGPT 即便将其升级至不断更新原版，其中层还是 2021 年 9 月初原版的框架。也就是说，从 2021 年 9 月初至今，OpenAI 所谓并很难升级其产品线，根本状况就在于，框架的每次培训不有数成本高极低，培训周期也很粗大，因此大框架培训的牺牲高就愈来愈加致使。

设希望一个疑虑，以前有一个 1 万亿给定以及 1000 亿给定的大框架，我们能否用什么原理，去检测万亿给定大框架比千亿给定大框架二者哪个优点愈来愈好？也即是以外常说的，框架为副总有数增大、无论如何要增大到什么总体？

到以前而言，我觉得这个疑虑暂时难以用科学说道。状况有几个。

首先，培训神经新浪络普遍存在非凸冗余的疑虑，以外培训所连续函数的点多为大面积最优解、而非一个控制系统最优解。因此，我们要可验证神经新浪络培训到什么总体，在现有计计资源情形是难以可验证的。

第二个难度在于，大框架培训多半只培训一两个 epoch，而在此之后的 CNN 框架内都面，ResNet 培训有 90 个 epoch，甚至自监督研修培训有 1000 个 epoch，因此大框架只培训一两个 epoch 的方式为，大达只将原始有数据集过了一两遍，连续函数就愈来愈加不前提了。因此在培训成本高如此之高的情形，我们不能可验证，一个 1 万亿给定的框架和 2 万亿给定的框架二者谁愈来愈好，因为它们潜力都很难能通过科学实验赢取极好。因此我显然，以前 AI 大框架是一个科学实验性学科，如何能高效减低这个科学实验的生产成本，减低成本高，对整个行业的风行具有经济体制的作用。

回到普通人当内都面，为什么以前人人都在生活态度大框架？从有数学逻辑上看，框架给定就就越、优点就越好，这是显然的。

与此同时，成本高也再慢慢攀高。以外培训大框架相当须要成百上千、甚至上万个 GPU，如何将上万个 GPU 的成本高再进一步减低，再一愈来愈加大的。

在 20 年前，由于曾经依靠的是主频的，所有的程序来都是串行的，结论将驱动程序来运动速度降低 10 倍，在一路上字符串都并不需要的愈来愈改的情形，其试运行运动速度也可以减低 10 倍。但到了从前，如果希望将字符串运动速度减低 10 倍，假定驱动程序来仍未增速 10 倍，但如果不冗余字符串，很确实运动速度反而但会变慢。状况就在于，电脑程式需求量愈来愈多的情形，比如 GPU 当前，GPU 缓存和 CPU 相互间的原始有数据同方向移动，或是 GPU 间的原始有数据同方向移动，再欠缺搜索引擎意味著的原始有数据同方向移动，但会占优势整个控制系统的大部分等待时间，把大部分等待时间都花在了原始有数据同方向移动上，框架的扩展性也但会愈来愈为不好。

我显然，预见一个好的产自式插件和一个差的产自式插件，在上千个 GPU 上，甚至 500 个 GPU 上，其运动速度确实相差 10 倍。

Colossal-AI 如何试运行？

基于上述的再一，我们提不止了大框架培训控制系统 Colossal-AI，给予冗余原理，减低原始有数据同方向移动的牺牲，将框架扩展性生产成本写到最少。

一个具体的原始有数据是，用于一般来说的 PyTorch 培训 GPT-3，成本高为 1000 万美金，英伟达经过冗余后，用 Megatron 可将其成本高减低至 300 万美金，而用于 Colossal-AI 后，成本高可以减低到 130 万美金。可以想到，不尽相同的电叔父设备前提条件下，原始有数据同方向移动的最主要化将原始有数据同方向移动占比减低最少，须要把 GPU 旅客量扩展至最少点。

针对上述疑虑，Colossal-AI 提不止了三个复杂性。其他类似于的插件也还包括了这三个复杂性。

第一层是冗余缓存，先确保单个 GPU、单个搜索引擎的缓存生产成本最少，这是基础。

第二层是 N 维的依靠于。言例来说我们用于上千、上万个 GPU 时，其当前技术就是 ParallelComputing（依靠于计计）。从 1 个 GPU 扩到 10 个 GPU，因为其需求量比较小，我们可以短等待时间授予 7 倍减速；从 10 个到 100 个 GPU 时，多半确实只授予 4 倍减速，因为依靠于需求量变大，它的互联牺牲变高了。而从 100 个 GPU 到 1000 个 GPU，因为互联牺牲再进一步加高，很确实只授予 2 倍的减速。而从 1000 个 GPU 到 1 万个 GPU，如果插件试运行情况不佳时，不有数确实难以减速，甚至还但会愈来愈慢，因为电叔父设备将所有等待时间花耗在了极低密度的互联上。

其次是冗余疑虑，预见 AI 大框架的转变同方向我显然有两层，第一层是框架愈来愈为愈来愈加电脑，新设计不止愈来愈好的构件，比如说从 BERT 到 GPT，或者从 ResNet 到 BERT等，都是在慢慢地试着偏离框架构件。

此以外还有冗余原理的革新，从 SGD 成形 MOMENTUM、ADAGRAD，到以前有 ADAM，预见又但会有哪些愈来愈好的冗余原理须要将生产成本减低 10 倍，这一点也愈来愈加不可忽视。

具体到值得一提的是培训大框架的依靠于疑虑。

首先是原始有数据依靠于，这是一般来说、也是最少效的依靠于原理。原始有数据依靠于所指的是，结论现有 1 万张图表，每次循环控制系统处理 1000 张图表，如果有 10 个电脑程式，每个电脑程式分配 100 张，10 个循环控制系统亦可顺利完成所有图表的处理。

在原始有数据依靠于的全过程内都面相当须要顺利顺利完成统计，每个电脑程式用不尽相同的原始有数据授予不尽相同位移，电脑程式在不尽相同原始有数据上研修不尽相同的愈来愈改，并愈来愈新给定位移，最后计不止一个控制系统位移，以外转用的是加和求平以外的方式为，优点仍未愈来愈加好了。在此之后 Colossal-AI 在原始有数据依靠于内都面的 LARS 原理，就为谷歌、 Meta、腾讯、SONY等该公司，将 ImageNet 的培训等待时间从一每隔缩短至一分钟。

原始有数据依靠于是最基本上的，同时也是最稳定的。将原始有数据划分之后，结论预见有 1 万个 GPU，很容易牵涉到的情况是，隔几个每隔就有四五个 GPU 崩溃了，运维 1 万个 GPU 的集群不能，但原始有数据依靠于的稳定之处在于，即便有 1 万个GPU 崩溃了十几个，但大抵结果是不但会变的，因为它是位移加和求平以外。

基于这个考量，我显然原始有数据依靠于是一个经济体制的交通运输。

当然，有数用原始有数据依靠于相当够，状况在于：原始有数据依靠于有一个结论，必须将框架拷贝到每个 GPU 或搜索引擎内，由搜索引擎或 GPU 去绑定位移。但如果 GPU 有数 80G 缓存时，万亿给定的框架则相当须要几十 T 的缓存，这在 GPU 内都面是难以可用的，相当须要将框架切开至不尽相同的 GPU 上再统计结果。这种原理叫认真框架依靠于。框架依靠于还包括两种，第一种是向量场依靠于（ tensor paralism），即层内的框架依靠于。例如 GPT-3 的顶层达莫为八九十层，每层切开一次框架，将其层内计计分隔成多份，计完一层再计下一层，分列类推，这就是向量场依靠于。

另一种方式为则是 Pipeline Parallelism（SMT依靠于），介于原始有数据依靠于和向量场依靠于以外的一种框架依靠于方式为。通过构建几个原始有数据 pipe（管道），每个原始有数据 pipe 的原始有数据点不尽相同，大达将一个大规格分离为多个小规格，通过这种方式为顺利顺利完成 pipe 计计。假如有 10 个 pipe，10 个 pipe 代表十组不尽相同的原始有数据，第一个 pipe 计计第一层的原始有数据，第二个 pipe 计计第二层......用意方式为依靠于，类似于我们顶上楼一样，10 个工程队顶上 1000 层楼，当第一个工程队在顶上第一栋楼的第一层，第二个工程队顶上第二栋楼的第二层，依此类推。

当楼有数就越多，楼和工程队相互间的成正比就就越，生产成本也就就越，大达 10 个工程队在同时电化。其内都面每个工程队就大达一个 GPU，每个楼就大达一个 pipe，楼的顶层大达这个神经新浪络的顶层，这就SMT依靠于的当前逻辑。

以外大型中小企业仍未认真了相关的工作，除了 Colossal-AI 都是，还有英伟达的 TensorRT 和微软的 DeepSpeed，他们也是技术壁垒最少的两家该公司。

但 Colossal-AI 与其不尽相同之处是，Colossal-AI 个人兴趣于预见大框架的转变同方向。可以想到，言例来说的框架还在愈来愈为愈来愈长，而不是愈来愈为愈来愈深，向量场依靠于将但会愈来愈加不可忽视，但它最主要的政治腐败就在于，因为它是切开的是整个层，互联花销太大。这也是为什么英伟达 CEO 在 GTC 东盟上首次介绍 3D 依靠于时特别说明其互联花销太大的疑虑，不能放上一个搜索引擎内去认真。因此，Colossal-AI 主打歌 2D 向量场依靠于和 2.5D 向量场依靠于，将计计成本高减低了一个总有数级。

这就意味著用一维向量场依靠于，1 万个电脑程式内都，每个电脑程式都相当须要跟 9999 个电脑程式认真事，而 2D 向量场依靠于则是将其分成了各个叔父各别，每个电脑程式只相当须要跟 96 个电脑程式认真事。它的当前逻辑是，用一些 local synchronization（大面积互联）去改用global synchronization（一个控制系统互联），以愈来愈多的大面积互联去改用一个控制系统互联，这个全过程内都面，新设计集内都面管理是最吃力的。

3D 向量场依靠于也是同样，每升高一个的点，它的新设计复杂度但会高一个总有数级，最终互联复杂度下降了。

在缓存冗余总体，以外 AI 大框架培训的缓存花销不大，即便什么不希望都不认真，也相当须要几 T 的缓存，如果不顺利顺利完工干预，一旦用于起来，确实相当须要几十 T 甚至是几百 T 的缓存。

为了让框架预测优点愈来愈好，我们多半相当须要粗大氨基酸原始有数据，言例来说大框架的相当一定是通过一个单字的输不止来预测下一个单字的概率，粗大氨基酸成为刚须。已对， Colossal-AI 也推不止了 Sequence Parallelism（氨基酸依靠于）。

具体而言，在将氨基酸顺利顺利完成切开后，但会面临一个致使的疑虑是：在顺利顺利完成 attention score 时，每个 token 都相当须要跟一个控制系统氨基酸内都面的其他 token 去危险性评估，而分开后的搜索引擎上只有部分 token，其他搜索引擎上也但会产自不尽相同的 token，以至于每个搜索引擎试运行是相当须要同其他搜索引擎认真事。

也就是说，结论以前屋叔父内都 200 个人每人分别拿了一包饼干，我渴望每个人能品尝下其他全都的饼干，有有数相当须要 200 个平方次绑定，才能让每个人都正因如此其他人的所有饼干。那么一般来说的方式为是：全都内都外一个圈，每个人将自己吃饱过的饼干还给右方的人，从自己的右侧授予饼干，有数须 n-1 次，即 199 次的传递亦可顺利完成。从而减低了整个互联成本高。

总结一下，以外 AI 大框架培训的当前技术叔父程序来，却是就是依靠于计计，因为我们要处理成百上千上万个 GPU 当前，把所有 GPU 依靠于依靠于起来。原始有数据依靠于、向量场依靠于、SMT依靠于以及原始有数据氨基酸依靠于是依靠于内都面比较当前的模块。

以外在缓存冗余总体，我们处于一个很难太多选择的环境，英伟达 GPU 是最好的，我们好像也很难其他愈来愈好的方案须要去改用它。但美内都面不足的是，英伟达 GPU 的缓存有限，在这种情形，我们能否探究如何依靠于 CPU 缓存、NVMe缓存，当前思希望就是，GPU 缓可用不下就移到 CPU 上，CPU 一心一意就放上 NVMe 上，大达在顶上楼时，所相当须要的制品自家楼下工地一心一意，那我们就将其放上住家工厂。其技术的当前也在于最主要化原始有数据同方向移动，即最主要化 CPU、 GPU 相互间的原始有数据同方向移动，最强化 CPU 和 NVMe 相互间的原始有数据同方向移动，从而将足可力运动速度减低到最少。

走向开源

Colossal-AI 是一个开源插件，同时我们也认真了一个商业化的该平台，对很难 GPU 的用于者，可以必要在该平台跟着培训调遣自己的大框架。我们也给予了 LLaMA、PaLM、 GPT 等各种框架，最快有数须两三天就可顺利完成一个框架微调。远比之前用于者确实相当须要几周、乃至几个月初来处理驱动程序来、插件等交通运输，生产成本赢取了大大减低。同时，Colossal-AI 也维护用于者的个人信息，该平台不但会沿用、访问用于者原始有数据，这是 Colossal-AI 与 OpenAI ChatGPT 的相当一定区别。我们将原始有数据发送给至 Google Cloud 时，很多时候 Google 并很难碰到我们的原始有数据，但是 OpenAI GPT 但会顺利顺利完成统计分析，AI 框架的不应解释性、培训不全盘等危险性普遍普遍存在。因此，预见也但会有很多中小企业培训自己的大框架，Colossal-AI 认真的，是最主要化维护用于者的个人信息，同时给予大框架培训的工具。

在性能上，Colossal-AI 在同样的驱动程序来上可以培训24 倍大的框架，相对于 DeepSpeed 的 3 倍减速，即便是一个消费市场的搜索引擎，也可以依靠 Colossal-AI 顺利完成相应的框架培训。例如 LLaMA-65B 的培训，在 Colossal-AI 上用于同样的字符串放，可以必要授予达 50% 的减速生产成本。

一个有趣的比作，比如说以前大框架是泥金叔父，英伟达是兜售铲叔父的，那我们就是兜售项圈、兜售外套的，把泥金叔父的生产成本写到最少。

（雷峰新浪雷峰新浪）

。

艾拉莫德片治类风湿怎么样
来氟米特的副作用有多少
艾得辛与来氟米特哪个治疗类风湿效果好
杭州治疗男科
类风湿的早期症状有哪些表现

上一篇：邓超俞白眉制片《中国乒乓》曝先导预告及海报再现国乒重回巅峰之路

下一篇：分析——太空望远镜的外部电磁干扰和内部电磁干扰