大数据文摘授权转载自夕小瑶科技说
作者:任同学
不以开放性著称的苹果居然同时开源了大模型的权重、训练和评估框架,涵盖训练日志、多个保存点和预训练设置。同时升级计算机视觉工具包 CVNets 为 CoreNet!支持 OpenELM!
▲图1.由Stable Diffusion3生成。
OpenELM是Apple苹果公司最新推出的语言模型系列,这次一共开源了8个模型,包括OpenELM-270M、OpenELM450M、OpenELM-1_1B和OpenELM-3B的预训练版和指令微调版。
▲图2.
OpenELM 采用了decoder-only的架构,并遵循最新的大语言模型(LLM)的设计,包括:
在任何全连接层中不使用可学习的偏置参数,
使用RMSNorm进行预归一化,同时使用旋转位置嵌入(ROPE)来编码位置信息,
使用分组查询注意力(GQA)代替多头注意力(MHA),
将前馈网络(FFN)替换为SwiGLU FFN,
使用Flash Attention来计算缩放点积注意力,
使用与LLama相同的分词器。
研究人员提到,现有的大型语言模型在模型的每个Transformer层中使用相同的配置,导致参数在各层之间均匀分布。
而OpenELM中的每个Transformer层具有不同的配置(例如,注意力头数量和前馈网络维度),导致模型的每个层中参数数量不同。这使得OpenELM能够更好地利用可用的参数以实现更高的准确性。
OpenELM采用按层分配参数的策略,有效提升了Transformer模型各层的参数配置效率,显著提高模型精度。例如,在大约十亿参数的预算下,OpenELM的准确率较OLMo提升了2.36%,且预训练所需的Token数量减少了一半。
为了实现Transformer层中参数的非均匀分配,研究人员调整了每个Transformer层中注意力头的数量和FFN维度调整系数。
假设具有均匀参数分配的标准Transformer模型有个Transformer层,每层输入的维度为。MHA有个头,每个头的维度为。
另外,FFN的隐藏维度为,其中是FFN隐藏层维度的调整系数。
假设具有均匀参数分配的标准Transformer模型有个Transformer层,每层输入的维度为。MHA有个头,每个头的维度为。
另外,FFN的隐藏维度为,其中是FFN隐藏层维度的调整系数。
引入参数和来缩放和。对于第层,和计算如下:
在这里,和是超参数,用于调整注意力头的数量。类似地,和被用于改变FFN层的宽度。因此,使用和来改变标准Transformer层的配置会导致模型中参数的非均匀分配。需要注意的是,设置和时则对应了标准均匀的Transformer模型。
可靠但保守的OpenELM?
▲图5.指令调优提高了OpenELM不同规模上的准确性。
研究人员将OpenELM与PyThia、Cerebras-GPT、TinyLlama、OpenLM、MobiLlama和OLMo等模型进行了比较。在相似的模型大小下,OpenELM在ARC、BoolQ、HellaSwag、PIQA、SciQ和WinoGrande等主流的任务测试中的多数任务上展现出了更高的准确度。
尤其是,与OLMo模型相比,OpenELM在参数数量和预训练数据更少的情况下,准确率依然更高。
升级的 CVNets:支持更广泛的AI任务
OpenELM:具有开源训练和推理框架的高效语言模型系列 CatLIP:在 Web-scale Image-Text DataCLIP 上以 2.7 倍的预训练速度实现 CLIP 级视觉识别准确率 Reinforce Data, Multiply Impact:通过数据集强化提高模型准确性和稳健性 CLIP meets Model Zoo Experts:视觉增强的伪监督 FastVit:使用结构重参数化的快速混合视觉Transformer Bytes Are All You Need: Transformers 直接操作的文件字节 MobileOne:改进的 One millisecond Mobile Backbone RangeAugment:Efficient Online Augmentation with Range Learning MobileViTv2:Separable Self-attention for Mobile Vision Transformers CVNets:高性能计算机视觉库,ACM MM'22 MobileViT:轻量级、通用且适合移动设备的 Vision Transformer,ICLR'22
似乎可以将CoreNet中的模型导出为MLX可以运行的格式。与PyTorch相比,CLIP等模型实现了60%的加速(小型号的优势最大)。这可能表明他们消除了PyTorch MPS所遭受的一些驱动延迟。
我不禁觉得这次发布的时机与即将到来的苹果发布会有关。
参考资料
[1]https://arxiv.org/pdf/2404.14619.pdf
[2]https://github.com/apple/corenet
[3]https://huggingface.co/apple/OpenELM
本文暂时没有评论,来添加一个吧(●'◡'●)