苹果公司开源了一个用于训练深度神经网络的库 CoreNet。允许研究人员和工程师训练标准和新型的小型和大型模型,以完成各种任务,包括基础模型(如 CLIP 和 LLM)、对象分类、对象检测和语义分割。
目前,苹果公司已经利用 CoreNet 开展了以下研究工作:
- OpenELM:具有开源训练和推理框架的高效语言模型系列
- CatLIP:在 Web-scale Image-Text DataCLIP 上以 2.7 倍的预训练速度实现 CLIP 级视觉识别准确率
- Reinforce Data, Multiply Impact:通过数据集强化提高模型准确性和稳健性
- CLIP meets Model Zoo Experts:视觉增强的伪监督
- FastVit:使用结构重参数化的 Fast Hybrid Vision Transformer
- Bytes Are All You Need: Transformers Operating Directly on File Bytes
- MobileOne:改进的 One millisecond Mobile Backbone
- RangeAugment:Efficient Online Augmentation with Range Learning
- Separable Self-attention for Mobile Vision Transformers (MobileViTv2)
- CVNets:高性能计算机视觉库,ACM MM'22
- MobileViT:轻量级、通用且适合移动设备的 Vision Transformer,ICLR'22
CoreNet 基于 CVNet 演变而来,涵盖计算机视觉之外更广泛的应用。该公司声称,CoreNet 的扩展促进了包括 LLM 在内的基础模型的训练。
CVNets 是苹果公司在去年开源的一个计算机视觉工具包,允许研究人员和工程师为各种任务训练标准和移动 / 非移动计算机视觉模型,包括对象分类、对象检测、语义分割和基础模型(例如,CLIP)。
CoreNet 的 0.1.0 版本包括:
- OpenELM
- CatLIP
- MLX examples