LLaMA是一组基础语言模型集合,参数规模从7亿到650亿不等,涵盖了不同的版本如7B、13B、33B、65B等。这些模型在数万亿个token上进行训练,展示了使用公开数据集也能达到先进水平的能力。
V-JEPA 是一种创新的自监督学习模型,通过预测视频帧的特征表示来学习视频的视觉表示。它不仅能够处理视频内容,还在图像任务上表现出色,具有广泛的应用潜力。