Z-Image是阿里通义推出的6B参数轻量化图像生成模型,构建单流DiT架构核心底座,衍生出三大功能变体:Z-Image-Turbo、Z-Image-Base、Z-Image-Edit,精准匹配不同场景需求。
Firefly Image 5是Adobe推出的新一代图像生成模型,凭借原生400万像素高分辨率输出、精细化人物渲染、智能图层编辑等核心能力,为创意工作者提供高效、灵活的生成式创作解决方案。
通义万相2.6是阿里云推出的最新一代AI视频与图像生成模型,于2026年1月正式发布。作为通义万相模型家族的最新版本,它在视频生成和图像创作方面实现了重大突破,是国内首个支持角色扮演功能的视频模型。
Manzano是苹果公司研发的新型多模态大语言模型,核心突破在于实现图像理解与图像生成的能力统一。模型创新性采用混合视觉分词器,将图像同步转化为两类特征表示:用于理解任务的连续嵌入向量,以及用于生成任务的离散图像标记。
HandRefiner提出一种针对性图像后处理方法,核心目标是在完全保留图像其他部分原貌的前提下,精准修正生成图像中形状异常的手部。
BabyVision是UniPat AI团队推出的专业多模态理解评测集,专门用于评估多模态语言模型(MLLMs) 与图像生成模型在视觉推理任务中的核心表现。