DeepGen 1.0是由中国科学技术大学、西湖大学与南加州大学等联合推出的轻量级统一多模态模型,仅50亿参数,却在通用图像生成、编辑及复杂逻辑理解任务中实现超越级表现,多项指标击败参数量为其3–16倍的国际顶级模型。
Seedream 5.0是字节跳动推出的新一代知识型AI图像生成模型,行业首创联网检索生图能力,精准理解复杂抽象提示词,原生支持2K直出、AI增强至4K高清画质,并新增笔刷精细化编辑功能,官方对标行业顶尖模型Nano Banana Pro。
Z-Image是阿里通义推出的6B参数轻量化图像生成模型,构建单流DiT架构核心底座,衍生出三大功能变体:Z-Image-Turbo、Z-Image-Base、Z-Image-Edit,精准匹配不同场景需求。
Firefly Image 5是Adobe推出的新一代图像生成模型,凭借原生400万像素高分辨率输出、精细化人物渲染、智能图层编辑等核心能力,为创意工作者提供高效、灵活的生成式创作解决方案。
通义万相2.6是阿里云推出的最新一代AI视频与图像生成模型,于2026年1月正式发布。作为通义万相模型家族的最新版本,它在视频生成和图像创作方面实现了重大突破,是国内首个支持角色扮演功能的视频模型。
Manzano是苹果公司研发的新型多模态大语言模型,核心突破在于实现图像理解与图像生成的能力统一。模型创新性采用混合视觉分词器,将图像同步转化为两类特征表示:用于理解任务的连续嵌入向量,以及用于生成任务的离散图像标记。
HandRefiner提出一种针对性图像后处理方法,核心目标是在完全保留图像其他部分原貌的前提下,精准修正生成图像中形状异常的手部。
BabyVision是UniPat AI团队推出的专业多模态理解评测集,专门用于评估多模态语言模型(MLLMs) 与图像生成模型在视觉推理任务中的核心表现。