Command Palette
Search for a command to run...
JarvisArt-Preview 智能照片修饰代理
一、教程简介

JarvisArt-Preview 是由厦门大学,香港科技大学(广州),清华大学等机构于 2025 年 6 月 24 日发布的智能照片修图代理模型。在 Artistic Retouch Benchmark 上,该模型在「指令匹配精度」和「专业修图效果」类别上,分别比「Adobe Firefly Retouch」实现 68.3% 和 61.5% 的胜率优势。它还在 Style Transfer Evaluation Suite 和 Human Preference Test 等传统图像编辑基准测试中获得最先进性能。此外,该模型展示了以往系统罕见的功能,包括:自然语言驱动的 Lightroom 200 + 工具端到端调用,跨风格元素智能融合(支持油画 + 素描等混合风格),修图步骤可解释性回溯(生成每步操作的自然语言说明),文本 – 图像双向迭代优化(根据生成结果自动修正指令偏差)。相关论文成果为 JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent,已被 NeurIPS 2025 收录。
本教程采用资源为单卡 RTX 4090 。仅支持英文。
二、项目示例

三、运行步骤
1. 启动容器后点击 API 地址即可进入 Web 界面

2. 使用步骤
若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。需要使用 LightRoom 查看生成文件的结果。

参数说明
- Advanced Generation Parameters:
- Max New Tokens:限制模型生成修图相关文本(如操作指令、步骤说明等)的最大标记数量。值越大,生成的修图逻辑描述或步骤可能越详尽,对应输出内容的长度更长。
- Temperature:控制修图策略生成的随机性。值越低(如接近 0.1),输出的修图思路越稳定、可预测;值越高(如接近 2),修图创意越发散、多样,但可能出现不符合预期的调整逻辑。
- Top-K:每一步生成时,仅从概率最高的 K 个标记中选取内容。值越小(如 10),生成的修图指令越聚焦、保守;值越大(如 100),指令选择越多样,允许更多潜在的修图思路参与。
- Top-P(Nucleus Sampling):通过累计概率阈值控制生成多样性。值越低(如 0.5),仅从概率靠前的少量标记中采样,输出的修图逻辑更集中,值越高(如 0.9),允许更多低概率但有创意的标记参与,结果更具多样性。
- Conservative / Creative / Balanced:快速切换参数组合的快捷方式
- 「Conservative」模式,参数倾向于生成稳定、可预期的修图策略;
- 「Creative」模式侧重发散、多样的修图创意;
- 「Balanced」模式在稳定性与创意性之间取得折中。
四、交流探讨
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息
本项目引用信息如下:
@article{jarvisart2025,
title={JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent},
author={Yunlong Lin and Zixu Lin and Kunjie Lin and Jinbin Bai and Panwang Pan and Chenxin Li and Haoyu Chen and Zhongdao Wang and Xinghao Ding and Wenbo Li and Shuicheng Yan},
year={2025},
journal={arXiv preprint arXiv:2506.17612}
}