Stable Diffusion

精选

完全开源的AI图像生成引擎，支持本地部署，创作自由无上限

★★★★★4.6(3840)免费+付费

工具介绍

Stable Diffusion 是由 Stability AI 主导开发、学术界联合发布的开源文本生成图像模型。它基于潜在扩散模型（LDM）架构，能够根据文字描述生成高质量图像，也支持图生图、局部重绘、ControlNet 精准控制等高级功能。与 Midjourney、DALL·E 等闭源服务不同，Stable Diffusion 可完全本地运行，无需订阅费用，用户可自由微调模型、加载社区 LoRA 和 Checkpoint，是目前自由度最高、生态最完整的 AI 绘图工具，广泛服务于设计师、插画师、游戏开发者和 AI 研究者群体。

产品截图

核心功能

✦「文本生成图像（txt2img）」：输入自然语言提示词，模型通过反向扩散过程逐步去噪生成图像。支持正向提示词与负向提示词组合，精细控制画面内容、风格、光影，单次可批量生成多张，效率远超手动绘制。

✦「图生图（img2img）」：上传参考图后，模型在保留原图构图或色调的基础上进行风格迁移或内容改写。通过调节重绘幅度（Denoising Strength）参数，可精确控制与原图的相似程度，适合草稿精修和风格统一化处理。

✦「ControlNet 精准姿态与构图控制」：通过骨骼检测、深度图、边缘线稿等条件图，将人物姿态、场景透视锁定后再生成图像。设计师可先用3D软件或手绘确定构图，再交由AI填充细节，彻底解决AI生图构图失控的痛点。

✦「LoRA 与 Checkpoint 模型生态」：Civitai 等社区提供数万个经过微调的风格模型，涵盖二次元、写实摄影、水彩、像素艺术等风格。加载对应 LoRA 文件后，只需少量提示词即可稳定复现特定画风，大幅降低提示词工程门槛。

✦「局部重绘（Inpainting）」：在生成图像上用画笔涂抹需要修改的区域，模型仅对选区进行重新生成，其余部分保持不变。可用于修复手部、面部细节，或替换背景元素，精度远高于整图重生成，节省大量后期修图时间。

✦「高分辨率放大（Hires.fix / Upscale）」：先以低分辨率生成构图，再通过 Hires.fix 或 Ultimate SD Upscale 插件进行高清放大，最终输出 2K/4K 级别图像。相比直接生成高分辨率，此方式显著减少人体变形和画面崩坏概率，是出图质量的重要保障。

优缺点分析

👍 优点

✓完全免费且开源：模型权重公开，本地部署后无任何使用费用。相比 Midjourney 每月 $10-$120 的订阅，长期使用成本几乎为零，对高频出图的商业用户节省显著。
✓生态极度丰富：Civitai 社区已有超过 10 万个模型、LoRA 和 Embedding 资源，AUTOMATIC1111 和 ComfyUI 两大前端拥有数百个插件，几乎任何垂直需求都能找到现成解决方案。
✓数据隐私有保障：本地运行意味着图像内容不经过任何第三方服务器，对于涉及商业机密的概念设计、品牌视觉稿，隐私安全性远优于云端 API 服务。
✓可定制性无上限：支持用自有数据集训练专属 LoRA 或 DreamBooth 模型，可将特定人物、产品、IP 形象固化为可复用的风格模型，实现真正意义上的品牌视觉一致性。

👎 缺点

✗上手门槛较高：首次配置涉及 Python 环境、CUDA 驱动、模型下载等步骤，对非技术背景用户不友好，初次安装耗时可能超过2小时。
✗硬件要求明确：流畅运行需要至少 6GB 显存的 NVIDIA 显卡，低配设备出图速度极慢，Mac 用户体验也明显弱于 Windows+NVIDIA 组合。
✗提示词学习成本不低：与 Midjourney 的自然语言交互不同，SD 的提示词有特定语法逻辑，需要一定时间积累才能稳定出图，新手容易因提示词不当导致结果偏差大。

如何使用

1
安装 Python 环境与 Git — 前往 python.org 下载 Python 3.10.x 版本（注意不要用 3.11 以上，部分依赖库存在兼容问题），安装时勾选'Add Python to PATH'选项。同时安装 Git（git-scm.com）。安装完成后打开命令提示符，输入 python --version 和 git --version 确认两者均正确安装。NVIDIA 显卡用户还需确认已安装匹配版本的 CUDA 驱动，可在 NVIDIA 控制面板中查看当前驱动版本。
2
克隆并启动 AUTOMATIC1111 WebUI — 在命令行中进入你想存放项目的目录，执行 git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git，等待克隆完成。进入文件夹后，Windows 用户直接双击运行 webui-user.bat，脚本会自动创建虚拟环境并安装所有依赖包，首次运行需下载约 2-4GB 数据，耐心等待。安装完成后浏览器会自动打开 http://127.0.0.1:7860，看到界面即表示安装成功。
3
下载并加载基础模型 — 前往 Civitai（civitai.com）或 Hugging Face 下载 Checkpoint 模型文件（.safetensors 格式，通常 2-7GB）。推荐新手从 Realistic Vision 或 DreamShaper 入手，前者擅长写实风格，后者综合表现均衡。将下载的模型文件放入 stable-diffusion-webui/models/Stable-diffusion/ 目录，回到 WebUI 界面点击左上角刷新按钮，在模型下拉菜单中选择刚才放入的模型即可激活。
4
编写提示词并生成第一张图 — 在正向提示词框输入描述内容，建议格式为：画面主体 + 风格描述 + 质量词，例如 'a young woman in a cafe, soft natural lighting, photorealistic, 8k, detailed'。负向提示词框填入 'ugly, blurry, bad anatomy, watermark, low quality' 等通用排除词。参数设置建议：采样步数 20-30 步，CFG Scale 7，分辨率 512x512 或 768x768，点击 Generate 等待出图。首次出图建议多生成几张对比效果。
5
使用 ControlNet 提升出图精准度 — 在 WebUI 的 Extensions 标签页搜索并安装 ControlNet 扩展，重启后在 txt2img 页面下方会出现 ControlNet 折叠面板。展开后上传参考图（如人物姿态图或线稿），在预处理器下拉菜单选择对应类型（openpose 用于姿态控制，canny 用于线稿控制），Control Weight 建议设为 0.8-1.0。配合提示词生成，AI 将严格遵循参考图的构图或姿态，大幅提升出图可控性。进阶技巧：多个 ControlNet 单元可叠加使用，同时控制姿态和深度。

常见问题

Q: 没有高端显卡能用 Stable Diffusion 吗？

A: 可以用，但体验差异明显。6GB 以上 NVIDIA 显卡是流畅运行的基准线，4GB 显卡可通过开启低显存模式（--medvram 或 --lowvram 参数）运行，但出图速度会慢2-4倍。Mac 用户可使用 MPS 后端，M1/M2 芯片表现尚可。没有独立显卡也能用 CPU 模式，但单张图生成时间可能长达数分钟，仅适合偶尔测试，不适合日常使用。云端方案如 Google Colab 可作为低配设备的替代选择。

Q: Stable Diffusion 和 Midjourney 到底选哪个？

A: 两者定位不同，不是非此即彼的关系。Midjourney 开箱即用、审美在线，适合快速出图且不想折腾配置的用户，但月费持续产生、内容有审核限制、定制空间有限。Stable Diffusion 学习成本高，但一旦上手，可控性、定制性和长期成本优势碾压 Midjourney。建议：如果你是设计从业者、有特定风格需求或高频出图，SD 的投入回报率更高；如果只是偶尔用用，Midjourney 更省心。

Q: 生成的图像有版权问题吗，能商用吗？

A: Stable Diffusion 模型本身采用 CreativeML Open RAIL-M 许可证，允许商业使用，但禁止用于生成违法内容。实际商用时需注意两点：一是所用的社区模型（Checkpoint/LoRA）可能有各自的授权条款，使用前需确认；二是部分国家和地区对 AI 生成内容的版权归属尚无明确法律，建议在商业项目中叠加人工创作元素以降低法律风险。总体而言，合规使用下商用是被允许的。

Q: AUTOMATIC1111 和 ComfyUI 哪个更适合新手？

A: AUTOMATIC1111（WebUI）更适合新手入门。它提供传统的表单式界面，参数一目了然，社区教程极其丰富，遇到问题基本都能搜到解决方案。ComfyUI 采用节点式工作流设计，灵活性更强，适合想深度定制生成流程的进阶用户，但学习曲线陡峭。建议新手从 AUTOMATIC1111 开始，熟悉 SD 的核心参数逻辑后，再按需迁移到 ComfyUI 探索更复杂的工作流。

用户评价

暂无评价，成为第一个评价 Stable Diffusion 的用户

基本信息

定价: 免费+付费
价格: Stable Diffusion 模型本身完全免费开源，本地部署零成本。Stability AI 官方提供 DreamStudio 云端平台，新用户赠送25点积分，之后按图计费约 $0.002-$0.05/张。第三方整合包如 AUTOMATIC1111 和 ComfyUI 均免费使用。
评分: 4.6 / 5.0
分类: AI 图像

免费试用 ↗

产品定价

本地部署（免费）免费 / $0

✓完整模型权重免费下载使用
✓支持 AUTOMATIC1111 / ComfyUI 前端
✓无出图数量限制，无水印
✓可加载全部社区模型和插件
✓数据完全本地处理，隐私有保障

DreamStudio 入门约 $10 充值包

✓云端运行无需本地显卡
✓约 1000 张标准分辨率图像额度
✓支持 Stable Diffusion XL 最新模型
✓官方维护，稳定性有保障
✓适合偶尔使用或硬件不足的用户

Stability AI API（商业）按量计费，约 $0.002-$0.05/张

✓REST API 接入，可集成至自有产品
✓支持最新 Stable Image 系列模型
✓企业级 SLA 和技术支持
✓支持批量请求和异步任务
✓可申请私有化部署方案

适用场景

▸游戏概念设计批量出图：游戏美术团队用 ControlNet 锁定角色姿态和场景透视，配合风格 LoRA 批量生成概念图供策划筛选，将单张概念图产出时间从数小时压缩至分钟级，大幅提升立项前期的视觉沟通效率。
▸电商产品场景图生成：商家将产品实拍图通过 img2img 放入 AI 生成的场景背景中，配合 Inpainting 精修边缘融合，低成本产出多套场景图，替代部分实景拍摄需求，单套场景图成本可降低80%以上。
▸插画师风格化辅助创作：插画师将线稿上传至 ControlNet 的 Lineart 模式，让 AI 在保留原始构图的前提下填充色彩和光影，再手动精修细节，将上色环节效率提升3-5倍，同时保留个人风格主导权。
▸个人IP形象固化与衍生：用 DreamBooth 或 LoRA 训练技术，输入20-30张特定角色图像训练专属模型，之后可稳定生成该角色在不同场景、服装、表情下的图像，适合 IP 运营者快速产出衍生内容。

工具对比

想知道 Stable Diffusion 和其他工具的区别？

Midjourney vs Stable Diffusion：AI绘图工具对比 →Stable Diffusion vs DALL-E 3：AI图像生成对比 →Stable Diffusion vs Flux：开源AI图像生成对比 →