Stable Diffusion

精选

完全开源的AI图像生成引擎,支持本地部署,创作自由无上限

★★★★★4.6(3840)免费+付费

工具介绍

Stable Diffusion 是由 Stability AI 主导开发、学术界联合发布的开源文本生成图像模型。它基于潜在扩散模型(LDM)架构,能够根据文字描述生成高质量图像,也支持图生图、局部重绘、ControlNet 精准控制等高级功能。与 Midjourney、DALL·E 等闭源服务不同,Stable Diffusion 可完全本地运行,无需订阅费用,用户可自由微调模型、加载社区 LoRA 和 Checkpoint,是目前自由度最高、生态最完整的 AI 绘图工具,广泛服务于设计师、插画师、游戏开发者和 AI 研究者群体。

产品截图

Stable Diffusion 界面截图

核心功能

「文本生成图像(txt2img)」:输入自然语言提示词,模型通过反向扩散过程逐步去噪生成图像。支持正向提示词与负向提示词组合,精细控制画面内容、风格、光影,单次可批量生成多张,效率远超手动绘制。
「图生图(img2img)」:上传参考图后,模型在保留原图构图或色调的基础上进行风格迁移或内容改写。通过调节重绘幅度(Denoising Strength)参数,可精确控制与原图的相似程度,适合草稿精修和风格统一化处理。
「ControlNet 精准姿态与构图控制」:通过骨骼检测、深度图、边缘线稿等条件图,将人物姿态、场景透视锁定后再生成图像。设计师可先用3D软件或手绘确定构图,再交由AI填充细节,彻底解决AI生图构图失控的痛点。
「LoRA 与 Checkpoint 模型生态」:Civitai 等社区提供数万个经过微调的风格模型,涵盖二次元、写实摄影、水彩、像素艺术等风格。加载对应 LoRA 文件后,只需少量提示词即可稳定复现特定画风,大幅降低提示词工程门槛。
「局部重绘(Inpainting)」:在生成图像上用画笔涂抹需要修改的区域,模型仅对选区进行重新生成,其余部分保持不变。可用于修复手部、面部细节,或替换背景元素,精度远高于整图重生成,节省大量后期修图时间。
「高分辨率放大(Hires.fix / Upscale)」:先以低分辨率生成构图,再通过 Hires.fix 或 Ultimate SD Upscale 插件进行高清放大,最终输出 2K/4K 级别图像。相比直接生成高分辨率,此方式显著减少人体变形和画面崩坏概率,是出图质量的重要保障。

优缺点分析

👍 优点

  • 完全免费且开源:模型权重公开,本地部署后无任何使用费用。相比 Midjourney 每月 $10-$120 的订阅,长期使用成本几乎为零,对高频出图的商业用户节省显著。
  • 生态极度丰富:Civitai 社区已有超过 10 万个模型、LoRA 和 Embedding 资源,AUTOMATIC1111 和 ComfyUI 两大前端拥有数百个插件,几乎任何垂直需求都能找到现成解决方案。
  • 数据隐私有保障:本地运行意味着图像内容不经过任何第三方服务器,对于涉及商业机密的概念设计、品牌视觉稿,隐私安全性远优于云端 API 服务。
  • 可定制性无上限:支持用自有数据集训练专属 LoRA 或 DreamBooth 模型,可将特定人物、产品、IP 形象固化为可复用的风格模型,实现真正意义上的品牌视觉一致性。

👎 缺点

  • 上手门槛较高:首次配置涉及 Python 环境、CUDA 驱动、模型下载等步骤,对非技术背景用户不友好,初次安装耗时可能超过2小时。
  • 硬件要求明确:流畅运行需要至少 6GB 显存的 NVIDIA 显卡,低配设备出图速度极慢,Mac 用户体验也明显弱于 Windows+NVIDIA 组合。
  • 提示词学习成本不低:与 Midjourney 的自然语言交互不同,SD 的提示词有特定语法逻辑,需要一定时间积累才能稳定出图,新手容易因提示词不当导致结果偏差大。

如何使用

  1. 1
    安装 Python 环境与 Git前往 python.org 下载 Python 3.10.x 版本(注意不要用 3.11 以上,部分依赖库存在兼容问题),安装时勾选'Add Python to PATH'选项。同时安装 Git(git-scm.com)。安装完成后打开命令提示符,输入 python --version 和 git --version 确认两者均正确安装。NVIDIA 显卡用户还需确认已安装匹配版本的 CUDA 驱动,可在 NVIDIA 控制面板中查看当前驱动版本。
  2. 2
    克隆并启动 AUTOMATIC1111 WebUI在命令行中进入你想存放项目的目录,执行 git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git,等待克隆完成。进入文件夹后,Windows 用户直接双击运行 webui-user.bat,脚本会自动创建虚拟环境并安装所有依赖包,首次运行需下载约 2-4GB 数据,耐心等待。安装完成后浏览器会自动打开 http://127.0.0.1:7860,看到界面即表示安装成功。
  3. 3
    下载并加载基础模型前往 Civitai(civitai.com)或 Hugging Face 下载 Checkpoint 模型文件(.safetensors 格式,通常 2-7GB)。推荐新手从 Realistic Vision 或 DreamShaper 入手,前者擅长写实风格,后者综合表现均衡。将下载的模型文件放入 stable-diffusion-webui/models/Stable-diffusion/ 目录,回到 WebUI 界面点击左上角刷新按钮,在模型下拉菜单中选择刚才放入的模型即可激活。
  4. 4
    编写提示词并生成第一张图在正向提示词框输入描述内容,建议格式为:画面主体 + 风格描述 + 质量词,例如 'a young woman in a cafe, soft natural lighting, photorealistic, 8k, detailed'。负向提示词框填入 'ugly, blurry, bad anatomy, watermark, low quality' 等通用排除词。参数设置建议:采样步数 20-30 步,CFG Scale 7,分辨率 512x512 或 768x768,点击 Generate 等待出图。首次出图建议多生成几张对比效果。
  5. 5
    使用 ControlNet 提升出图精准度在 WebUI 的 Extensions 标签页搜索并安装 ControlNet 扩展,重启后在 txt2img 页面下方会出现 ControlNet 折叠面板。展开后上传参考图(如人物姿态图或线稿),在预处理器下拉菜单选择对应类型(openpose 用于姿态控制,canny 用于线稿控制),Control Weight 建议设为 0.8-1.0。配合提示词生成,AI 将严格遵循参考图的构图或姿态,大幅提升出图可控性。进阶技巧:多个 ControlNet 单元可叠加使用,同时控制姿态和深度。

常见问题

Q: 没有高端显卡能用 Stable Diffusion 吗?

A: 可以用,但体验差异明显。6GB 以上 NVIDIA 显卡是流畅运行的基准线,4GB 显卡可通过开启低显存模式(--medvram 或 --lowvram 参数)运行,但出图速度会慢2-4倍。Mac 用户可使用 MPS 后端,M1/M2 芯片表现尚可。没有独立显卡也能用 CPU 模式,但单张图生成时间可能长达数分钟,仅适合偶尔测试,不适合日常使用。云端方案如 Google Colab 可作为低配设备的替代选择。

Q: Stable Diffusion 和 Midjourney 到底选哪个?

A: 两者定位不同,不是非此即彼的关系。Midjourney 开箱即用、审美在线,适合快速出图且不想折腾配置的用户,但月费持续产生、内容有审核限制、定制空间有限。Stable Diffusion 学习成本高,但一旦上手,可控性、定制性和长期成本优势碾压 Midjourney。建议:如果你是设计从业者、有特定风格需求或高频出图,SD 的投入回报率更高;如果只是偶尔用用,Midjourney 更省心。

Q: 生成的图像有版权问题吗,能商用吗?

A: Stable Diffusion 模型本身采用 CreativeML Open RAIL-M 许可证,允许商业使用,但禁止用于生成违法内容。实际商用时需注意两点:一是所用的社区模型(Checkpoint/LoRA)可能有各自的授权条款,使用前需确认;二是部分国家和地区对 AI 生成内容的版权归属尚无明确法律,建议在商业项目中叠加人工创作元素以降低法律风险。总体而言,合规使用下商用是被允许的。

Q: AUTOMATIC1111 和 ComfyUI 哪个更适合新手?

A: AUTOMATIC1111(WebUI)更适合新手入门。它提供传统的表单式界面,参数一目了然,社区教程极其丰富,遇到问题基本都能搜到解决方案。ComfyUI 采用节点式工作流设计,灵活性更强,适合想深度定制生成流程的进阶用户,但学习曲线陡峭。建议新手从 AUTOMATIC1111 开始,熟悉 SD 的核心参数逻辑后,再按需迁移到 ComfyUI 探索更复杂的工作流。

用户评价

暂无评价,成为第一个评价 Stable Diffusion 的用户