Add SageAttention as preferred attention backend when available

Attention fallback chain: SageAttention (2-5x faster, INT8 quantized) > xformers > PyTorch native SDPA. SageAttention is optional — install with `pip install sageattention` for a speed boost. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-02-15 00:00:55 +01:00
parent 5de26d8ead
commit cf74b587ec
2 changed files with 36 additions and 13 deletions
--- a/inference.py
+++ b/inference.py
@@ -68,7 +68,8 @@ sys.modules["comfy"] = _comfy
 sys.modules["comfy.utils"] = _comfy_utils
 sys.modules["comfy.model_management"] = _comfy_mm

-# ── xformers compatibility shim (use PyTorch native SDPA if unavailable) ──
+# ── xformers compatibility shim ──────────────────────────────────────────
+# Priority: SageAttention (fastest) > PyTorch native SDPA (always available).
 if "xformers" not in sys.modules:
    try:
        import xformers  # noqa: F401
@@ -76,10 +77,19 @@ if "xformers" not in sys.modules:
        _xformers = types.ModuleType("xformers")
        _xformers_ops = types.ModuleType("xformers.ops")

-        def _memory_efficient_attention(q, k, v, attn_bias=None, op=None):
-            return torch.nn.functional.scaled_dot_product_attention(
-                q, k, v, attn_mask=attn_bias,
-            )
+        try:
+            from sageattention import sageattn as _sageattn
+
+            def _memory_efficient_attention(q, k, v, attn_bias=None, op=None):
+                return _sageattn(
+                    q.unsqueeze(0), k.unsqueeze(0), v.unsqueeze(0),
+                    tensor_layout="HND", is_causal=False,
+                ).squeeze(0)
+        except ImportError:
+            def _memory_efficient_attention(q, k, v, attn_bias=None, op=None):
+                return torch.nn.functional.scaled_dot_product_attention(
+                    q, k, v, attn_mask=attn_bias,
+                )

        _xformers_ops.memory_efficient_attention = _memory_efficient_attention
        _xformers.ops = _xformers_ops