Extract SDXL tag policy

2026-06-27 11:48:54 +02:00
parent 8fc3abc504
commit 2605fae3eb
5 changed files with 325 additions and 196 deletions
@@ -1,17 +1,16 @@
 from __future__ import annotations

-import re
 from typing import Any

 try:
    from . import formatter_input as input_policy
-    from . import route_metadata as route_metadata_policy
+    from . import sdxl_tag_policy
    from . import sdxl_tag_routes
    from . import sdxl_presets as sdxl_policy
    from .prompt_hygiene import sanitize_negative_text, sanitize_tag_prompt
 except ImportError:  # Allows local smoke tests with `python -c`.
    import formatter_input as input_policy
-    import route_metadata as route_metadata_policy
+    import sdxl_tag_policy
    import sdxl_tag_routes
    import sdxl_presets as sdxl_policy
    from prompt_hygiene import sanitize_negative_text, sanitize_tag_prompt
@@ -69,238 +68,68 @@ def _strip_prompt_field_labels(text: str) -> str:
    return input_policy.strip_prompt_field_labels(text, field_labels=PROMPT_FIELD_LABELS)


-def _prompt_field(text: str, label: str) -> str:
-    return input_policy.prompt_field(text, label, field_labels=PROMPT_FIELD_LABELS)
-
-
-def _row_value(row: dict[str, Any], key: str, labels: tuple[str, ...] = ()) -> str:
-    return input_policy.row_value(row, key, labels, field_labels=PROMPT_FIELD_LABELS)
-
-
 def _split_tag_text(text: Any) -> list[str]:
-    text = _clean(text)
-    if not text:
-        return []
-    text = re.sub(r"\bWoman [A-Z]'s\b", "woman's", text)
-    text = re.sub(r"\bMan [A-Z]'s\b", "man's", text)
-    text = re.sub(r"\bWoman [A-Z]\b", "woman", text)
-    text = re.sub(r"\bMan [A-Z]\b", "man", text)
-    text = re.sub(
-        r"\b(?:Clothing state|Visual clothing state|visible remaining styling|teaser outfit detail|softcore visual reference|Sexual scene|Role graph):\s*",
-        "",
-        text,
-        flags=re.IGNORECASE,
-    )
-    text = re.sub(r"\b(?:and|with)\b", ",", text, flags=re.IGNORECASE)
-    parts = re.split(r"\s*[,;]\s*", text)
-    return [_clean(part).strip(" .") for part in parts if _clean(part).strip(" .")]
+    return sdxl_tag_policy.split_tag_text(text)


 def _tag_key(tag: str) -> str:
-    text = _clean(tag).lower()
-    text = re.sub(r"^\((.*?):[0-9.]+\)$", r"\1", text)
-    text = text.strip("() ")
-    return text
+    return sdxl_tag_policy.tag_key(tag)


 def _add(tags: list[str], seen: set[str], value: Any) -> None:
-    for tag in _split_tag_text(value):
-        key = _tag_key(tag)
-        if key and key not in seen:
-            tags.append(tag)
-            seen.add(key)
+    sdxl_tag_policy.add(tags, seen, value)


 def _add_one(tags: list[str], seen: set[str], tag: str) -> None:
-    tag = _clean(tag).strip(" ,")
-    key = _tag_key(tag)
-    if tag and key and key not in seen:
-        tags.append(tag)
-        seen.add(key)
+    sdxl_tag_policy.add_one(tags, seen, tag)


 def _metadata_family_tags(row: dict[str, Any]) -> list[str]:
-    tags: list[str] = []
-    action_family = route_metadata_policy.row_action_family(row)
-    tags.extend(SDXL_ACTION_FAMILY_TAGS.get(action_family, ()))
-
-    position_family = route_metadata_policy.row_position_family(row)
-    tags.extend(SDXL_POSITION_FAMILY_TAGS.get(position_family, ()))
-
-    for key in route_metadata_policy.row_position_keys(row, include_unknown=True):
-        key_text = _clean(key)
-        if key_text:
-            tags.append(key_text.replace("_", " "))
-    return tags
+    return sdxl_tag_policy.metadata_family_tags(row)


 def _formatter_hint_tags(*rows: dict[str, Any]) -> list[str]:
-    tags: list[str] = []
-    for row in rows:
-        if not isinstance(row, dict):
-            continue
-        for hint in route_metadata_policy.row_formatter_hints(row, "sdxl"):
-            hint = _clean(hint).strip(" ,.")
-            if hint and hint not in tags:
-                tags.append(hint)
-    return tags
+    return sdxl_tag_policy.formatter_hint_tags(*rows)


 def _combine_tags(*parts: Any) -> str:
-    tags: list[str] = []
-    seen: set[str] = set()
-    for part in parts:
-        _add(tags, seen, part)
-    return ", ".join(tags)
+    return sdxl_tag_policy.combine_tags(*parts)


 def _combine_negative(*parts: Any) -> str:
-    return _combine_tags(*(part for part in parts if _clean(part)))
+    return sdxl_tag_policy.combine_negative(*parts)


 def _count_tag(women_count: int = 0, men_count: int = 0) -> list[str]:
-    tags = []
-    if women_count > 0:
-        tags.append(f"{women_count}woman" if women_count == 1 else f"{women_count}women")
-    if men_count > 0:
-        tags.append(f"{men_count}man" if men_count == 1 else f"{men_count}men")
-    return tags
+    return sdxl_tag_policy.count_tag(women_count, men_count)


 def _infer_counts(row: dict[str, Any]) -> tuple[int, int]:
-    try:
-        women = int(row.get("women_count") or 0)
-        men = int(row.get("men_count") or 0)
-    except (TypeError, ValueError):
-        women = men = 0
-    if women or men:
-        return women, men
-    subject = _clean(row.get("subject_type") or row.get("primary_subject")).lower()
-    phrase = _clean(row.get("subject_phrase")).lower()
-    text = f"{subject} {phrase}"
-    if "two women" in text:
-        return 2, 0
-    if "two men" in text:
-        return 0, 2
-    if "woman and" in text or "woman a" in text and "man a" in text:
-        return 1, 1
-    if "group" in text:
-        return 2, 2
-    if "man" in text and "woman" not in text:
-        return 0, 1
-    return 1, 0
+    return sdxl_tag_policy.infer_counts(row)


 def _character_tags_from_descriptor(descriptor: Any) -> list[str]:
-    text = _clean(descriptor)
-    text = re.sub(r"\bWoman [A-Z]\s*/\s*primary creator:\s*", "", text)
-    text = re.sub(r"\b(?:Woman|Man) [A-Z]:\s*", "", text)
-    text = re.sub(r"\balongside\b", ",", text, flags=re.IGNORECASE)
-    parts = _split_tag_text(text)
-    cleaned = []
-    for part in parts:
-        part = re.sub(r"\bfigure\b", "build", part, flags=re.IGNORECASE)
-        part = part.replace("adult adult", "adult")
-        cleaned.append(part)
-    return cleaned
+    return sdxl_tag_policy.character_tags_from_descriptor(descriptor)


 def _normal_character_tags(row: dict[str, Any]) -> list[str]:
-    descriptor = (
-        _clean(row.get("cast_descriptor_text"))
-        or _prompt_field(row.get("prompt", ""), "Characters")
-        or _prompt_field(row.get("prompt", ""), "Cast descriptors")
-    )
-    if descriptor:
-        return _character_tags_from_descriptor(descriptor)
-
-    parts = [
-        _clean(row.get("age") or row.get("age_band")),
-        _clean(row.get("subject_phrase") or row.get("subject_type") or row.get("primary_subject")),
-        _clean(row.get("body_phrase") or row.get("body") or row.get("body_type")),
-        _clean(row.get("skin")),
-        _clean(row.get("hair")),
-        _clean(row.get("eyes")),
-    ]
-    return [part for part in parts if part and part not in ("woman", "man", "single_any")]
+    return sdxl_tag_policy.normal_character_tags(row)


 def _camera_tags_from_config(config: Any) -> list[str]:
-    if not isinstance(config, dict):
-        return []
-    if _clean(config.get("camera_detail")) == "off" or _clean(config.get("camera_mode")) == "disabled":
-        return []
-    custom = _clean(config.get("custom_camera_prompt"))
-    tags = _split_tag_text(custom)
-    direction = _clean(config.get("orbit_direction"))
-    elevation = _clean(config.get("orbit_elevation_label"))
-    distance = _clean(config.get("orbit_distance_label"))
-    for value in (direction, elevation, distance):
-        if value and value != "auto":
-            tags.extend(_split_tag_text(value))
-    for key in ("angle", "shot_size", "distance", "lens", "orientation", "subject_focus"):
-        value = _clean(config.get(key)).replace("_", " ")
-        if value and value != "auto":
-            tags.append(value)
-    return tags
+    return sdxl_tag_policy.camera_tags_from_config(config)


 def _camera_tags(row: dict[str, Any], directive: Any = "", config: Any = None) -> list[str]:
-    tags = _split_tag_text(directive)
-    tags.extend(_camera_tags_from_config(config if config is not None else row.get("camera_config")))
-    camera_directive = _clean(row.get("camera_directive"))
-    if camera_directive:
-        tags.extend(_split_tag_text(camera_directive))
-    out = []
-    for tag in tags:
-        tag = tag.replace("0-degree front view", "(front facing:1.15)")
-        tag = tag.replace("front view", "(front facing:1.15)")
-        tag = tag.replace("right side view", "side view")
-        tag = tag.replace("left side view", "side view")
-        out.append(tag)
-    return out
+    return sdxl_tag_policy.camera_tags(row, directive, config)


 def _explicit_tags(text: str, nude_weight: float) -> list[str]:
-    lower = text.lower()
-    tags: list[str] = []
-    if any(token in lower for token in ("fully nude", "fully exposed", "naked", "bare skin unobstructed", "explicit_nude")):
-        tags.append(f"(naked:{nude_weight:.2f})")
-    if any(token in lower for token in ("nipples", "breasts exposed", "bare breasts", "nipple")):
-        tags.append("nipples")
-    if any(token in lower for token in ("pussy", "vulva", "genitals")):
-        tags.append("pussy")
-    if any(token in lower for token in ("penis", "cock")):
-        tags.append("penis")
-    if "penetration" in lower or "thrust" in lower:
-        tags.append("penetration")
-    if "vaginal" in lower:
-        tags.append("pussy")
-    if "oral" in lower or "mouth" in lower:
-        tags.append("oral sex")
-    if "anal" in lower:
-        tags.append("anal sex")
-    if any(token in lower for token in ("semen", "ejaculates", "cum ")):
-        tags.append("semen")
-    return tags
+    return sdxl_tag_policy.explicit_tags(text, nude_weight)


 def _sdxl_tag_route_dependencies() -> sdxl_tag_routes.SDXLTagRouteDependencies:
-    return sdxl_tag_routes.SDXLTagRouteDependencies(
-        clean=_clean,
-        row_value=_row_value,
-        tag_key=_tag_key,
-        add=_add,
-        add_one=_add_one,
-        count_tag=_count_tag,
-        infer_counts=_infer_counts,
-        normal_character_tags=_normal_character_tags,
-        character_tags_from_descriptor=_character_tags_from_descriptor,
-        metadata_family_tags=_metadata_family_tags,
-        formatter_hint_tags=_formatter_hint_tags,
-        camera_tags=_camera_tags,
-        explicit_tags=_explicit_tags,
-    )
+    return sdxl_tag_policy.tag_route_dependencies()


 def _row_core_tags(row: dict[str, Any], nude_weight: float) -> list[str]: