feat: save spectrogram PNG alongside each eval sample

Log-frequency dB spectrogram (inferno colormap, 100Hz–16kHz) saved as step_XXXXX.png next to step_XXXXX.wav in samples/ subfolder. Makes high-frequency rolloff (low bitrate signature) immediately visible. Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-04-08 12:42:34 +02:00
parent 8717af2728
commit c4687521ef
1 changed files with 70 additions and 0 deletions
@@ -149,6 +149,72 @@ def _eval_sample(generator, feature_utils_orig, dataset, seq_cfg, device, dtype,
        generator.train()


+# ---------------------------------------------------------------------------
+# Eval spectrogram rendering
+# ---------------------------------------------------------------------------
+
+_SPEC_N_FFT    = 2048
+_SPEC_HOP      = 512
+_SPEC_DB_FLOOR = -80.0
+_SPEC_LOG_BINS = 256
+
+
+def _save_spectrogram(wav: torch.Tensor, sr: int, path: Path) -> None:
+    """Save a log-frequency dB spectrogram PNG for an eval sample.
+
+    wav: [1, L] float32 CPU tensor (mono).
+    """
+    import numpy as np
+    from matplotlib.figure import Figure
+    from matplotlib.backends.backend_agg import FigureCanvasAgg
+
+    wav_np = wav.squeeze(0).numpy()
+    hop    = min(_SPEC_HOP, _SPEC_N_FFT)
+    window = torch.hann_window(_SPEC_N_FFT)
+    stft   = torch.stft(torch.from_numpy(wav_np), n_fft=_SPEC_N_FFT, hop_length=hop,
+                        window=window, return_complex=True)
+    mag    = stft.abs().numpy()
+    db     = 20.0 * np.log10(np.maximum(mag, 1e-8))
+    db     = np.maximum(db, db.max() + _SPEC_DB_FLOOR).astype(np.float32)
+
+    # Log-frequency resampling
+    n_freqs = db.shape[0]
+    src_idx = np.logspace(0, np.log10(max(n_freqs - 1, 2)), _SPEC_LOG_BINS)
+    lo   = np.floor(src_idx).astype(int).clip(0, n_freqs - 2)
+    frac = (src_idx - lo)[:, None]
+    spec = ((1 - frac) * db[lo] + frac * db[lo + 1]).astype(np.float32)
+    spec = spec[::-1]   # low freq at bottom
+
+    # Y-tick positions (Hz labels)
+    tgt_hz = [100, 500, 1000, 2000, 4000, 8000, 16000]
+    tpos, tlbl = [], []
+    for hz in tgt_hz:
+        bin_f = hz * _SPEC_N_FFT / sr
+        if bin_f < 1 or bin_f >= n_freqs:
+            continue
+        pos = int(np.searchsorted(src_idx, bin_f))
+        tpos.append(_SPEC_LOG_BINS - 1 - min(pos, _SPEC_LOG_BINS - 1))
+        tlbl.append(f"{hz // 1000}k" if hz >= 1000 else str(hz))
+
+    vmin = float(np.percentile(spec, 2.0))
+    vmax = float(np.percentile(spec, 99.5))
+
+    fig = Figure(figsize=(12, 3), dpi=120, tight_layout=True)
+    ax  = fig.add_subplot(1, 1, 1)
+    im  = ax.imshow(spec, aspect="auto", cmap="inferno", origin="upper",
+                    vmin=vmin, vmax=vmax, interpolation="antialiased")
+    ax.set_yticks(tpos)
+    ax.set_yticklabels(tlbl, fontsize=8)
+    ax.set_ylabel("Hz", fontsize=9)
+    ax.set_xlabel("Time frames", fontsize=9)
+    ax.set_title(path.stem, fontsize=9)
+    fig.colorbar(im, ax=ax, label="dB", fraction=0.02, pad=0.01)
+
+    canvas = FigureCanvasAgg(fig)
+    canvas.draw()
+    canvas.print_figure(str(path.with_suffix(".png")), dpi=120)
+
+
 # ---------------------------------------------------------------------------
 # Loss curve rendering
 # ---------------------------------------------------------------------------
@@ -684,6 +750,10 @@ class SelvaLoraTrainer:
                            import soundfile as sf
                            sf.write(str(wav_path), wav.squeeze(0).numpy(), sr)
                        print(f"[LoRA Trainer] Sample saved: {wav_path}", flush=True)
+                        try:
+                            _save_spectrogram(wav, sr, wav_path)
+                        except Exception as e:
+                            print(f"[LoRA Trainer] Spectrogram failed: {e}", flush=True)

                last_step = step
                pbar_train.update(1)