Spaces:

karesaeedff
/

singing-segment-detector

Running

App Files Files Community

karesaeedff commited on Oct 22, 2025

Commit

465ffc9

verified ·

1 Parent(s): fca03af

Update app.py

Browse files

Files changed (1) hide show

app.py +92 -93

app.py CHANGED Viewed

@@ -1,93 +1,92 @@
-import gradio as gr
-import librosa
-import numpy as np
-import torch
-from transformers import pipeline, AutoModelForAudioClassification, AutoFeatureExtractor
-from tqdm import tqdm
-import tempfile
-import json
-import soundfile as sf
-# ==== 参数 ====
-SAMPLE_RATE = 16000
-WINDOW = 5
-STEP = 2
-MUSIC_THRESHOLD = 0.4
-VOICE_THRESHOLD = 0.3
-MIN_SING_DURATION = 8
-# ==== 手动加载 feature extractor ====
-music_model_id = "AI-Music-Detection/ai_music_detection_large_60s"
-music_feature_extractor = AutoFeatureExtractor.from_pretrained("MIT/ast-finetuned-audioset-10-10-0.4593")
-music_model = AutoModelForAudioClassification.from_pretrained(music_model_id)
-music_pipe = pipeline(
-    task="audio-classification",
-    model=music_model,
-    feature_extractor=music_feature_extractor
-)
-# 声音检测（用来区分是否人声）
-voice_pipe = pipeline(
-    "audio-classification",
-    model="superb/hubert-large-superb-sid"
-)
-def detect_singing(audio_path):
-    wav, sr = librosa.load(audio_path, sr=SAMPLE_RATE)
-    duration = len(wav) / SAMPLE_RATE
-    results = []
-    for start in np.arange(0, duration - WINDOW, STEP):
-        end = start + WINDOW
-        snippet = wav[int(start * SAMPLE_RATE):int(end * SAMPLE_RATE)]
-        # 音乐检测
-        music_pred = music_pipe(snippet, sampling_rate=SAMPLE_RATE)
-        music_score = max([p['score'] for p in music_pred if 'music' in p['label'].lower()] or [0])
-        # 声音检测
-        voice_pred = voice_pipe(snippet, sampling_rate=SAMPLE_RATE)
-        voice_score = max([p['score'] for p in voice_pred if 'speech' in p['label'].lower()] or [0])
-        if music_score > MUSIC_THRESHOLD and voice_score > VOICE_THRESHOLD:
-            results.append((float(start), float(end)))
-    # 合并连续窗口
-    merged = []
-    for seg in results:
-        if not merged or seg[0] > merged[-1][1]:
-            merged.append(list(seg))
-        else:
-            merged[-1][1] = seg[1]
-    merged = [(s, e) for s, e in merged if e - s >= MIN_SING_DURATION]
-    return merged
-def analyze_audio(file):
-    if file is None:
-        return "请上传音频文件", None
-    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp:
-        data, sr = librosa.load(file.name, sr=SAMPLE_RATE)
-        sf.write(tmp.name, data, sr)
-        segments = detect_singing(tmp.name)
-    if not segments:
-        return "未检测到明显唱歌片段", json.dumps([], indent=2)
-    json_output = json.dumps(
-        [{"start": s, "end": e, "duration": round(e - s, 2)} for s, e in segments],
-        indent=2
-    )
-    return f"检测到 {len(segments)} 段唱歌片段", json_output
-with gr.Blocks(title="🎵 Singing Segment Detector") as demo:
-    gr.Markdown("# 🎤 自动识别唱歌片段\n上传音频文件，返回检测到的唱歌时间段 JSON。")
-    audio_in = gr.Audio(type="filepath", label="上传音频文件（WAV）")
-    btn = gr.Button("开始分析")
-    status = gr.Textbox(label="分析状态", interactive=False)
-    json_out = gr.Code(label="唱歌片段时间戳（JSON）", language="json")
-    btn.click(fn=analyze_audio, inputs=[audio_in], outputs=[status, json_out])
-demo.launch()

+import gradio as gr
+import librosa
+import numpy as np
+import torch
+from transformers import pipeline, AutoModelForAudioClassification, AutoFeatureExtractor
+from tqdm import tqdm
+import tempfile
+import json
+import soundfile as sf
+# ==== 参数 ====
+SAMPLE_RATE = 16000
+WINDOW = 5
+STEP = 2
+MUSIC_THRESHOLD = 0.4
+VOICE_THRESHOLD = 0.3
+MIN_SING_DURATION = 8
+# ==== 模型加载 ====
+music_model_id = "AI-Music-Detection/ai_music_detection_large_60s"
+music_feature_extractor = AutoFeatureExtractor.from_pretrained("MIT/ast-finetuned-audioset-10-10-0.4593")
+music_model = AutoModelForAudioClassification.from_pretrained(music_model_id)
+music_pipe = pipeline(
+    task="audio-classification",
+    model=music_model,
+    feature_extractor=music_feature_extractor
+)
+voice_pipe = pipeline(
+    "audio-classification",
+    model="superb/hubert-large-superb-sid"
+)
+def detect_singing(audio_path):
+    wav, sr = librosa.load(audio_path, sr=SAMPLE_RATE)
+    duration = len(wav) / SAMPLE_RATE
+    results = []
+    for start in np.arange(0, duration - WINDOW, STEP):
+        end = start + WINDOW
+        snippet = wav[int(start * SAMPLE_RATE):int(end * SAMPLE_RATE)]
+        music_pred = music_pipe(snippet, sampling_rate=SAMPLE_RATE)
+        music_score = max([p['score'] for p in music_pred if 'music' in p['label'].lower()] or [0])
+        voice_pred = voice_pipe(snippet, sampling_rate=SAMPLE_RATE)
+        voice_score = max([p['score'] for p in voice_pred if 'speech' in p['label'].lower()] or [0])
+        if music_score > MUSIC_THRESHOLD and voice_score > VOICE_THRESHOLD:
+            results.append((float(start), float(end)))
+    # 合并连续窗口
+    merged = []
+    for seg in results:
+        if not merged or seg[0] > merged[-1][1]:
+            merged.append(list(seg))
+        else:
+            merged[-1][1] = seg[1]
+    merged = [(s, e) for s, e in merged if e - s >= MIN_SING_DURATION]
+    return merged
+def analyze_audio(file):
+    if file is None:
+        return "请上传音频文件", None
+    audio_path = file  # type="filepath" 返回的是路径字符串
+    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp:
+        data, sr = librosa.load(audio_path, sr=SAMPLE_RATE)
+        sf.write(tmp.name, data, sr)
+        segments = detect_singing(tmp.name)
+    if not segments:
+        return "未检测到明显唱歌片段", json.dumps([], indent=2)
+    json_output = json.dumps(
+        [{"start": s, "end": e, "duration": round(e - s, 2)} for s, e in segments],
+        indent=2
+    )
+    return f"检测到 {len(segments)} 段唱歌片段", json_output
+# ==== Gradio UI ====
+with gr.Blocks(title="🎵 Singing Segment Detector") as demo:
+    gr.Markdown("# 🎤 自动识别唱歌片段\n上传音频文件（从视频提取后），返回检测到的唱歌时间段 JSON。")
+    audio_in = gr.Audio(type="filepath", label="上传音频文件（WAV）")
+    btn = gr.Button("开始分析")
+    status = gr.Textbox(label="分析状态", interactive=False)
+    json_out = gr.Code(label="唱歌片段时间戳（JSON）", language="json")
+    btn.click(fn=analyze_audio, inputs=[audio_in], outputs=[status, json_out])
+demo.launch()