skill 本地 Skill CC-BY-4.0

語音合成 Skill

智慧語音合成服務，支援音色複製、擬人化語意適配配音、流式即時產生、多語言與方言支援，提供 1.7B/0.6B 雙模型選擇

skill-store local-skill voice

啟用時機

當你需要語音合成的工作流程時使用。

適合使用情境

需要處理「智慧語音合成服務，支援音色複製、擬人化語意適配配音、流式即時產生、多語言與方言支援，提供 1.7B/0.6B 雙模型選擇」這類任務。
想直接閱讀或複製 tts-voice-synthesis 的完整 SKILL.md。
需要從 skill repo 的本地落地版本追溯來源與檔案位置。

Skill 檔案

skills/tts-voice-synthesis/SKILL.md

工作流程

先確認這個 Skill 的啟用時機與輸入需求。
閱讀原始 SKILL.md，確認它要求的工具、檔案、API key 或環境限制。
用小型真實任務測試輸出是否符合預期。
確認結果穩定後，再把它放進日常 Agent 工作流程。

使用注意事項

這筆資料來自 skill repo 的本地落地版，與 awesome-agent-skills 上游索引不同；此頁保留完整 SKILL.md 供追溯。

來源

原始名稱：tts-voice-synthesis

智慧語音合成服務，支援音色複製、擬人化語意適配配音、流式即時產生、多語言與方言支援，提供 1.7B/0.6B 雙模型選擇

software-engineering-prompt-repos/skill/skills/tts-voice-synthesis/SKILL.md

開啟來源

這個 Skill 在做什麼

智慧語音合成服務，支援音色複製、擬人化語意適配配音、流式即時產生、多語言與方言支援，提供 1.7B/0.6B 雙模型選擇

來源整理

這筆資料來自 skill repo 的本地落地版本。awesome-agent-skills 是上游索引；skill repo 則是把部分技能抓回來、整理成技能商店與本地可追溯檔案的版本。

使用前先確認

請先看原始 SKILL.md 的工具、環境變數、參考檔與安全限制，再放進自己的 Agent 工作流程。

---
name: tts-voice-synthesis
description: 智慧語音合成服務，支援音色克隆、擬人化語義適配配音、流式實時生成、多語言與方言支援，提供 1.7B/0.6B 雙模型選擇
dependency:
  python: |
    torch>=2.0.0
    torchaudio>=2.0.0
    transformers>=4.35.0
    scipy>=1.11.0
    numpy>=1.24.0
    librosa>=0.10.0
    soundfile>=0.12.0
    pydub>=0.25.0
  system: |
    # 建立音色模型儲存目錄
    mkdir -p voices
    mkdir -p output
---

# TTS 語音合成服務

## 任務目標
- 本 Skill 用於：將文字轉換為高品質語音，支援音色克隆、情感適配、流式生成和多語言支援
- 能力包含：
  - 角色音色自動採集與克隆（從參考音訊提取音色特徵）
  - 擬人化語義適配配音（根據文字情緒自動調整語音語調、語速、音調）
  - 流式實時配音（支援邊輸入文字邊生成語音）
  - 多語言與方言支援（中文、英文及多種方言）
  - 雙模型選擇（1.7B 高品質模型、0.6B 快速模型）
- 觸發條件：當需要將文字轉換為語音、克隆特定音色、生成情感化配音時使用

## 前置準備
- 模型下載：根據選擇的 TTS 模型下載對應的權重，詳見 [references/model_config.md](references/model_config.md)
- 硬體要求：
  - GPU：推薦使用 8GB+ 視訊記憶體的 GPU（0.6B 模型可在 CPU 上執行）
  - 記憶體：建議 16GB+ 系統記憶體
  - 磁碟空間：至少 10GB 可用空間（模型權重約 3-5GB）
- 依賴配置：確保已安裝所需的 Python 依賴包

## 操作步驟

### 模式一：基礎語音合成
1. 文字準備
   - 確認待合成的文字內容
   - 智慧體將分析文字情緒和語義特徵

2. 選擇音色
   - 使用預置音色（見 references/model_config.md）
   - 或使用已克隆的自訂音色

3. 執行合成
   - 呼叫 `scripts/tts_generate.py` 進行語音生成
   - 根據情緒分析結果自動設定語音參數

4. 驗證輸出
   - 檢查生成的音訊品質和情感匹配度
   - 如有需要，調整參數重新生成

### 模式二：音色克隆
1. 準備參考音訊
   - 提供目標音色的參考音訊檔案（3-30 秒，清晰語音）
   - 確保參考音訊無背景噪音、音質清晰

2. 提取音色特徵
   - 呼叫 `scripts/voice_clone.py` 提取音色特徵
   - 儲存為可重複使用的音色模型

3. 使用克隆音色
   - 使用提取的音色模型生成語音
   - 可應用於不同文字的配音

### 模式三：流式實時配音
1. 文字分段
   - 將長文字分段處理（智慧體自動完成）
   - 確保分段自然，不會截斷語義

2. 流式生成
   - 呼叫 `scripts/tts_generate.py` 啟用流式模式
   - 逐步生成並輸出音訊片段

3. 實時合併
   - 將生成的音訊片段實時合併
   - 輸出完整的配音檔案

### 模式四：情感適配配音
1. 文字情緒分析
   - 智慧體分析文字的情緒傾向（高興、悲傷、憤怒、平靜等）
   - 識別關鍵情感詞和語氣

2. 語音參數調整
   - 根據情緒自動調整：
     - 語速（悲傷時放慢，興奮時加快）
     - 音調（悲傷時降低，興奮時提高）
     - 音量（根據情感強度調整）

3. 生成驗證
   - 生成情感化語音
   - 驗證情感表達是否準確

## 資源索引
- 核心腳本：
  - [scripts/tts_generate.py](scripts/tts_generate.py)（TTS 語音生成）
  - [scripts/voice_clone.py](scripts/voice_clone.py)（音色克隆）
- 參考文件：
  - [references/model_config.md](references/model_config.md)（模型配置和選擇指南）
  - [references/emotion_guide.md](references/emotion_guide.md)（情感標註和適配指南）
  - [references/usage_examples.md](references/usage_examples.md)（使用範例）

## 注意事項
- 模型選擇：
  - 1.7B 模型：音質更高，適合高品質配音、有聲書等場景
  - 0.6B 模型：速度更快，適合實時互動、智慧客服等場景
- 音色克隆：
  - 參考音訊應清晰、無背景噪音
  - 時長建議 5-15 秒，最短不少於 3 秒
  - 單人語音效果最佳，避免多人混合音訊
- 流式生成：
  - 適合長文字和實時互動場景
  - 會產生多個臨時音訊片段
- 情感適配：
  - 文字情緒分析由智慧體完成
  - 最終效果取決於情感標註的準確性
  - 可手動調整語音參數進行微調

## 使用範例
- 基礎語音合成：
  ```bash
  python scripts/tts_generate.py \
    --text "你好，歡迎使用語音合成服務" \
    --output_path ./output/hello.wav \
    --model_size 1.7B \
    --voice default
  ```
- 音色克隆：
  ```bash
  python scripts/voice_clone.py \
    --reference_audio ./reference.wav \
    --voice_name my_voice \
    --output_dir ./voices
  ```
- 情感化配音：
  ```bash
  python scripts/tts_generate.py \
    --text "今天真是太開心了！" \
    --output_path ./output/happy.wav \
    --emotion happy \
    --speed 1.2 \
    --pitch 1.1
  ```
- 流式生成：
  ```bash
  python scripts/tts_generate.py \
    --text_file ./long_text.txt \
    --output_path ./output/stream_output.wav \
    --streaming true
  ```