語音驗證:Speaker Verification
October 1, 2024
從評估指標到方法論脈絡,整理語音驗證的開發循環與實務重點。
AI 語音識別
學習一個新領域,尤其是深度學習的領域,不外乎以下幾點:該領域目前的發展程度、面臨到的痛點、對應的解決方案、相關的資料集、評估方法。
今天倒過來說,先從評估方法講起。
評估方法
- Equal Error Rate (EER),核心概念就是窮舉每個閥值所對應的 False Positive Rate (FPR) 和 False Negative Rate (FNR),找到兩者等值時點,業界稱為 Equal Error Rate,跨方法間的比較,EER 越小越好。
不外乎讓 Speaker Embedding 或 Token 具有辨識度
開發循環:
- Model development
- Speaker enrollment
- Online evaluation
在 Model development 這個階段,可以直接想成 metric-based meta learning,也就是讓神經網路學習比較 query 資料(待預測資料)與 source 資料(類別代表資料)之間的相似程度。
資料集 Really Matter
Google 認為需要 1.8 萬個語者、超過 36M 段話語的資料規模才能讓模型達到好的辨識效果。
- 常見公開資料集:
- VoxCeleb:1251 位語者、150K 段話語
- VoxCeleb 2:6112 位語者、1M 段話語
方法論脈絡
ML-based 方法
- 2024 年的現在,早已被 DL-based 方法取代
- 當年最強的 ML-based 方法是 i-vector
- i-vector 啟發了 DL-based 的先驅 d-vector
DL-based 方法
-
d-vector (2018)
- 在有標注人物的語音上進行分類訓練
- 抽取最後一層 hidden layer 作為未來 enrollment evaluation 的基準
- 問題:因 window size 造成視野變小,失去整段音訊前後文
-
x-vector (2018)
- 解決了 d-vector 面臨視窗侷限的問題
未來繼續介紹 end-to-end 的方法。