語音驗證:Speaker Verification

October 1, 2024

從評估指標到方法論脈絡,整理語音驗證的開發循環與實務重點。

AI 語音識別

AI 語音識別

學習一個新領域,尤其是深度學習的領域,不外乎以下幾點:該領域目前的發展程度、面臨到的痛點、對應的解決方案、相關的資料集、評估方法。

今天倒過來說,先從評估方法講起。

評估方法

  • Equal Error Rate (EER),核心概念就是窮舉每個閥值所對應的 False Positive Rate (FPR) 和 False Negative Rate (FNR),找到兩者等值時點,業界稱為 Equal Error Rate,跨方法間的比較,EER 越小越好。

不外乎讓 Speaker Embedding 或 Token 具有辨識度

開發循環:

  1. Model development
  2. Speaker enrollment
  3. Online evaluation

在 Model development 這個階段,可以直接想成 metric-based meta learning,也就是讓神經網路學習比較 query 資料(待預測資料)與 source 資料(類別代表資料)之間的相似程度。

資料集 Really Matter

Google 認為需要 1.8 萬個語者、超過 36M 段話語的資料規模才能讓模型達到好的辨識效果。

  • 常見公開資料集:
    • VoxCeleb:1251 位語者、150K 段話語
    • VoxCeleb 2:6112 位語者、1M 段話語

方法論脈絡

ML-based 方法

  • 2024 年的現在,早已被 DL-based 方法取代
  • 當年最強的 ML-based 方法是 i-vector
  • i-vector 啟發了 DL-based 的先驅 d-vector

DL-based 方法

  1. d-vector (2018)

    • 在有標注人物的語音上進行分類訓練
    • 抽取最後一層 hidden layer 作為未來 enrollment evaluation 的基準
    • 問題:因 window size 造成視野變小,失去整段音訊前後文
  2. x-vector (2018)

    • 解決了 d-vector 面臨視窗侷限的問題

未來繼續介紹 end-to-end 的方法。

Tags