多篇論文入選ICASSP 2023,火山語音有效解決多類實踐問題

多篇論文入選ICASSP 2023,火山語音有效解決多類實踐問題

近日由IEEE主辦、被譽爲世界範圍內最大規模、也是最全面的信號處理及其應用方面的頂級學術會議ICASSP2023於希臘召開,該會議具有權威、廣泛的學界以及工業界影響力,備受AI領域多方關注。會上火山語音多篇論文被接收並發表,內容涵蓋衆多前沿領域的技術創新,並有效解決了字音轉換、語種混淆等實踐問題。

LiteG2P:一種快速、輕量級、高精度的字音轉換模型(LiteG2P: A Fast, Light and High Accuracy Model for Grapheme-to-Phoneme Conversion )

研究背景:衆所周知,字音轉換(G2P)旨在將單詞轉換爲其對應的發音表示,通常被廣泛應用於語音識別(ASR)及語音合成(TTS)等語音任務中,但現有方法中基於規則的方法預測精度往往較差,還需要大量專家經驗的輔助;其中基於數據驅動的深度模型方案雖然精度高,但模型尺寸往往較大且計算效率偏低。對此,火山語音團隊提出了一種高效快速、輕量級、高精度的字音轉換模型,可進一步適用於多類端側設備。

方法分析:LiteG2P結合數據驅動和知識驅動的優勢,得以在控制模型尺寸較小的同時取得較高精度,模型層面上不同於傳統的基於注意力機制的序列到序列預測模型,而是採用CTC損失進行字音的對齊,同時使得模型具備了並行預測音素序列的優勢;除此之外,火山語音團隊還額外引入了語言知識詞典,用以指導字母擴展長度以及縮小目標預測音素集合。

The architecture of LiteG2P

效果呈現:最終LiteG2P模型相較於主流基線模型具有高精度、並行化、輕量級、快速等優勢,與主流基線模型在準確率相當的同時速度提升30倍以上,參數量小10倍以上;可一套模型架構同時部署在端雲多種類型設備上,在端側設備上單個單詞的推理速度預測爲5ms以內,雲端設備2ms以內。

基於雙向注意力機制的語音文本的多模態訓練提升語音識別性能(SPEECH-TEXT BASED MULTI-MODAL TRAINING WITH BIDIRECTIONAL ATTENTION FOR IMPROVED SPEECH RECOGNITION)

研究背景:如今,儘管端對端模型簡化了訓練流程,將聲學模型、詞典、語言模型合併在一個統一的模型中,但卻非常依賴大量的帶標籤訓練數據。相比於帶標籤數據,不成對的數據,例如純音頻或者純文本數據更容易獲取。爲了緩解數據的稀疏性問題,往往會嘗試將不成對的數據參與到訓練中,有利於在低資源場景下訓練出性能良好的端到端語音識別模型。本篇論文正是使用純文本數據參與端到端模型解碼器的訓練,使解碼器學習到更多的語義信息,從而改善模型性能。此過程需要使用文本編碼器去擬合音頻編碼器的輸出,從而解決解碼器訓練依賴於編碼器的問題。由於音頻和文本長度不一致,論文提出使用基於雙向注意力機制的語音文本的多模態訓練方式,自動學習語音和文本之間的對齊關係。

方法分析:具體方式,語音編碼器輸出與文本編碼器輸出經過雙向注意力計算後,語音編碼器輸出長度會縮短到文本長度,文本編碼器輸出會拓展到音頻長度。雙向注意力機制的輸出會使用Cosine distance loss、MLM loss、Grapheme CTC loss來進行訓練,在訓練過程中模型會學習到語音和文本之間的對齊,並且語音編碼器和文本編碼器能學習具備一致性的特徵。

基於語音文本的雙向注意機制多模態學習框架

如圖所示,虛線框內是訓練中增加的模塊和損失函數,在解碼時不會參與計算,所以不影響解碼時期速度。Grapheme CTC loss 的作用是對經過重採樣的語音嵌入和文本嵌入進行 Grapheme 的分類,MLM Loss 作用則是使文本編碼器能夠學習語義信息,Cosine Embedding loss 是爲了拉近語音嵌入與文本嵌入之間的距離。這三個損失函數都是建立在雙向注意力機制計算出來的、經過對齊的語音嵌入和文本嵌入上,從而隱性讓嵌入之間獲得對齊。經過語音和文本多模態訓練後,文本編碼器可以生成接近語音編碼器輸出的特徵,火山語音團隊使用純文本數據送進Text encoder隨後重複兩次,減小語音和文本之間長度差異,用於解碼器的訓練,使其學習更多的語義信息。

效果呈現:經過本論文提出的語音和文本多模態訓練方式,在Librispeech公共數據集上獲得性能提升,得出僅使用帶標籤數據訓練時,可以實現達6.15%的相對詞錯誤率提升;當使用更多的非配對文本數據時,相對詞錯誤率提升可以達到9.23%。

利用字符級別語種分割減少跨語種語音識別中的語種混淆(Reducing Language Confusion for Code-switching Speech Recognition with Token-level Language Diarization)

研究背景:通常,語種轉換髮生在語音信號的語種變換時會導致跨語種語音識別的語種混淆問題。對此,火山語音團隊從融合和解耦語種信息兩個角度解決語種混淆問題,從而提升跨語種語音識別的性能。

方法分析:具體來說對於融合語種信息的過程,團隊通過使用一個基於序列對序列的語種分割的副任務來生成字符級別的語種後驗概率,並使用語種後驗概率來動態調整跨語種語音識別模型;相反解耦的過程則是通過對抗減少不同語種間的差別,從而將不同語種歸一化。兩種不同方法實現構架如下圖所示:

The hybrid CTC/attention model (a) incorporating language information using language posterior bias, and (b) disentangling language via adversarial learning

兩岸靚人物/中軟國際董事長陳宇紅 緊跟大廠 借力使力

效果呈現:我們將提出的方法在SEAME數據集上進行了驗證。和基線模型相比,結合了語種分割任務的多任務訓練和團隊提出的語種後驗概率偏置方法均取得了性能提升。“與此同時,將融合和解耦語種信息的兩種方法進行了比較,我們發現比較結果表面融合語種信息,可以更有效地提升跨語種的語音識別性能。”團隊強調。

一種無需ASR的基於自監督學習的流利度評分方法 (An ASR-free Fluency Scoring Approach with Self-supervised Learning )

研究背景:口語流利度,即發音語速快慢以及是否出現異常停頓,是反映對應習得語言熟練程度的重要指標之一。此前的大多數判斷方法往往需要藉助ASR系統獲得語音單元(例如單詞、音節、音素等)的時間對齊信息,基於此來進一步計算或表示語音流利度的特徵,但目標語言的ASR系統並非總能輕易獲得以上信息,此外在過程中還會產生不可避免的識別錯誤。對此火山語音團隊提出了一種嶄新且無需ASR系統的、基於自監督學習的流利度評分方法,也就是利用自監督預訓練語音模型Wav2vec 2.0 產生的幀級語音表徵,以及經過聚類算法生成的幀級僞標籤,作爲後續序列模型的輸入,最終完成流利度分數的預測。

The proposed ASR-free fluency scoring framework

宜县府专员「涉贪诈2亿」被声押禁见 林姿妙:我很痛心

效果呈現:後續實踐結果表示,該方案在機器預測結果和人類專家打分之間的相關性達到了0.797, 明顯好於之前依賴ASR系統的方法所達到的0.759。方案利用了自監督語音特徵強大的音素鑑別能力,使用幀級聚類僞標籤序列來模擬基於ASR的音素時間對齊,不僅移除了對ASR的依賴而且展現了更可靠的評分性能。

渔人传说

利用音素級別的語言-聲學相似度進行句子級別的發音評分 (Leveraging Phone-level Linguistic-Acoustic Similarity for Utterance-level Pronunciation Scoring)

維吾爾學生入境香港失聯 恐遭引渡中國

研究背景:所謂自動發音評分系統往往需要度量學習者實際發音和參考發音的偏離程度來估計整體的發音準確度,但以往方法大多數是通過加和或者連接聲學嵌入和音素嵌入等這些隱式方式來實現的。對此,火山語音團隊提出了利用音素級別的語言-聲學相似度進行句子級別的發音評分方法, 相比於隱式的度量方式,通過聲學嵌入和音素嵌入的餘弦相似度去顯式描述實際發音和參考發音的偏離程度的方法效果更好,並將此作爲額外特徵與原有的兩種嵌入序列一起融入後續的序列模型,來完成最終發音準確度的評分。

走进四川甘孜,网红少年丁真的故乡,纯粹得让人心动

The hierarchical architecture of the pronunciation scoring network, where phone-level features can be calculated by using add_phone, concat_phone or our proposed method

旺报观点-非遗存亡 关键在生活教育

效果呈現:這種顯式的度量方法在內部與公開數據集上被證實明顯優於以往的加和與連接的隱式度量方法,也就是說基於音素級別GOP的預訓練在所有的度量方式上均取得了較大提升;結合語言-聲學相似度的顯示度量和GOP預訓練的打分系統取得了最佳評分性能,其機器預測結果和人類專家打分之間的相關性達到了0.858,顯著高於論文報告的多個基線系統。

基於內部語言模型估計的跨域自適應的語言模型融合(Internal Language Model Estimation based Adaptive Language Model Fusion for Domain Adaptation)

研究背景:只要在通用領域或特定目標領域有足夠多的文本,內部語言模型融合就能顯著改善端到端語音識別性能。但當一個通用領域商業語音識別系統部署後,由於數據訪問受到限制,用戶往往只具有與自己相關的特定目標領域文本數據,也就是說由於數據保密等原因,用戶不能獲取原通用領域文本數據,因此通過內部語言融合的自動語音識別系統只能在用戶特定的領域獲取性能改善,而在通用領域性能上則會造成損傷、顯著降低。 基於上述原因,論文提出一種在用戶只具有特定目標領域文本數據前提下,相對傳統的內部語言模型估計融合方法,實現在特定領域獲取性能顯著改善,而在通用領域仍然能取得較好性能的自適應性語言模型融合方法。

方法分析:該方法基於內部語言模型估計,前提是當一個語音識別系統交付上線後,提供用戶訪問的子系統有端到端語音識別系統以及內部語言模型。用戶只需關注自己特定領域的語言模型,就能獲取在特定領域性能明顯改善,並且在通用領域性能達到很小損失的結果。具體做法,識別系統在做語言模型融合的時候,比較基於每個子詞在內部語言模型和用戶特定語言模型的得分,根據大小來決定是否做內部語言模型融合,實現所謂的自適應融合功能。

效果呈現:爲驗證該方法的有效性,火山語音團隊以10萬小時訓練得到的中文語音識別系統爲通用領域識別系統,另外將醫療和小說搜索定義爲特定領域,結果證明可以在特定領域取得18.6% 相對字錯誤率降低,而在通用領域只有2.4%的相對字錯誤率的升高。

天黑请闭眼,AI 请睁眼

一直以來,火山語音團隊面向字節跳動內部各業務線,提供優質的語音AI技術能力以及全棧語音產品解決方案,並通過火山引擎對外提供服務。自 2017 年成立以來,團隊專注研發行業領先的 AI 智能語音技術,不斷探索AI 與業務場景的高效結合,以實現更大的用戶價值。

两大疑虑增添隐忧 银行团怕怕