近日,大象聲科共同創辦人&CEO張學良博士發表了題為《從聽清到聽懂,AI智能語音信號處理的革命》的主題演講,深入闡釋了智能語音前端處理技術在AI眼鏡新一代人機交互設備中的關鍵作用,并重點介紹了大象聲科專為AI眼鏡語音通話和語音交互場景推出的智能語音方案。
張學良博士指出,隨著AI眼鏡逐漸成為下一代人機交互的新入口,語音交互正成為繼鼠標、觸屏之后更自然、更便捷的交互方式。然而,當前語音交互仍面臨“戶外不敢說,嘈雜環境沒法用”的痛點。作為語音交互鏈條的第一環,前端語音信號處理的質量,直接決定了后端語音識別的準確率、用戶體驗的流暢度以及設備的智能化水平。
作為全球首家將深度學習用于語音信號處理并落地端側的AI公司,大象聲科推出了專為AI眼鏡通話場景和語音交互場景打造的智能語音解決方案,該方案基于端到端的深度神經網絡模型,集合了大象聲科全自研的包括AI降噪、人聲分離、深度AEC、波束形成等AI語音信號處理算法,定向清晰拾音,精準語音喚醒,為AI眼鏡打造更清晰的語音通信和更高效的語音交互體驗。
佩戴者音區:只拾你音
AI眼鏡智能語音方案的佩戴者音區功能,可確保AI眼鏡在復雜環境中僅拾取佩戴者語音,不僅在通話中隔絕周圍其他人說話聲和環境噪音干擾,讓通話對方聽得更清,同時還能避免其他人誤喚醒眼鏡,提升語音識別的準確率。
高精度指向拾音:“指哪聽哪”
拾音角度支持定制,可做到±5度范圍內精準拾音,結合人聲分離,可單獨輸出近場佩戴者自己和遠場對話人兩路獨立語音信號,分別給到后端ASR進行識別,適用于翻譯、會議等場景。
語音喚醒:強抗噪、低功耗
支持定制化喚醒詞與免喚醒詞指令,強噪音或者風噪環境下也能輕松喚醒;支持高通AR1 LPI模式(低功耗喚醒)以及采用二級喚醒模式,兼顧性能和功耗。
此外,該方案還支持沉浸式錄音功能,可實現360°高清音頻錄制,抗風噪能力突出,騎行等戶外運動場景下也能保障清晰錄制。
目前,大象聲科的語音前端處理技術已賦能超過1億臺智能終端,涵蓋手機、耳機、PC、車載等多個領域。在AI眼鏡這一新興賽道中,大象聲科正通過標品化、高性能的算法方案,助力客戶快速實現產品化落地,推動行業走向更智能、更自然的多模態交互體驗。(來源:大象聲科ELEVOC)
|