清华电子系联合火山语音开源全新的听觉大语言模型——SALMONN

极客号(Daydx.com)8月22日 消息:SALMONN 是一个由清华大学电子工程系和字节跳动合作开发的大型语言模型(LLM),能够处理语音、音频事件和音乐输入。

相比于只能处理语音或音频事件的模型,SALMONN 能够感知和理解各种音频输入,并因此具备了多语言语音识别和翻译以及音频 – 语音推理等新兴能力。可以说,SALMONN 为 LLM 提供了 “听觉”,使其具备了认知听觉能力,这是通向听觉启发的人工通用智能的一步。

清华电子系联合火山语音开源全新的听觉大语言模型——SALMONN

Github仓库:https://github.com/bytedance/SALMONN/

Demo链接:https://bytedance.github.io/SALMONN/

该模型通过增加通用音频编码器和融合器来实现对音频模态的直接感知,使得模型可以直接从物理世界获取知识。

SALMONN 能够胜任英语语音识别、语音翻译、情感识别、音频字幕生成等任务,并展现了多种在模型训练中没有学习过的多语言和跨模态能力。研究团队将在近期开源 SALMONN v1.0模型及相关代码,并持续更新模型,为建设开源的通用人工智能做出贡献。

核心功能:

1. 处理语音、音频事件和音乐输入。

2. 实现多语言语音识别和翻译。

3. 进行音频 – 语音推理。

4. 支持根据文本和语音命令进行操作。

郑重声明:本文内容及图片均整理自互联网,不代表本站立场,版权归原作者所有,如有侵权请联系管理员(admin#wlmqw.com)删除。
(0)
用户投稿
上一篇 2023年8月22日
下一篇 2023年8月22日

相关推荐

联系我们

联系邮箱:admin#wlmqw.com
工作时间:周一至周五,10:30-18:30,节假日休息