仅用4块GPU、不到3天训练出「开源版GPT-4o」,这是国内团队最新研究(开源节流)

AIGC动态欢迎阅读

原标题:仅用4块GPU、不到3天训练出「开源版GPT-4

o」,这是国内团队最新研究

关键字:语音,指令,文本,模型,编码器

文章来源:机器之心

内容字数:0字

内容摘要:

机器之心报道

编辑:小舟、陈陈LLaMA-Omni能够接收语音指令,同步生成文本和语音响应,响应延迟低至 226ms,低于 GPT-4o 的平均音频响应延迟 320ms。以ChatGPT

为代表的大型语言模型(LLM)已成为强大的通用任务解决器,但大多数 LLM 仅支持基于文本的交互,这限制了它们在不适合文本输入输出的场景中的应用。GPT-4o 的出现使得通过语音与 LLM 进行交互成为可能。然而,开源社区对于构建此类基于 LLM 的语音交互模型仍然缺乏探索。

实现与 LLM 进行语音交互最简单的方法是采用基于自动语音识别(ASR)和语音合成(TTS)模型的级联系统,其中 ASR 模型将用户的语音指令转录为文本, TTS 模型将 LLM 的响应合成为语音。

然而,由于级联系统依次输出转录文本、文本响应和语音响应,整个系统往往具有较高的延迟。相比之下,一些多模态语音 – 语言模型将语音离散化为 token 并扩展 LLM 的词表以支持语音输入和输出。这种语音 – 语言模型理论上可以直接从语音指令生成语音响应,无需生成中间文本,从而实现极低的响应延迟。然而,在实践中,由于涉及语音之间复杂

原文链接:仅用4块GPU、不到3天训练出「开源版GPT-4o」,这是国内团队最新研究

联系作者

文章来源:机器之心

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?