您现在的位置是:首页 > 科技 > 正文
AudiopaLM是谷歌新的大型语言模型可以说和听
发布时间:2023-07-07 10:48:07编辑:郑俊贤来源:
人工智能世界日新月异地不断发展。尽管有人认为人工智能会削减许多人的工资,使他们失业,但人工智能已经证明,在学校或大学作业方面,甚至通过对无数研究页面的分析,人工智能本身是一个巨大的帮助。在这一点上,谷歌带来了最新的开发成果,称为 AudiopaLM。这种新的语言模型具有高精度的听、说和翻译能力。
AudiopaLM 是一个用于语音生成和理解的大型语言模型。基于文本和基于语音的语言模型(PaLM-2、AudioLM 和 AudioPaLM)分别组合成一个多模式架构,可以处理和生成文本和语音,用于语音识别和语音到语音翻译应用。仅在 PaLM-2 和 AudioLM 等大型语言模型中找到的语言信息将被传递到 AudioPaLM,并具有保留说话者识别和语气等副语言信息的能力。
通过 AudioPaLM,Google 展示了通过使用纯文本大型语言模型的权重初始化 AudioPaLM 来改进语音处理,成功地利用预训练中使用的大量文本训练数据来帮助完成语音任务。由此产生的模型比最先进的系统执行语音翻译任务要好得多,并且它可以对训练期间未遇到输入或目标语言组合的多种语言执行零样本语音到文本翻译。此外,AudioPaLM 还展示了音频语言模型如何通过在语言之间传输语音来响应简短的口头提示来工作。
语音到语音翻译和自动语音识别是 AudioPaLM 模型的示例。为了对新的音频标记集合进行建模,该平台增加了预训练的纯文本模型(虚线)的嵌入矩阵。模型架构在其他方面保持不变;它从由文本和音频标记的混合序列组成的输入中解码文本或音频标记。随后的 AudioLM 阶段将音频令牌传输回原始音频。
此前,谷歌推出了AudioLM。它是一个用于长时间生成高质量音频的框架。在这个表示空间中,AudioLM 通过将输入音频映射到一系列离散标记,将音频生成构建为语言建模任务。该平台展示了当前可用的音频分词器在重建质量和长期结构之间进行的许多权衡,并且该平台建议采用混合分词策略来实现这两个目标。
标签:
猜你喜欢
- 2023年游戏大奖蜘蛛侠2和心灵杀手2入围年度游戏提名
- Google Photos 获得两项 AI 功能来帮助整理你的图库
- 苹果将于 2024 年为 iPhone 提供 RCS 支持 以便与 Android 手机良好配合
- BELINDA CZ sro推出全面的Azure托管服务以提升云体验
- Zendure的SuperBaseV和SuperBaseV包装因卓越设计而荣获IDEA奖
- 思科推出新研究凸显企业在人工智能准备方面的巨大差距
- Teraco宣布大数据中心升级
- 苹果iPhone将预装最新软件更新
- 小米HyperOS即将取代MIUI将于小米14系列首发
- OPPO Find N3 Flip评测一款有质感时尚的翻盖手机
- Vivo Y200手机预计采用单一存储配置
- 谷歌Pixel 8 Pro最好的新功能之一似乎也适用于其他Pixel
- WhatsApp测试一项功能以进一步保护您锁定的聊天
- Galaxy S23 在美国获得稳定的 Android 14 和 One UI 6.0 更新
- 这些现代和起亚汽车将获得无线 Android Auto Apple CarPlay 更新
- 三星Galaxy S24系列将采用仿iPhone钛金属机身或将提前推出
- Rockstar Games确认GTAVI预告片将于下个月发布
- 安卓版Chrome会打开您在设置中切换的材质
- 谷歌Drive正在测试Android应用程序的奇怪重新设计
- 4TB三星990 PRO SSD首次大优惠