Meta基础AI研究团队的一组AI研究人员正在向创建新应用程序的研究人员和开发者公开四个新的AI模型。该团队已在arXiv预印本服务器上发布了一篇论文,概述了其中一个新模型JASCO及其可能的应用方式。
随着AI应用程序的兴趣日益浓厚,该领域的主要参与者正在创建可由其他实体用于向其自己的应用程序添加AI功能的AI模型。在这一新努力中,Meta团队已推出了四个新模型:JASCO、AudioSeal和两个版本的Chameleon。
JASCO旨在接受不同类型的音频输入并创建改进后的声音。该团队表示,该模型允许用户调整鼓声、吉他和弦甚至旋律等特性来制作曲调。该模型还可以接受文本输入,并将其用于为曲调增添风味。
例如,可以要求模型生成具有大量低音和鼓点的布鲁斯曲调,然后对其他乐器进行类似的描述。Meta团队还将JASCO与其他设计用于执行类似任务的系统进行了比较,发现JASCO在三个主要指标上均优于这些系统。
AudioSeal可用于向AI应用程序生成的语音中添加水印,从而可以轻松地识别出这些结果是人工生成的。他们指出,它还可以用于向添加到真实语音中的AI语音片段添加水印,并将附带商业许可证。
两个版本的Chameleon模型都将文本转换为视觉描述,并以有限的功能发布。该团队指出,7B和34B版本都需要模型对文本和图像都有一定的理解能力。因此,它们可以进行反向处理,例如为图片生成字幕。