英伟达新AI模型：让声音随心所欲，修改生成皆可能？-智能汽车-虎科技

英伟达在近日的一次展示中，向外界介绍了一种全新的音乐与音频生成人工智能模型。这款名为Fugatto的模型，全称为Foundational Generative Audio Transformer Opus 1，它的诞生为音乐、电影及视频游戏制作领域带来了全新的可能性。

作为全球顶尖的人工智能系统芯片和软件供应商，英伟达在人工智能领域的创新从未停歇。然而，Fugatto目前仍处于内部研发阶段，英伟达方面表示，尚未有公开发布该技术的具体计划。

Fugatto模型的能力十分强大，它不仅能够根据文本提示生成音频或视频，还能够接收并修改现有的音频文件。比如，它可以将一段钢琴弹奏的旋律转换成人声演唱的版本，或者改变口语录音中的口音和情绪表达。这一特性使得它在音频编辑和制作领域具有极高的应用价值。

在英伟达应用深度学习研究副总裁Bryan Catanzaro看来，生成式人工智能将为音乐、视频游戏等创意产业带来革命性的变化。他提到，回顾过去50年的合成音频发展，计算机和合成器的出现已经让音乐听起来截然不同。而现在，生成式人工智能的加入，将为普通人提供更多创造事物的机会。

然而，随着人工智能技术在娱乐行业的广泛应用，科技界与好莱坞之间的关系也变得日益紧张。特别是在好莱坞明星斯嘉丽·约翰逊指责OpenAI模仿她的声音之后，如何平衡人工智能技术的创新与版权保护之间的关系，成为了业界关注的焦点。英伟达方面也表示，他们正在谨慎地考虑Fugatto模型的发布问题，以避免潜在的风险。

据了解，英伟达的新模型是在开源数据上进行训练的。尽管目前尚未确定是否以及何时公开发布，但英伟达方面表示，他们正在积极探讨如何确保该技术的安全使用。Bryan Catanzaro强调，任何生成技术都存在一定的风险，因此他们需要对此保持谨慎。

除了英伟达之外，Runway等初创公司和meta Platforms等大型公司也在积极探索人工智能技术在音频和视频生成方面的应用。这些技术能够根据文本提示生成各种新奇的声音和画面，为创意产业提供了更多的可能性。

然而，随着这些技术的不断发展，如何防止滥用也成为了业界亟待解决的问题。例如，用户可能会利用这些技术生成错误信息或侵犯版权的内容。因此，英伟达等公司在推进技术创新的同时，也需要积极寻求解决方案，以确保这些技术的合法、安全和合理使用。