Fugatto: Công cụ AI biến đổi âm thanh đột phá của Nvidia

Fugatto: Công cụ AI biến đổi âm thanh đột phá của Nvidia
Công nghệ AI mới của Nvidia: Âm thanh chưa từng có!

Thế giới công nghệ âm thanh đang chứng kiến một bước tiến vượt bậc với sự ra đời của Fugatto, mô hình AI mới nhất đến từ Nvidia. Không chỉ dừng lại ở việc tổng hợp giọng nói hay giai điệu từ văn bản như các mô hình AI hiện có, Fugatto còn có khả năng biến đổi và kết hợp nhiều loại âm thanh khác nhau, tạo ra những âm thanh hoàn toàn mới lạ.

Mặc dù Fugatto chưa được phát hành công khai, nhưng trang web giới thiệu dự án đã hé lộ những khả năng ấn tượng của mô hình này. Từ tiếng saxophone sủa đến giọng nói dưới nước, hay dàn hợp xướng còi xe cứu thương, Fugatto cho thấy tiềm năng biến đổi âm thanh đa dạng và phong phú. Nvidia gọi Fugatto là "dao quân đội Thụy Sĩ cho âm thanh", một công cụ đa năng và linh hoạt.

Để đạt được khả năng này, các nhà nghiên cứu tại Nvidia đã phải vượt qua thách thức trong việc xây dựng bộ dữ liệu huấn luyện. Họ sử dụng mô hình ngôn ngữ lớn (LLM) để tạo ra các tập lệnh Python, từ đó tạo ra hàng loạt hướng dẫn mô tả các "đặc tính âm thanh" khác nhau. Kết hợp với các bộ dữ liệu âm thanh nguồn mở, họ đã tạo ra một bộ dữ liệu khổng lồ với hơn 20 triệu mẫu, tương đương 50.000 giờ âm thanh, được chú thích chi tiết về các đặc điểm như giới tính, cảm xúc và chất lượng giọng nói.

Điểm đặc biệt của Fugatto nằm ở hệ thống "ComposableART" (Audio Representation Transformation). Hệ thống này cho phép điều khiển và tạo ra các kết hợp âm thanh mới lạ, vượt ra ngoài phạm vi dữ liệu huấn luyện. Ví dụ, Fugatto có thể tạo ra âm thanh của cây đàn violin "giống như tiếng cười của trẻ con" hoặc "tiếng banjo chơi dưới mưa nhẹ", hay thậm chí là "tiếng máy móc trong nhà máy kêu gào trong đau đớn".

Fugatto không chỉ đơn thuần kết hợp âm thanh mà còn cho phép điều chỉnh mức độ của từng đặc tính âm thanh. Ví dụ, khi kết hợp âm thanh guitar acoustic và tiếng nước chảy, người dùng có thể điều chỉnh tỷ lệ giữa hai âm thanh này để tạo ra những kết quả khác nhau. Tương tự, Fugatto cũng có thể điều chỉnh độ nặng nhẹ của giọng Pháp hay mức độ "buồn bã" trong một đoạn hội thoại.

Bên cạnh việc tạo ra âm thanh mới, Fugatto cũng thừa hưởng những khả năng của các mô hình AI trước đó, như thay đổi cảm xúc trong giọng nói hay tách giọng hát khỏi bản nhạc. Mô hình này còn có thể nhận diện các nốt nhạc trong MIDI và thay thế bằng giọng hát, hoặc thêm hiệu ứng âm thanh đồng bộ với nhịp điệu của bài hát.

Nvidia kỳ vọng Fugatto sẽ trở thành một công cụ hỗ trợ đắc lực cho các nghệ sĩ âm thanh, mở ra những khả năng sáng tạo mới trong sản xuất âm nhạc, thiết kế âm thanh cho trò chơi điện tử và nhiều lĩnh vực khác. Fugatto không phải là sự thay thế cho tài năng sáng tạo, mà là một công cụ mới để nâng tầm nghệ thuật âm thanh.

Read more