Genie 2 của Google DeepMind: Bước đột phá trong tạo thế giới 3D bằng AI, nhưng còn nhiều hạn chế
Google DeepMind vừa giới thiệu Genie 2, mô hình AI thế hệ mới có khả năng tạo ra môi trường 3D tương tác chỉ từ một hình ảnh hoặc mô tả văn bản. Đây là một bước tiến vượt bậc so với Genie, phiên bản tiền nhiệm chỉ có thể tạo ra trò chơi 2D. Genie 2 được kỳ vọng sẽ là "mô hình thế giới nền tảng", cho phép các tác nhân AI tự huấn luyện trong môi trường mô phỏng chân thực, góp phần quan trọng vào việc phát triển trí tuệ nhân tạo tổng quát.
Genie 2 hoạt động bằng cách tạo ra các khung hình video dựa trên khung hình trước đó và dữ liệu đầu vào từ người dùng, chẳng hạn như hướng di chuyển hoặc hành động "nhảy". Tuy nhiên, Google chưa công bố chi tiết về lượng dữ liệu huấn luyện cần thiết cho Genie 2 so với 30.000 giờ video được sử dụng để huấn luyện Genie.
Một điểm nổi bật của Genie 2 là "bộ nhớ dài hạn", cho phép mô hình ghi nhớ các phần của thế giới khi chúng ra khỏi khung hình và hiển thị lại chính xác khi chúng quay trở lại. Tuy nhiên, "dài hạn" ở đây chỉ giới hạn trong khoảng một phút, với hầu hết các ví dụ được trình diễn kéo dài từ 10 đến 20 giây. Mặc dù ấn tượng so với các mô hình tạo video AI khác, con số này vẫn còn rất xa so với khả năng của các engine game hiện tại.
Google cho rằng Genie 2 hiện tại phù hợp hơn với việc tạo mẫu nhanh chóng các trải nghiệm tương tác hoặc biến concept art thành môi trường tương tác, thay vì tạo ra toàn bộ trải nghiệm trò chơi hoàn chỉnh. Việc này có thể hữu ích cho các nghệ sĩ hình ảnh, nhưng lại chưa thực sự hiệu quả cho việc thiết kế trò chơi.
Một vấn đề khác là tốc độ tạo khung hình. Genie phiên bản đầu tiên chỉ tạo được khoảng một khung hình mỗi giây. Google cho biết phiên bản rút gọn của Genie 2 có thể chạy thời gian thực nhưng chất lượng hình ảnh sẽ giảm, tuy nhiên mức độ giảm này chưa được công bố rõ ràng.
Mặc dù vậy, Genie 2 vẫn cho thấy tiềm năng lớn trong việc tạo môi trường huấn luyện cho các tác nhân AI khác. Khả năng suy luận thông tin về các đối tượng trong khung hình và tạo ra tương tác với chúng cho thấy Genie 2 có thể trở thành một nền tảng thử nghiệm lý tưởng cho AI trong nhiều thế giới mô phỏng khác nhau. Điều này có thể mở ra những hướng đi mới trong việc phát triển trí tuệ nhân tạo, đặc biệt là trong lĩnh vực robot.
Genie 2 là một bước tiến đáng kể trong việc tạo thế giới 3D bằng AI, nhưng vẫn còn nhiều thách thức cần vượt qua trước khi có thể ứng dụng rộng rãi trong việc tạo ra trải nghiệm trò chơi hoàn chỉnh. Tuy nhiên, tiềm năng của nó trong việc huấn luyện các tác nhân AI khác là rất đáng kỳ vọng.