Claude và hành trình chinh phục thế giới Pokémon: Liệu trí tuệ nhân tạo đã sẵn sàng?

Claude và hành trình chinh phục thế giới Pokémon: Liệu trí tuệ nhân tạo đã sẵn sàng?
Claude của Anthropic vẫn chưa thắng được Pokémon! 🤔

Bài viết phân tích khả năng chơi game Pokémon của mô hình ngôn ngữ lớn Claude, từ đó đánh giá tiềm năng và những hạn chế hiện tại của trí tuệ nhân tạo trong việc đạt đến mức độ thông minh của con người.

Gần đây, nhiều chuyên gia trong ngành công nghiệp AI dự đoán về sự xuất hiện của "trí tuệ nhân tạo tổng quát" (AGI) - những tác nhân ảo có khả năng sánh ngang hoặc vượt qua khả năng hiểu biết và thực hiện hầu hết các nhiệm vụ nhận thức của con người. Một số dự đoán cho rằng AGI có thể đạt được trình độ của một "nhân viên tri thức có thu nhập cao" trong tương lai gần.

Giữa những dự đoán đó, dự án "Claude Chơi Pokémon" của Anthropic nổi lên như một minh chứng thú vị. Dự án này được xem là một bước tiến trên con đường hướng tới AGI, cho thấy "tia sáng của các hệ thống AI giải quyết thách thức với năng lực ngày càng tăng, không chỉ thông qua huấn luyện mà còn bằng khả năng lập luận tổng quát".

Claude 3.7 Sonnet, phiên bản mới nhất của Claude, đã đạt được những tiến bộ đáng kể trong trò chơi Pokémon so với các phiên bản trước. Trong khi các mô hình cũ gặp khó khăn ngay từ khu vực đầu tiên, Claude 3.7 Sonnet đã có thể thu thập nhiều Huy hiệu Gym chỉ trong một số lượng hành động tương đối nhỏ. Anthropic cho rằng bước đột phá này đến từ "khả năng tư duy mở rộng" của Claude 3.7 Sonnet, cho phép mô hình lập kế hoạch trước, ghi nhớ mục tiêu và thích ứng khi chiến lược ban đầu thất bại.

Tuy nhiên, thành công tương đối so với các mô hình trước không đồng nghĩa với việc Claude đã hoàn toàn chinh phục được trò chơi. Trên thực tế, Claude vẫn gặp khó khăn trong việc duy trì tiến độ ổn định. Mô hình thường xuyên quay lại những thị trấn đã hoàn thành, bị mắc kẹt trong góc khuất trên bản đồ, hoặc nói chuyện vô ích với cùng một NPC nhiều lần. Những hành vi này cho thấy hiệu suất trong trò chơi của Claude vẫn còn kém xa so với con người.

Điều thú vị là Claude có thể chơi Pokémon mà không cần được huấn luyện đặc biệt cho trò chơi này. Nhà phát triển dự án, David Hershey, cho biết Claude sử dụng kiến thức tổng quát về thế giới để hiểu về Pokémon, các Huy hiệu Gym, và cấu trúc chung của trò chơi. Claude cũng quan sát và diễn giải hình ảnh trò chơi giống như con người, nhưng vẫn gặp khó khăn trong việc xử lý hình ảnh pixel độ phân giải thấp của Game Boy.

Điểm mạnh của Claude nằm ở việc xử lý các phần văn bản trong trò chơi. Claude có thể ghi nhớ thông tin về hiệu quả của các đòn tấn công và sử dụng chúng để xây dựng chiến lược chiến đấu. Mô hình thậm chí còn thể hiện khả năng "thông minh" đáng ngạc nhiên khi xử lý các đoạn văn bản gây hiểu nhầm hoặc không đầy đủ trong trò chơi.

Tuy nhiên, Claude cũng gặp khó khăn trong việc "ghi nhớ" những gì đã học được. "Cửa sổ ngữ cảnh" giới hạn của mô hình khiến Claude phải tóm tắt thông tin chi tiết, dẫn đến việc mất một số chi tiết quan trọng. Điều này khiến Claude khó theo dõi những gì đã làm và đôi khi xóa nhầm thông tin quan trọng. Nguy hiểm hơn, nếu Claude ghi nhớ thông tin sai lệch, nó có thể mất rất nhiều thời gian để nhận ra lỗi sai và điều chỉnh chiến lược.

Mặc dù còn nhiều hạn chế, Claude 3.7 Sonnet đã cho thấy những tiến bộ đáng kể so với các mô hình trước trong việc "đặt câu hỏi về giả định, thử nghiệm các chiến lược mới và theo dõi hiệu quả của chúng trong thời gian dài". Hershey tin rằng việc cải thiện khả năng hiểu hình ảnh và mở rộng cửa sổ ngữ cảnh sẽ giúp Claude tiến gần hơn đến việc chinh phục trò chơi Pokémon. Tuy nhiên, hiệu suất hiện tại của Claude cho thấy AGI ở cấp độ con người vẫn còn là một mục tiêu xa vời.

Dù vậy, những nỗ lực của Claude trong việc chơi Pokémon cung cấp những bài học quý giá cho quá trình nghiên cứu và phát triển trí tuệ nhân tạo. Việc Claude có thể "làm được một số việc" đã là một bước tiến lớn, cho thấy tiềm năng phát triển của AI trong tương lai. Câu hỏi đặt ra là liệu những tiến bộ này có đủ để đưa chúng ta đến gần hơn với AGI hay không, vẫn còn là một câu hỏi mở.

Read more