AI đã thành thạo ngôn ngữ. Thế giới vật chất là bước tiếp theo

Bước nhảy vọt tiếp theo của trí tuệ nhân tạo sẽ không đến từ các mô hình ngôn ngữ tốt hơn. Nó sẽ đến từ những máy móc hiểu cách thế giới vật lý hoạt động và cách kiểm soát nó.

Video đề xuất


Tôi đã dành nhiều năm suy nghĩ về điều này, ban đầu là một nhà miễn dịch học tại Oxford, nghiên cứu cách các mạng lưới miễn dịch học học qua phản hồi thay vì hướng dẫn, sau đó là một nhà đầu tư dẫn đầu khoản đầu tư hạt giống lớn nhất của Khosla Ventures kể từ OpenAI, vào một phòng thí nghiệm mô hình thế giới gọi là General Intuition.

Ràng buộc chính của AI thể thể là không phải về khả năng tính toán hay kiến trúc. Đó là một loại dữ liệu đặc biệt gần như không tồn tại.

Thả tự do cho Genie

Đầu năm nay, Google đã phát hành Dự án Genie và khiến toàn bộ thị trường game đi xuống. Thị trường hiểu đó như một mối đe dọa đối với Unity, TakeTwo Interactive, Roblox, toàn bộ quy trình sáng tạo nội dung—AI đang đến với các nhà phát triển game. Nhưng rút gọn điều này thành sự gián đoạn trong game giống như xem trình diễn iPhone đầu tiên và kết luận Apple đang nhắm vào Nokia. Chiến lược thực sự là sở hữu mọi tác vụ không gian trên hành tinh này.

Điều khiến Google lật tẩy là không phải Genie làm tốt điều gì, mà là những gì nó phải thỏa hiệp: môi trường chỉ tồn tại vài phút, độ trễ rõ rệt, vật lý hoạt động kỳ lạ. Hiện tại, đây là những giới hạn chấp nhận được khi mục đích thực sự không phải để giải trí. Google đã nói rõ rằng Genie 3 là “bước đệm quan trọng trên con đường hướng tới AGI,” hạ tầng để đào tạo SIMA, đại diện chung của họ cần vô số môi trường đa dạng để học cách điều hướng, thao tác vật thể và vật lý thế giới thực. Tạo ra các đối tượng giữa chừng và thay đổi điều kiện môi trường trong lúc chạy không phải là tính năng game. Đó là một trình tạo chương trình giảng dạy cho học tăng cường.

Những gì Google đã xây dựng là một nhà máy môi trường, một hệ thống rút ngắn hàng tháng mã thủ công truyền thống để tạo ra các mô phỏng đào tạo thành vài giây nhờ vào lệnh văn bản.

Vượt ra ngoài màn hình kính

Để hiểu tại sao sự phân biệt đó quan trọng, hãy thu nhỏ lại. Dù cuộc cách mạng kỹ thuật số đã gây ra nhiều biến động, nhưng đáng ngạc nhiên là cách chúng ta tương tác vật lý với thực tại vẫn gần như không thay đổi. Bước nhảy từ máy tính để bàn sơ khai đến điện thoại thông minh rồi kiến trúc transformer là một bước tiến lớn về luồng thông tin. Nhưng chúng ta vẫn chủ yếu chạm vào màn hình kính.

Hãy nghĩ đến chú sóc ngoài cửa sổ của bạn, nhảy từ cành này sang cành khác, điều chỉnh giữa chừng để chống gió và uốn cong. Nó sở hữu một mô hình vật lý nội bộ vô cùng tinh vi: trọng lực, động lượng, ma sát, và có thể lập kế hoạch các chuỗi hành động phức tạp. Nhưng nó không có ngôn ngữ. Nó chỉ biết, theo cách mà kiến thức đã tồn tại từ lâu trước khi có thể mô tả.

AI gần như bỏ qua loại kiến thức này hoàn toàn. Các mô hình ngôn ngữ lớn ngày nay có thể viết thơ sonnet và gỡ lỗi mã. Nhưng hỏi chúng gấp khăn tắm và bạn sẽ nhận ra khoảng cách giữa biết về thế giới và biết cách hành động trong đó. Ngôn ngữ chỉ là một dạng nén của trải nghiệm con người. Văn bản chỉ ghi lại một phần rất nhỏ những gì chúng ta biết.

Mô hình thế giới, mạng neural được huấn luyện để hiểu và dự đoán thực tế vật lý, hứa hẹn thay đổi điều đó. Yann LeCun hiểu rõ điều này, và tuyên bố “LLMs về cơ bản là một điểm dừng khi nói đến siêu trí tuệ” trước khi rời Meta để thành lập startup mô hình thế giới của riêng mình. Fei-Fei Li’s World Labs vừa ra mắt Marble, tạo ra các môi trường 3D. Cả hai đều hiểu rằng trí tuệ không gian là biên giới tiếp theo của AI.

Nhưng cả hai chưa giải quyết được ràng buộc chính: họ thiếu dữ liệu để xây dựng các đại lý.

Đào tạo một đại lý đòi hỏi dữ liệu có điều kiện hành động. Không chỉ là hình ảnh thế giới trông như thế nào, mà còn là những gì ai đó đã làm và chuyện gì xảy ra tiếp theo: quan sát, quyết định, hành động, hậu quả. Chu trình hoàn chỉnh. Chuyển sang đại lý đòi hỏi hàng triệu giờ quyết định của con người được ghi lại từ nguồn, phù hợp khung hình với các thay đổi trạng thái kết quả, tự chọn lọc các trường hợp ngoại lệ.

Tay là rào cản cuối cùng

Game có thể là câu trả lời không ngờ tới. Chúng cung cấp hồ sơ đầy đủ về hành động của con người, mọi đầu vào đều được ghi lại và gắn nhãn, trong các môi trường ghi lại vật lý và quyết định trong điều kiện không chắc chắn. Hàng triệu giờ đánh giá của con người, đã được số hóa.

Giá trị sâu nhất không phải là vật lý. Đó là trực giác của con người. Một engine vật lý mô hình cách drone di chuyển; nó không thể mô hình cách một người vận hành giỏi phản ứng khi bị bất ngờ. Trong phẫu thuật, đó là cảm giác về cách mô tissue phản ứng với dao mổ. Huấn luyện dựa trên quyết định của con người và bạn sẽ thu thập được chuyên môn không thể mô tả bằng lời, chỉ có thể thể hiện, cảm nhận.

Làm đúng điều này và hậu quả sẽ vang vọng như phần mềm đã làm với thông tin.

Khi một máy học có thể học một nhiệm vụ thao tác từ hàng giờ trình diễn thay vì hàng tháng lập trình, kinh tế sản xuất sẽ đảo lộn. Sản xuất theo lô nhỏ trở nên khả thi. Hàng hóa tùy chỉnh có giá như hàng hóa đại trà ngày nay. Kiến thức của một thợ điện bậc thầy có thể triển khai ở hàng nghìn thành phố cùng lúc. Phán đoán của bác sĩ phẫu thuật giỏi nhất có thể mở rộng tới các bệnh viện nông thôn không có tiếp cận ngày nay. Rào cản chưa bao giờ là dao mổ. Đó là đôi tay.

Nông nghiệp, logistics, chăm sóc người cao tuổi. Mọi lĩnh vực nơi kỹ năng vật lý khan hiếm đều trở thành ứng viên cho sự biến đổi. Đặc điểm chung: chuyên môn bị khóa trong từng cơ thể cá nhân nay trở nên có thể chuyển giao.

Cách mạng kỹ thuật số đã làm thông tin trở nên miễn phí. Cách mạng mô hình thế giới sẽ làm khả năng trở nên miễn phí. Tôi không nghĩ ra một cược nào có ý nghĩa hơn để đặt cược.

Ý kiến trong các bài bình luận của Fortune.com chỉ phản ánh quan điểm của tác giả và không nhất thiết phản ánh quan điểm và niềm tin của Fortune.

**Tham gia cùng chúng tôi tại Hội nghị Đổi mới Nơi làm việc Fortune **19–20 tháng 5, 2026, tại Atlanta. Thời đại mới của đổi mới nơi làm việc đã đến—và sách lược cũ đang được viết lại. Tại sự kiện độc quyền, năng lượng cao này, các nhà lãnh đạo sáng tạo nhất thế giới sẽ tụ họp để khám phá cách AI, nhân loại và chiến lược hội tụ để định hình lại, một lần nữa, tương lai của công việc. Đăng ký ngay.

AGI-2,1%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim