Thung lũng Silicon đặt cược vào 'môi trường' đào tạo các tác nhân AI

09:38, 22/09/2025

Trong nhiều năm qua, các CEO Big Tech đã nuôi dưỡng tầm nhìn về những tác nhân AI có khả năng tự động sử dụng phần mềm để hoàn thành công việc thay con người. Thế nhưng, nếu thử trải nghiệm các tác nhân AI hiện tại, từ ChatGPT Agent của OpenAI đến Comet của Perplexity, dễ dàng nhận thấy công nghệ này vẫn còn nhiều hạn chế. Để cải thiện sức mạnh của tác nhân AI, giới công nghệ cho rằng cần đến những kỹ thuật mới, trong đó nổi bật là việc mô phỏng không gian làm việc hay còn gọi là môi trường học tăng cường (Reinforcement Learning – RL).

Tương tự như cách dữ liệu gắn nhãn từng thúc đẩy làn sóng AI trước đây, các môi trường RL đang trở thành yếu tố cốt lõi cho sự phát triển của các tác nhân. Giới nghiên cứu, sáng lập và đầu tư AI chia sẻ với TechCrunch rằng các phòng thí nghiệm AI hàng đầu hiện đều đặt ra yêu cầu về những môi trường thực tế phong phú hơn, đồng thời thị trường cũng chứng kiến nhiều công ty khởi nghiệp nổi lên với tham vọng cung cấp các môi trường này.

“Các phòng thí nghiệm AI lớn đều đang tự xây dựng môi trường RL nội bộ. Nhưng có thể hình dung, việc tạo ra dữ liệu dạng này cực kỳ phức tạp, vì thế họ cũng tìm đến các nhà cung cấp bên thứ ba để phát triển môi trường và đánh giá chất lượng cao. Đây đang là xu hướng chung của toàn ngành”, Jennifer Li, đối tác tại Andreessen Horowitz, cho biết.

Sự dịch chuyển này đã sản sinh một thế hệ công ty khởi nghiệp được hậu thuẫn vốn mạnh mẽ như Mechanize hay Prime Intellect, với tham vọng chiếm lĩnh lĩnh vực môi trường RL. Trong khi đó, những tên tuổi lớn trong mảng gắn nhãn dữ liệu như Mercor hay Surge cũng rót thêm nguồn lực vào RL, nhằm thích ứng với sự dịch chuyển từ dữ liệu tĩnh sang mô phỏng tương tác. Thậm chí, theo The Information, Anthropic đã bàn thảo về kế hoạch chi hơn 1 tỷ USD cho RL trong năm tới.

Các nhà đầu tư kỳ vọng một trong số các công ty khởi nghiệp này sẽ trở thành “Scale AI mới” trong lĩnh vực môi trường – ám chỉ công ty gắn nhãn dữ liệu trị giá 29 tỷ USD từng thúc đẩy sự bùng nổ của kỷ nguyên chatbot.

Môi trường RL là gì?
Về bản chất, môi trường RL là không gian mô phỏng, nơi tác nhân AI được huấn luyện thực hiện các tác vụ nhiều bước, tương tự như trong phần mềm thực tế. Một nhà sáng lập từng ví von rằng việc xây dựng chúng “giống như tạo ra một trò chơi điện tử rất nhàm chán”.

Ví dụ, một môi trường có thể mô phỏng trình duyệt Chrome và giao nhiệm vụ cho tác nhân AI mua một đôi tất trên Amazon. Hệ thống sẽ chấm điểm dựa trên hiệu quả và gửi tín hiệu thưởng nếu thành công. Tuy nhiên, tác nhân có thể gặp vô số tình huống bất ngờ: lạc trong menu thả xuống, chọn sai kích cỡ hoặc đặt quá nhiều sản phẩm. Do đó, môi trường phải đủ phức tạp để bao quát mọi tình huống và đưa ra phản hồi hữu ích, điều khiến việc xây dựng khó khăn hơn nhiều so với tập dữ liệu tĩnh.

Một số môi trường mô phỏng đa dạng hơn, cho phép AI sử dụng công cụ, truy cập internet hoặc kết hợp nhiều phần mềm khác nhau. Số khác thì được thiết kế hẹp hơn, tập trung vào các nhiệm vụ chuyên biệt trong phần mềm doanh nghiệp.

Thực tế, RL không phải khái niệm mới. Năm 2016, OpenAI từng giới thiệu “phòng tập ảo”, rất giống với các môi trường hiện nay. Cũng năm đó, AlphaGo của Google DeepMind đánh bại nhà vô địch cờ vây thế giới, dựa trên kỹ thuật RL trong một môi trường mô phỏng. Điểm khác biệt hiện nay là các nhà nghiên cứu tập trung phát triển tác nhân AI có khả năng tổng quát hơn, sử dụng các mô hình máy biến áp quy mô lớn, thay vì chỉ tối ưu cho một trò chơi khép kín.

Một thị trường đông đúc và cạnh tranh
Những công ty gắn nhãn dữ liệu như Scale AI, Surge, Mercor đang nhanh chóng bước vào cuộc chơi RL, tận dụng nguồn lực tài chính cùng mối quan hệ sâu rộng với các phòng thí nghiệm.

Edwin Chen, CEO Surge, cho biết ông chứng kiến nhu cầu về RL tăng nhanh chóng. Surge – được cho là mang về 1,2 tỷ USD doanh thu năm ngoái nhờ hợp tác với OpenAI, Google, Anthropic và Meta – vừa lập hẳn một đơn vị chuyên trách môi trường RL. Mercor, công ty khởi nghiệp được định giá 10 tỷ USD, cũng đang quảng bá với nhà đầu tư về tham vọng xây dựng môi trường RL cho các lĩnh vực chuyên biệt như lập trình, y tế và luật.

Trong khi đó, Scale AI – từng thống trị gắn nhãn dữ liệu – đang chật vật sau khi mất CEO, đồng thời mất hợp đồng cung cấp dữ liệu với Google và OpenAI. Tuy vậy, công ty này vẫn nỗ lực tái định vị trong mảng môi trường RL. “Chúng tôi đã thích ứng từ thời xe tự hành, rồi ChatGPT, và nay là môi trường RL”, Chetan Rane, Giám đốc sản phẩm Scale AI, nhấn mạnh.

Ở chiều ngược lại, các công ty khởi nghiệp non trẻ như Mechanize chọn tập trung toàn lực vào RL ngay từ đầu. Matthew Barnett, đồng sáng lập, khẳng định công ty hướng đến xây dựng ít nhưng chất lượng cao các môi trường mạnh mẽ, thay vì chạy theo số lượng. Mechanize thậm chí sẵn sàng trả mức lương 500.000 USD cho kỹ sư phần mềm – cao vượt trội so với thù lao tại Scale AI hay Surge – để phát triển RL.

Mechanize được cho là đã hợp tác với Anthropic, dù hai bên từ chối bình luận. Một cái tên khác là Prime Intellect, được hậu thuẫn bởi nhà nghiên cứu AI Andrej Karpathy cùng các quỹ lớn, lại chọn phục vụ cộng đồng phát triển nhỏ hơn. Công ty vừa ra mắt “trung tâm môi trường RL” với mục tiêu trở thành “gương mặt thân thiện” cho giới phát triển mã nguồn mở, đồng thời bán dịch vụ tính toán hỗ trợ RL.

Theo nhà nghiên cứu Will Brown (Prime Intellect), đào tạo tác nhân AI tổng quát trong RL tiêu tốn nhiều tài nguyên tính toán hơn các phương pháp trước. Do đó, ngoài các công ty xây dựng môi trường, còn có cơ hội cho các nhà cung cấp GPU đồng hành.

Bài toán mở rộng và hoài nghi
Câu hỏi lớn nhất là liệu RL có thể mở rộng thành công như các phương pháp đào tạo AI trước đây. Nhiều bước tiến lớn trong năm qua, như mô hình o1 của OpenAI hay Claude Opus 4 của Anthropic, đều dựa trên RL. Một số nhà nghiên cứu tại OpenAI thừa nhận chính RL là nền tảng cho các nỗ lực suy luận AI, bởi nó hứa hẹn khả năng mở rộng tốt hơn.

Dẫu vậy, không ít chuyên gia cảnh báo rủi ro. Ross Taylor, cựu trưởng nhóm AI của Meta, nhận định các môi trường RL rất dễ bị “tấn công phần thưởng”, khi AI gian lận để nhận thưởng mà không thực sự hoàn thành nhiệm vụ. Ông cho rằng việc mở rộng RL khó khăn hơn nhiều so với tưởng tượng.

Sherwin Wu, Trưởng bộ phận kỹ thuật API tại OpenAI, cũng thừa nhận thiếu các công ty khởi nghiệp đủ sức phục vụ nhu cầu RL trong bối cảnh nghiên cứu AI thay đổi quá nhanh. Ngay cả Andrej Karpathy – người ủng hộ Prime Intellect và từng coi RL là đột phá tiềm năng – gần đây cũng tỏ ra thận trọng. Trên X, ông viết rằng ông “lạc quan về môi trường và sự tương tác giữa các tác nhân, nhưng không quá tin tưởng vào RL nói riêng”.

Cuộc đua môi trường RL đang diễn ra sôi động với sự tham gia của hàng loạt tên tuổi lớn lẫn khởi nghiệp non trẻ. Tuy nhiên, liệu đây có phải lời giải cho việc mở rộng trí tuệ nhân tạo hay chỉ là một chặng thử nghiệm đầy rủi ro, vẫn là câu hỏi bỏ ngỏ.