Trí tuệ nhân tạo vật lý: Khi robot học cử chỉ con người
Giờ đây, khi AI gần như chinh phục toàn bộ thế giới trực tuyến, nó lại cần được hướng dẫn để hiểu cách con người vận động trong đời sống thực.
Khi trí tuệ nhân tạo (AI) đã tiến gần đến giới hạn của những gì có thể học từ môi trường số, một cuộc đua mới đang dần hình thành: dạy AI hiểu và tái hiện những chuyển động của con người trong thế giới thực.
Từ thị trấn công nghiệp Karur ở miền Nam Ấn Độ cho đến các phòng thí nghiệm hiện đại tại Mỹ, hàng nghìn lao động đang miệt mài nuôi dưỡng thế hệ robot hình người - những cỗ máy mà các tập đoàn công nghệ lớn tin rằng sẽ định hình tương lai lao động toàn cầu.
Công việc tỉ mỉ phía sau dữ liệu vật lý
Giờ đây, khi AI gần như chinh phục toàn bộ thế giới trực tuyến, nó lại cần được hướng dẫn để hiểu cách con người vận động trong đời sống thực. Trên khắp thế giới, một lực lượng huấn luyện viên ngày càng đông đang giúp AI bước ra khỏi màn hình, tiến vào phòng khách, văn phòng và nhà máy, bằng cách dạy cho nó những chuyển động tinh vi của con người.
Tại một thị trấn công nghiệp ở miền Nam Ấn Độ, Naveen Kumar, 28 tuổi, bắt đầu công việc hằng ngày bằng cách đứng trước bàn làm việc và gấp hàng trăm chiếc khăn tay với độ chính xác tuyệt đối. Anh không phải nhân viên khách sạn; Kumar làm việc cho một công ty khởi nghiệp chuyên tạo dữ liệu vật lý nhằm huấn luyện AI.
Chiếc camera GoPro gắn trên trán anh ghi lại từng thao tác tay theo quy trình chuẩn, nhằm tái hiện góc nhìn thực của con người khi gấp khăn. Nhiệm vụ trong ngày của Kumar là nhặt từng chiếc khăn từ giỏ bên phải bằng tay phải, trải thẳng bằng cả hai tay, gấp lại ba lần thật gọn gàng và đặt vào góc trái bàn.
Nếu bất kỳ bước nào diễn ra sai hoặc kéo dài quá một phút, anh phải bắt đầu lại từ đầu. Công việc tưởng chừng đơn giản này hóa ra là thử thách nghiêm ngặt, bởi mọi chuyển động đều phải hoàn hảo để dữ liệu trở nên hữu ích cho AI.
Công ty nơi Kumar làm việc - Objectways, chuyên về dán nhãn dữ liệu - đã gửi 200 video gấp khăn cho một khách hàng tại Mỹ. Với hơn 2.000 nhân viên, một nửa làm việc trong mảng dán nhãn dữ liệu cảm biến cho xe tự hành và robot, số còn lại tham gia vào mảng AI tạo sinh. Dù phần lớn là kỹ sư và hầu như không ai có kinh nghiệm gấp khăn, họ vẫn thay phiên thực hiện công việc thủ công này.
“Đôi khi chúng tôi phải loại bỏ 150 đến 200 video chỉ vì những lỗi rất nhỏ trong cách gấp hay đặt vật”, Kumar, người đã có sáu năm kinh nghiệm tại Objectways, chia sẻ. Mọi chuyển động được dàn dựng cẩn thận, ghi nhận từng chi tiết của hành động con người - từ vươn tay, kẹp ngón tay đến trượt vải - nhằm phục vụ việc dạy robot gấp quần áo.
Sau khi quay xong, Kumar cùng đồng nghiệp tiến hành chú thích video. Họ khoanh vùng các bộ phận, gắn nhãn khăn, mô tả hướng di chuyển của cánh tay và phân loại từng cử chỉ. Nhóm nhân viên tại thị trấn Karur, cách Bengaluru khoảng 300 dặm (khoảng 482 km) về phía nam, trở thành những “huấn luyện viên” không mấy ai ngờ tới cho thế hệ robot AI tiếp theo.
“Các công ty đang xây dựng những mô hình nền tảng cho thế giới vật lý”, Ulrik Stig Hansen, đồng sáng lập Encord - nền tảng quản lý dữ liệu hợp tác với Objectways nhận định. “Ngành robot đang trở lại mạnh mẽ”. Encord hiện đồng hành cùng nhiều công ty robot như Physical Intelligence và Dyna Robotics, những doanh nghiệp được hậu thuẫn bởi tỷ phú Jeff Bezos.

Một số chuyên gia nhận định robot trông ấn tượng nhưng chưa thực sự tự động hóa. Ảnh: Denver Gazette - Scientific American
Cuộc đua thu thập dữ liệu
Tại Mỹ, Tesla, Boston Dynamics và Nvidia dẫn đầu cuộc cạnh tranh phát triển robot thế hệ mới. Tesla đã đưa robot Optimus tham gia nhiều sự kiện, dù chủ yếu được điều khiển từ xa. Google cũng phát triển các mô hình AI dành cho robot, trong khi OpenAI đang mở rộng tham vọng trong lĩnh vực này. Nvidia dự đoán thị trường robot hình người có thể đạt giá trị 38 tỷ USD trong thập niên tới.
Không chỉ có các “ông lớn”, nhiều công ty nhỏ hơn cũng tham gia, cung cấp phần cứng, phần mềm và dữ liệu nhằm biến robot hình người đa nhiệm trở thành sản phẩm công nghiệp đại trà. Các mô hình ngôn ngữ lớn như ChatGPT đã làm chủ cách xử lý ngôn ngữ, hình ảnh, âm nhạc và lập trình bằng cách học từ nguồn dữ liệu khổng lồ trên Internet. Tuy nhiên, dữ liệu về thế giới vật lý, chẳng hạn như lực cần thiết để gấp một chiếc khăn lại vô cùng khó thu thập và chuyển hóa thành thông tin hữu ích cho AI.
Khi robot ngày càng thông minh và linh hoạt hơn, chúng có thể xuất hiện cả trong môi trường làm việc lẫn đời sống gia đình. Dù lo ngại về tình trạng thất nghiệp gia tăng, những người lạc quan tin rằng robot sẽ giúp con người rời bỏ các công việc nặng nhọc, từ đó có thêm thời gian dành cho những hoạt động sáng tạo và ý nghĩa hơn.
Ngày càng nhiều doanh nghiệp nhận thấy cơ hội trong việc cung cấp dữ liệu cho “AI vật lý”. Một số công ty đang đào tạo AI bằng cách để con người điều khiển robot từ xa. Ali Ansari - nhà sáng lập Micro1 tại San Francisco, cho biết, thu thập dữ liệu cho robot đang dần chuyển sang mô hình điều khiển từ xa: con người sử dụng tay cầm để ra lệnh cho robot nhấc cốc, pha trà hoặc thực hiện các tác vụ khác. AI được cung cấp cả video thành công lẫn thất bại để học hỏi.
Các buổi điều khiển có thể diễn ra ngay bên cạnh robot hoặc từ một quốc gia khác. Ulrik Stig Hansen cho biết, tại Đông Âu đang xây dựng những kho vận nơi hàng loạt nhân viên sẽ vận hành robot trên khắp thế giới. Mohammad Musa - nhà sáng lập Deepen AI, dự đoán, sẽ xuất hiện nhiều “trang trại cánh tay robot” như vậy khi nhu cầu tăng lên.
“Hiện nay, dữ liệu thực và dữ liệu tổng hợp đều được sử dụng - thu từ các buổi trình diễn của con người, điều khiển từ xa và môi trường mô phỏng. Phần lớn công việc vẫn diễn ra ngoài phương Tây, nhưng tự động hóa và mô phỏng sẽ giảm dần sự phụ thuộc đó”, ông cho biết.
Một số chuyên gia chỉ trích việc sử dụng robot hình người điều khiển từ xa, cho rằng chúng tuy ấn tượng về hình thức nhưng chưa thực sự tự động hóa. Song, Micro1 vẫn tiếp tục mở rộng sang thu thập dữ liệu chuyển động con người: công ty trả tiền cho những người tham gia đeo kính thông minh để quay lại các hoạt động hằng ngày tại Brazil, Argentina, Ấn Độ và Mỹ, nhằm cung cấp dữ liệu thực cho AI.

AI ngày càng bước ra khỏi dữ liệu số để học hỏi và tương tác với thế giới thực. Ảnh: Denver Gazette - Scientific American
Figure AI tại San José đã hợp tác với Brookfield để ghi hình bên trong 100 nghìn ngôi nhà, nhằm thu thập dữ liệu chuyển động giúp robot học cách di chuyển trong không gian của con người. Công ty cho biết phần lớn trong 1 tỷ USD vốn huy động sẽ được dùng cho mục tiêu này. Trong khi đó, Scale AI, được Meta hỗ trợ, đã ghi nhận 100 nghìn giờ video huấn luyện robot tại phòng thí nghiệm thử nghiệm ở San Francisco.
Tuy nhiên, việc huấn luyện robot không phải lúc nào cũng suôn sẻ. Dev Mandal, 20 tuổi, tại Bengaluru, từng lập một công ty chuyên thu thập dữ liệu chuyển động giá rẻ cho AI. Anh nhận nhiệm vụ huấn luyện robot nấu ăn và robot cắm dây tại trung tâm dữ liệu, nhưng phải dừng dự án vì khách hàng yêu cầu dữ liệu quá chi tiết, đến mức loại bàn phải đúng màu tím theo tiêu chuẩn. “Chuyện gì cũng phải đúng ý họ, kể cả màu của cái bàn”, anh chia sẻ.
Trong khi đó, nhu cầu dành cho đội gấp khăn tại Karur vẫn không ngừng tăng. Ravi Shankar - nhà sáng lập Objectways, cho biết, công ty đã ghi hình và chú thích video robot gấp hộp carton, áo phông và phân loại đồ vật theo màu sắc. Gần đây, họ bắt đầu chú thích cảnh robot hình người tiên tiến gấp và phân loại nhiều loại khăn, quần áo khác nhau.
Đội của ông đã xử lý 15 nghìn video ghi lại quá trình robot làm việc. “Đôi khi robot hất tung quần áo hoặc gấp sai hoàn toàn. Có lúc nó làm đổ cả đống khăn. Tuy nhiên, nó đang học rất nhanh. Trong 5 đến 10 năm nữa, có lẽ chúng sẽ làm được mọi thứ, còn chúng tôi thì sẽ mất việc”, Kavin, 27 tuổi, nhân viên tại Objectways, chia sẻ.
Trong bối cảnh hiện nay, AI không còn là công cụ xử lý dữ liệu số đơn thuần mà đang bước vào thế giới thực, với khả năng quan sát, học hỏi và mô phỏng các chuyển động vật lý phức tạp. Những tiến bộ này đánh dấu sự thay đổi căn bản: từ việc AI hiểu ngôn ngữ, hình ảnh, âm thanh, đến việc hiểu cách con người tương tác với vật thể xung quanh.
Việc đào tạo AI dựa trên dữ liệu vật lý vừa mở ra cơ hội, vừa đặt ra thách thức. Nó đòi hỏi độ chính xác cao trong từng thao tác - từ lực tay, góc quay, tốc độ di chuyển cho đến cách sắp xếp vật thể - điều mà dữ liệu trực tuyến khó có thể cung cấp. Song chính dữ liệu vật lý này là chìa khóa để phát triển robot có khả năng hợp tác với con người, thay thế những công việc tẻ nhạt và nâng cao năng suất lao động.
|
Sự phát triển mạnh mẽ của AI vật lý cũng đặt ra những câu hỏi lớn về xã hội và kinh tế. Khi robot trở nên thông minh và linh hoạt hơn, ranh giới giữa công việc do con người đảm nhận và công việc do robot thực hiện ngày càng mờ nhạt, tạo áp lực chuyển đổi nghề nghiệp nhưng đồng thời giải phóng con người khỏi các công việc lặp đi lặp lại. Bên cạnh đó, việc thu thập dữ liệu vật lý trên quy mô toàn cầu làm nổi bật tầm quan trọng của đạo đức trong AI: bảo vệ quyền riêng tư, bảo đảm tính minh bạch và công bằng trong cách dữ liệu được thu thập và sử dụng. |
