Bên trong Physical Intelligence – startup đang xây dựng “bộ não” robot gây chú ý nhất Thung lũng Silicon

18:17, 30/01/2026

Nhìn từ bên ngoài, dấu hiệu duy nhất cho thấy tôi đã tìm đúng trụ sở của Physical Intelligence tại San Francisco chỉ là một ký hiệu π trên cánh cửa, có màu sắc hơi khác so với phần còn lại. Bước vào bên trong, không khí làm việc hiện ra ngay lập tức: không quầy lễ tân, không logo phát sáng, không những yếu tố trình diễn quen thuộc của các công ty công nghệ.

Không gian làm việc là một khối bê tông lớn, phần nào bớt khô cứng nhờ những dãy bàn gỗ dài màu sáng được bố trí khá ngẫu hứng. Một số bàn rõ ràng phục vụ sinh hoạt hằng ngày, với hộp bánh quy Girl Scout, các hũ Vegemite (dấu hiệu cho thấy có người Úc làm việc tại đây) và những giỏ gia vị nhỏ chất đầy. Nhưng phần lớn các bàn còn lại phản ánh đúng bản chất của nơi này: màn hình máy tính, linh kiện robot rời, dây cáp chằng chịt và các cánh tay robot đã lắp ráp hoàn chỉnh, đang trong quá trình học cách thực hiện những công việc đời thường.

Trong chuyến thăm của tôi, một cánh tay robot đang thử gấp một chiếc quần đen — nhưng kết quả chưa mấy khả quan. Một cánh tay khác đang cố lộn mặt trong của chiếc áo, với sự kiên trì cho thấy nó có thể sẽ làm được, chỉ là không phải hôm nay. Cánh tay thứ ba dường như đã “tìm đúng việc”: nhanh chóng gọt một quả bí ngòi, sau đó chuẩn bị đưa phần vỏ vào một hộp riêng. Ít nhất, khâu gọt vỏ đang diễn ra trơn tru.

“Hãy hình dung nó giống như ChatGPT, nhưng dành cho robot,” Sergey Levine nói, tay chỉ về “vũ điệu cơ học” đang diễn ra khắp căn phòng. Levine là phó giáo sư tại Đại học California, Berkeley và đồng sáng lập Physical Intelligence. Ông mang phong thái điềm đạm, gần gũi của một người đã quen với việc giải thích những khái niệm phức tạp cho người nghe không chuyên.

Cánh tay robot trong phòng thí nghiệm của Physical Intelligence đang thử nghiệm thao tác gấp quần áo – một phần trong quá trình huấn luyện mô hình trí tuệ robot đa năng. 

Theo Levine, những gì tôi đang chứng kiến là giai đoạn kiểm thử trong một vòng lặp liên tục: dữ liệu được thu thập từ các trạm robot tại đây và ở nhiều địa điểm khác — nhà kho, nhà ở, bất cứ nơi nào nhóm có thể triển khai — sau đó dùng để huấn luyện các mô hình nền tảng robot đa năng (general-purpose robotic foundation models). Khi một mô hình mới được huấn luyện xong, nó sẽ quay lại các trạm như thế này để đánh giá. Robot gấp quần, lộn áo hay gọt bí đều là những thử nghiệm riêng lẻ. Với robot gọt bí, mục tiêu có thể là kiểm tra khả năng khái quát hóa: liệu mô hình có học được các chuyển động cơ bản của việc gọt vỏ để áp dụng cho một quả táo hay củ khoai tây chưa từng “gặp” trước đó hay không.

Công ty cũng vận hành một “nhà bếp thử nghiệm” ngay trong tòa nhà và tại các địa điểm khác, sử dụng phần cứng thương mại phổ thông để đặt robot vào nhiều môi trường và thách thức khác nhau. Một chiếc máy pha cà phê espresso cao cấp đặt gần đó khiến tôi nghĩ dành cho nhân viên, cho đến khi Levine giải thích: không, nó dành cho robot học cách vận hành. Những ly latte có bọt sữa tạo ra ở đây là dữ liệu, chứ không phải đặc quyền dành cho hàng chục kỹ sư đang chăm chú trước màn hình hoặc theo dõi các thí nghiệm cơ khí.

Phần cứng mà Physical Intelligence sử dụng được cố tình lựa chọn theo hướng “không hào nhoáng”. Mỗi cánh tay robot có giá khoảng 3.500 USD, con số mà Levine cho biết đã bao gồm “mức chênh lệch rất lớn” từ nhà cung cấp. Nếu tự sản xuất, chi phí vật liệu có thể dưới 1.000 USD. Vài năm trước, theo ông, nhiều nhà nghiên cứu robot sẽ ngạc nhiên nếu những thiết bị như vậy làm được bất cứ điều gì. Nhưng đó chính là triết lý của công ty: trí tuệ đủ tốt có thể bù đắp cho phần cứng kém hoàn hảo.

Khi Levine rời đi, tôi gặp Lachy Groom — người di chuyển trong không gian với sự khẩn trương của một người luôn có nhiều việc diễn ra cùng lúc. Ở tuổi 31, Groom vẫn mang vẻ ngoài trẻ trung đặc trưng của “thần đồng” Thung lũng Silicon. Anh bán công ty đầu tiên chỉ sau 9 tháng khởi nghiệp, khi mới 13 tuổi tại Úc — điều này cũng lý giải cho sự xuất hiện của Vegemite trong văn phòng.

Khi tôi tiếp cận anh trước đó, lúc anh đang đón một nhóm khách mặc áo nỉ bước vào tòa nhà, câu trả lời ban đầu khá dứt khoát: “Không được đâu, tôi có họp.” Nhưng rồi anh dành cho tôi khoảng 10 phút.

Groom cho biết, anh bắt đầu chú ý đến lĩnh vực này khi theo dõi các nghiên cứu học thuật từ phòng thí nghiệm của Sergey Levine và Chelsea Finn — cựu nghiên cứu sinh của Levine tại Berkeley, hiện điều hành phòng lab riêng tại Stanford, tập trung vào học máy cho robot. Tên của họ liên tục xuất hiện trong những công trình thú vị nhất về robot. Khi nghe tin họ có thể đang chuẩn bị khởi nghiệp, Groom tìm đến Karol Hausman, nhà nghiên cứu tại Google DeepMind và giảng viên Stanford, người cũng tham gia dự án. “Đó là kiểu cuộc gặp mà khi bước ra, bạn nghĩ ngay: ‘Chính là nó’,” Groom nói.

Dù có thành tích đầu tư ấn tượng, Groom cho biết anh chưa bao giờ muốn trở thành nhà đầu tư toàn thời gian. Sau khi rời Stripe — nơi anh là nhân viên giai đoạn đầu — Groom dành khoảng 5 năm làm nhà đầu tư thiên thần, rót vốn sớm vào các startup như Figma, Notion, Ramp hay Lattice, đồng thời tìm kiếm công ty phù hợp để trực tiếp tham gia. Khoản đầu tư robot đầu tiên của anh là Standard Bots vào năm 2021, đưa anh quay lại niềm đam mê từ thuở nhỏ với Lego Mindstorms. “Làm nhà đầu tư thì… đi nghỉ mát nhiều hơn,” anh đùa. Nhưng đầu tư chỉ là cách để duy trì kết nối, không phải đích đến. “Tôi mất 5 năm để tìm công ty mình muốn bắt đầu sau Stripe. Ý tưởng tốt, đúng thời điểm, với đội ngũ tốt — cực kỳ hiếm. Thực thi rất quan trọng, nhưng bạn có thể thực thi rất giỏi trên một ý tưởng tệ, và nó vẫn là ý tưởng tệ.”

Bàn làm việc trong phòng thí nghiệm của Physical Intelligence. 

Sau hai năm hoạt động, Physical Intelligence đã huy động hơn 1 tỷ USD. Khi được hỏi về “đường băng” tài chính, Groom nhanh chóng nói rõ rằng công ty không đốt tiền quá nhanh, phần lớn chi phí dành cho năng lực tính toán (compute). Tuy vậy, anh cũng thừa nhận rằng nếu có điều kiện phù hợp và đối tác phù hợp, công ty sẵn sàng gọi thêm vốn. “Không có giới hạn thực sự cho lượng tiền chúng tôi có thể sử dụng hiệu quả. Luôn có thêm compute để ném vào bài toán,” anh nói.

Điểm khác thường là Physical Intelligence không đưa ra cho nhà đầu tư một lộ trình thương mại hóa rõ ràng. “Tôi không trả lời câu hỏi về thương mại hóa,” Groom nói, dù các quỹ như Khosla Ventures, Sequoia Capital hay Thrive Capital đã định giá công ty ở mức 5,6 tỷ USD. “Thật kỳ lạ là các nhà đầu tư lại chấp nhận điều đó.” Nhưng hiện tại, họ vẫn chấp nhận — và đó cũng là lý do công ty muốn được trang bị nguồn vốn dồi dào ngay từ bây giờ.

Vậy chiến lược của Physical Intelligence là gì, nếu không phải thương mại hóa sớm? Theo Quan Vuong, đồng sáng lập khác từng làm việc tại Google DeepMind, trọng tâm nằm ở học đa hình thái (cross-embodiment learning) và dữ liệu đa dạng. Nếu ngày mai xuất hiện một nền tảng phần cứng robot mới, họ sẽ không cần thu thập dữ liệu từ đầu — mô hình có thể chuyển giao toàn bộ kiến thức đã có. “Chi phí cận biên để đưa khả năng tự động hóa vào một nền tảng robot mới sẽ thấp hơn rất nhiều,” Vuong nói.

Hiện công ty đã hợp tác với một số doanh nghiệp trong các lĩnh vực như logistics, bán lẻ thực phẩm, thậm chí cả một nhà sản xuất chocolate gần đó, để kiểm tra khả năng ứng dụng thực tế. Theo Vuong, trong một số trường hợp, hệ thống đã đủ tốt cho tự động hóa. Với cách tiếp cận “bất kỳ nền tảng nào, bất kỳ nhiệm vụ nào”, số lượng bài toán có thể giải quyết là rất lớn, và nhiều nhiệm vụ đã sẵn sàng để triển khai ngay hôm nay.

Physical Intelligence không đơn độc trong cuộc đua này. Cuộc cạnh tranh xây dựng trí tuệ robot đa năng — tương tự vai trò của các mô hình ngôn ngữ lớn (LLM) trong AI — đang nóng lên. Skild AI, startup có trụ sở tại Pittsburgh, thành lập năm 2023, vừa huy động 1,4 tỷ USD với mức định giá 14 tỷ USD và theo đuổi hướng đi khác. Trong khi Physical Intelligence tập trung vào nghiên cứu, Skild AI đã thương mại hóa “Skild Brain” và cho biết tạo ra 30 triệu USD doanh thu chỉ trong vài tháng năm ngoái từ các lĩnh vực an ninh, kho vận và sản xuất.

Không gian phòng thí nghiệm và xưởng thử nghiệm robot của Physical Intelligence tại San Francisco.

Skild AI thậm chí công khai chỉ trích đối thủ, cho rằng nhiều “mô hình nền tảng robot” thực chất chỉ là mô hình thị giác – ngôn ngữ “đội lốt”, thiếu “nhận thức vật lý thực sự” vì phụ thuộc quá nhiều vào dữ liệu huấn luyện từ internet thay vì mô phỏng vật lý và dữ liệu robot thực.

Đây là một khác biệt mang tính triết lý. Skild AI đặt cược vào việc triển khai thương mại sớm để tạo vòng lặp dữ liệu. Physical Intelligence tin rằng việc trì hoãn thương mại hóa sẽ giúp họ xây dựng được trí tuệ tổng quát vượt trội. Ai đúng sẽ cần nhiều năm nữa mới có câu trả lời.

Ở hiện tại, Physical Intelligence vận hành với sự rõ ràng hiếm thấy, theo lời Groom. “Đây là một công ty rất ‘thuần’. Nhà nghiên cứu cần gì, chúng tôi đi thu thập dữ liệu cho nhu cầu đó — phần cứng mới hay bất cứ thứ gì — rồi làm. Không bị tác động bởi yếu tố bên ngoài.” Công ty từng vạch ra lộ trình 5–10 năm, nhưng chỉ sau 18 tháng đã vượt xa kế hoạch ban đầu.

Physical Intelligence hiện có khoảng 80 nhân sự và sẽ tiếp tục mở rộng, nhưng Groom nói là “càng chậm càng tốt”. Thách thức lớn nhất vẫn là phần cứng. “Phần cứng cực kỳ khó. Mọi thứ chúng tôi làm đều khó hơn nhiều so với một công ty phần mềm.” Thiết bị có thể hỏng, giao hàng chậm làm trì hoãn thử nghiệm, và các yêu cầu an toàn khiến mọi thứ phức tạp hơn.

Khi Groom vội vã rời đi cho cuộc hẹn tiếp theo, tôi tiếp tục quan sát các robot luyện tập. Chiếc quần vẫn chưa được gấp gọn. Chiếc áo vẫn chưa chịu lộn mặt trong. Riêng phần vỏ bí ngòi thì đang chất thành đống.

Vẫn còn đó nhiều câu hỏi: liệu có ai thực sự muốn một robot gọt rau trong bếp hay không, vấn đề an toàn, phản ứng của thú cưng, hay việc lượng tiền và thời gian khổng lồ đổ vào đây có giải quyết được những vấn đề đủ lớn hay không. Bên ngoài, cũng có không ít hoài nghi về tiến độ của công ty và tính khả thi của việc đặt cược vào trí tuệ tổng quát thay vì các ứng dụng cụ thể.

Nếu có nghi ngờ, Groom không để lộ. Anh đang làm việc cùng những người đã theo đuổi bài toán này hàng chục năm và tin rằng thời điểm đã chín muồi. Với anh, như vậy là đủ.

Và từ trước đến nay, Thung lũng Silicon vẫn luôn sẵn sàng đặt niềm tin — và tiền bạc — vào những con người như vậy, ngay cả khi chưa có lộ trình rõ ràng hay câu trả lời chắc chắn về thị trường tương lai. Không phải lúc nào điều đó cũng thành công. Nhưng mỗi khi thành công, nó lại đủ sức biện minh cho rất nhiều lần thất bại trước đó.