OpenAI trình làng hệ sinh thái GPT-Realtime: Bước ngoặt của giao tiếp AI bằng giọng nói
OpenAI vừa chính thức công bố một loạt đột phá trong lĩnh vực trí tuệ nhân tạo giọng nói, đánh dấu bước chuyển mình quan trọng từ các hệ thống phản hồi đơn giản sang những giao diện có khả năng tương tác và suy luận phức tạp.
Trung tâm của đợt ra mắt này là mô hình GPT-Realtime-2, một bước tiến vượt bậc được tích hợp khả năng suy luận thuộc lớp GPT-5. So với phiên bản tiền nhiệm, mô hình này không chỉ dừng lại ở việc mô phỏng giọng nói chân thực mà còn có thể thấu hiểu và xử lý các yêu cầu đa tầng của người dùng trong các cuộc hội thoại trực tiếp.
Sự kiện lần này còn chứng kiến sự ra đời của GPT-Realtime-Translate, công cụ xóa bỏ rào cản ngôn ngữ thông qua dịch thuật tức thời. Với khả năng hỗ trợ hơn 70 ngôn ngữ đầu vào và 13 ngôn ngữ đầu ra, hệ thống này được thiết kế để duy trì nhịp độ tự nhiên của cuộc trò chuyện, giúp người nghe tiếp nhận thông tin gần như đồng thời với người nói. Song song đó, công cụ phiên âm GPT-Realtime-Whisper cũng được giới thiệu, cho phép chuyển đổi lời nói thành văn bản một cách chính xác ngay trong quá trình giao tiếp thực tế.

OpenAI trình làng hệ sinh thái GPT-Realtime: Bước ngoặt của giao tiếp AI bằng giọng nói. Ảnh: Internet
Đại diện OpenAI khẳng định rằng những mô hình mới đang đưa công nghệ âm thanh vượt xa giới hạn của hình thức hỏi - đáp truyền thống. Mục tiêu của hãng là kiến tạo một hệ sinh thái AI có khả năng lắng nghe, suy luận và thực hiện hành động ngay trong thời gian thực. Những cải tiến này được kỳ vọng sẽ tạo nên cuộc cách mạng trong nhiều lĩnh vực, từ nâng cao trải nghiệm chăm sóc khách hàng doanh nghiệp, hỗ trợ giáo dục cá nhân hóa đến việc tối ưu hóa quy trình sản xuất nội dung và tổ chức sự kiện quốc tế.
Tuy nhiên, đi đôi với sự tiện lợi là những thách thức về an ninh mạng. Để đối phó với nguy cơ bị lạm dụng cho mục đích lừa đảo hoặc phát tán thư rác, OpenAI đã thiết lập các lớp bảo vệ nghiêm ngặt. Hệ thống mới được trang bị cơ chế tự động nhận diện vi phạm và có khả năng ngắt quãng cuộc hội thoại ngay lập tức nếu phát hiện các nội dung gây hại.
Về phương thức tiếp cận, tất cả các mô hình này hiện đã được tích hợp vào Realtime API. OpenAI cũng áp dụng mô hình kinh doanh linh hoạt khi tính phí theo phút sử dụng đối với các dịch vụ dịch thuật và phiên âm, trong khi mô hình suy luận GPT-Realtime-2 sẽ được định giá dựa trên lượng token tiêu thụ, tạo điều kiện cho các nhà phát triển lựa chọn giải pháp tối ưu nhất cho nhu cầu của mình.
