Google Translate làm việc như thế nào?
17:11, 27/09/2011
Cách làm việc Google Translate không khác nhiều so với… của những dịch giả cũng như thông dịch viên ngày nay!
Bằng cách sử dụng thành quả của những nhà nghiên cứu tại IBM phát triển từ thập kỷ 80 của thế kỷ trước, ông trùm tìm kiếm Google đã tạo ra một công cụ dịch thuật tự động độc đáo mang tên Google Translate (GT). Cái “độc đáo” của GT là ở chỗ, nó hoạt động hoàn toàn khác với những cỗ máy dịch thuật sơ khai, vốn có nhiệm vụ giải nghĩa của một cấu trúc câu dựa trên ngữ pháp và vốn từ vựng.
Thực sự, nếu xét cho cùng, thì công cụ dịch thuật nổi tiếng (đôi khi cũng hết sức tai tiếng) của Google chẳng bao giờ thèm để ý tới “ý nghĩa gốc” về mặt ngữ pháp của đối tượng cần phiên dịch (những câu, từ hay thậm chí là cả đoạn văn). Thay vì sử dụng những thuật toán phiên dịch, thì Google lại sử dụng sức mạnh của công cụ tìm kiếm để tìm ra những văn bản có chứa những đối tượng kể trên chỉ trong chớp mắt. Sau đó thuật toán sẽ dựa vào những câu chữ kế tiếp (cũng như trước đó) để tìm ra cách hành văn cũng như ngữ điệu của đoạn văn đó.
Như vậy, dựa vào phương pháp “đối chiếu” giữa hàng triệu văn bản dưới hàng chục ngôn ngữ tồn tại trên mạng internet, GT sẽ hiển thị bản dịch phù hợp nhất cho người sử dụng. Ở đây, có thể thấy những cuốn tiểu thuyết, những cuốn sách nổi tiếng hàng ngàn từ được biên dịch sang nhiều thứ tiếng đóng một vai trò quan trọng giúp GT làm việc hiệu quả. Nói một cách khác, nó chính là kho dữ liệu để công cụ này sử dụng.
Phần lớn thời gian (xin nhấn mạnh “phần lớn”), nó hoàn thành khá tốt nhiệm vụ đặt ra. GT, theo một cách nào đó, đã trở thành một niềm hy vọng của các kỹ sư CNTT về việc tạo ra một công cụ dịch thuật tự động đáng tin cậy. Và dĩ nhiên, Google Translate sẽ chẳng bao giờ có thể tạo ra một cú “hit” trong ngành dịch thuật nếu như không có sự đóng góp hàng triệu giờ đồng hồ lao động của những dịch giả trên toàn thế giới. Nhờ có họ mà thư viện bản dịch của GT đã vàng đang ngày một lớn dần lên.
Ở thời điểm hiện tại, công cụ của Google có khả năng phiên dịch chéo giữa 58 ngôn ngữ khác nhau, có nghĩa là tồn tại đến… 3.306 lệnh biên dịch khác nhau. Khá nhiều trong số đó chưa từng xuất hiện trong các văn bản hay các từ điển chính thống, ví dụ như việc dịch từ tiếng Việt sang tiếng Iceland chẳng hạn. Tuy nhiên chất lượng của các bản dịch được tạo ra bởi Google Translate không thể nào đồng nhất mà còn phụ thuộc nhiều vào các ngôn ngữ được sử dụng. Với những ngôn ngữ ít được sử dụng, GT có thể sử dụng một ngôn ngữ trung gian (ví dụ Tiếng Anh) để biên dịch. Tuy nhiên, khi phải dịch qua ngôn ngữ trung gian thì tính chính xác của kết quả hẳn không còn nhiều.
Một trong những vấn đề vẫn còn đang tồn tại đó là việc Google Translate, cũng như chúng ta, đang bị ảnh hưởng khá mạnh do tác động của quá trình toàn cầu hóa. Hệ thống được giới chuyên môn đánh giá cao này rốt cuộc cũng chỉ có khả năng thực hiện hơn 3 nghìn lệnh dịch theo ngôn ngữ. Lý do có vẻ khá đơn giản: việc sử dụng các ngôn ngữ trên thế giới không hề giống nhau. Có những ngôn ngữ được sử dụng bởi hàng tỉ người trên thế giới, nhưng cũng có những thứ tiếng chỉ được sử dụng bởi vài triệu người. Vì vậy, độ chính xác của bản dịch đôi khi cũng phụ thuộc khá nhiều vào mức độ phổ biến của loại ngôn ngữ có liên quan.
GT là một công cụ được đánh giá cao, không có nghĩa là nó không bao giờ tạo ra những lỗi sai ngữ pháp ngớ ngẩn. Nhưng may mắn thay, những lỗi sai này không “nguy hiểm” như những lỗi ngữ pháp được tạo ra bởi con người. Chính vì sự “ngớ ngẩn” mà người sử dụng có thể dễ dàng nhận ra kết quả của tác vụ dịch thuật không hề có nghĩa, và có thể bỏ kết quả đó đi bất cứ lúc nào (Một lời khuyên từ các chuyên gia, đó là đừng bao giờ sử dụng Google Translate để dịch những thứ tiếng mà bạn không biết rõ. Bạn chỉ nên sử dụng Google Translate để tiến hành dịch thuật những thứ tiếng mà bạn có thể nhận ra các lỗi ngữ pháp có thể phát sinh).
Ở một khía cạnh khác, chúng ta xét đến những phiên dịch viên (cũng như thông dịch viên) chuyên nghiệp. Những con người được đào tạo bài bản này có khả năng biên dịch hết sức trôi chảy, cũng như mang đầy đủ ngữ nghĩa của một đoạn văn bản. Không chỉ có vậy, họ còn sở hữu những kỹ năng “độc quyền”, giúp công việc của họ trở nên “dễ thở” hơn.
Ví dụ, một thông dịch viên (những người thường ngồi ở các cabin tại các hội nghị cấp cao, làm nhiệm vụ phiên dịch những bài diễn văn ra các ngôn ngữ khác nhau) có khả năng “đoán trước” những gì một diễn giả sắp sửa nói. Khả năng của họ có được chính là nhờ vào kinh nghiệm. Các chính khách thường có thói quen “tái sử dụng” những ngữ điệu trong bài nói của mình.
Thoáng một chút, thì cách làm việc của những dịch giả cũng như thông dịch viên ngày nay không khác nhiều so với… Google Translate! Đó là tìm lại những cụm từ tương tự có trong trí nhớ của họ để tìm ra cách dịch ổn thỏa nhất. Tuy nhiên, tốc độ “lục tìm” lại trí nhớ của một dịch giả nếu so với tốc độ tìm kiếm của Google thì có vẻ hơi khập khiễng.
Cách GT “xử trí” với những câu chữ có thể là rất kỳ lạ, tuy nhiên không thể phủ nhận khả năng (cũng như tiềm năng) của dịch vụ dịch thuật trực tuyến này. Một điều rất đáng khen ngợi đội ngũ phát triển tại Google, đó là cách họ “đối xử” với từng thứ ngôn ngữ đều ngang bằng nhau, bất kể chúng có phổ biến hay không.
Theo GenK