Aeneas: Trí tuệ nhân tạo tái sinh ký ức La Mã cổ đại
Đối với các nhà sử học và khảo cổ học, mỗi dòng chữ tưởng chừng đơn giản lại là một mảnh ghép vô cùng quý giá trong bức tranh lịch sử La Mã rộng lớn, nhưng đồng thời cũng là một câu đố cực kỳ hóc búa, đòi hỏi sự kiên nhẫn và chuyên môn sâu sắc. Giờ đây, một công cụ trí tuệ nhân tạo mang tên Aeneas, do Google DeepMind phát triển, đang mở ra một hướng tiếp cận hoàn toàn mới để giải mã những thông điệp cổ đại bị thất lạc, hứa hẹn tái kết nối những mảnh rời rạc của lịch sử văn minh La Mã từng tưởng đã đứt đoạn.
Aeneas là một mô hình thần kinh đa mô hình (multimodal neural network) tiên tiến, có khả năng xử lý đồng thời cả hình ảnh và văn bản. Điểm đặc biệt của Aeneas nằm ở việc nó được huấn luyện trên một kho dữ liệu khổng lồ: Hơn 16 triệu ký tự Latin từ 176.000 bản khắc, bao phủ suốt 1.500 năm lịch sử La Mã cổ đại. Phạm vi địa lý của dữ liệu cũng vô cùng rộng lớn, trải dài từ Bắc Phi, châu Âu đến Trung Đông, tương ứng với 62 tỉnh cổ xưa của Đế chế.
Không chỉ dừng lại ở nội dung văn bản, Aeneas còn phân tích hình ảnh minh họa của khoảng 5% số bản khắc, cho phép mô hình xây dựng mối liên hệ chặt chẽ và sâu sắc giữa hình thức thể hiện và nội dung ngữ nghĩa của văn bản. Khả năng kết hợp dữ liệu hình ảnh, văn bản, lịch sử ngữ pháp, phong cách địa phương và đối sánh thời gian đã giúp Aeneas đạt được khả năng hiểu sâu sắc văn bản như một học giả thực thụ, mở ra cánh cửa mới đầy hứa hẹn trong lĩnh vực nghiên cứu chữ khắc (epigraphy) và sử học cổ đại.
Ảnh minh hoạ.
Sức mạnh của Aeneas được thể hiện rõ nét qua ba năng lực cốt lõi mang tính đột phá. Thứ nhất, trong nhiệm vụ phục hồi các đoạn văn bị mất, Aeneas cho thấy hiệu suất đáng kinh ngạc khi có thể dự đoán chính xác khoảng 73% các khoảng trống có độ dài đến 10 ký tự, một con số vượt trội hoàn toàn so với các hệ thống AI trước đây. Điều đáng nể hơn là mô hình này vẫn có thể điền đúng các đoạn thiếu ngay cả khi không biết trước độ dài khoảng trống, với độ chính xác 58%, một thách thức mà hầu hết các chuyên gia con người gặp nhiều khó khăn. Nhờ Aeneas, những dòng chữ từng chỉ là gợi ý mơ hồ giờ đây dần được sáng tỏ, phản ánh đời sống thường nhật, luật pháp, tôn giáo, thương mại, thậm chí là những lời nhắn cá nhân của người La Mã cổ đại.
Năng lực thứ hai của Aeneas là xác định nguồn gốc địa lý của bản khắc với độ chính xác khoảng 72% (thậm chí 75% trong một thử nghiệm độc lập). Khả năng này dựa trên việc Aeneas nhận diện những khác biệt tinh tế trong cách dùng từ, phong cách ngữ pháp và hình thức thể hiện những yếu tố thường mang dấu ấn đặc trưng của từng vùng miền trong Đế chế La Mã rộng lớn. Từ đó, Aeneas giúp các nhà nghiên cứu kết nối các văn bản với địa điểm cụ thể, góp phần tái dựng lại các sự kiện, nhân vật hoặc địa danh từng bị lãng quên trong lịch sử.
Cuối cùng, Aeneas thể hiện hiệu suất ấn tượng trong việc ước lượng niên đại của văn bản với sai số trung bình chỉ khoảng 13 năm, trong khi các chuyên gia epigraphy thường có kết quả sai số lên tới gần 31 năm. Điều này có nghĩa là công cụ này có thể xác định niên đại trong vòng một thập kỷ. Đặc biệt, khi kết hợp mô hình AI với đánh giá của chuyên gia, độ chính xác còn được cải thiện đáng kể, cho thấy tiềm năng hợp tác mạnh mẽ giữa AI và con người để đạt hiệu quả cao nhất trong nghiên cứu cổ điển.
Trong một thử nghiệm độc lập, khi so sánh với 23 chuyên gia epigraphy, Aeneas cho kết quả chính xác vượt trội ở cả ba nhiệm vụ phục hồi, xác định nguồn gốc và niên đại. Điều đáng nói là khi sử dụng mô hình để hỗ trợ chuyên gia, kết quả còn tốt hơn việc để chuyên gia làm độc lập, điều này khẳng định tiềm năng hợp tác giữa con người và máy học trong các lĩnh vực đòi hỏi kiến thức liên ngành sâu sắc. Trước Aeneas, DeepMind từng ra mắt Ithaca, một hệ thống tương tự dành cho các bản khắc tiếng Hy Lạp cổ, nhưng Aeneas vượt trội hơn cả về độ phủ dữ liệu lẫn năng lực phân tích ngữ cảnh không hoàn chỉnh.
Google DeepMind cũng đã có một bước đi quan trọng khi công bố mã nguồn mở, bộ dữ liệu huấn luyện và một nền tảng trực tuyến miễn phí cho cộng đồng học thuật toàn cầu. Điều này nhằm thúc đẩy tính minh bạch, khả năng tái sử dụng và cộng tác quốc tế trong nghiên cứu cổ điển. Dù được cảnh báo cần thận trọng khi sử dụng, Aeneas vẫn được kỳ vọng sẽ mở rộng sang các ngôn ngữ và nền văn hóa cổ đại khác, nơi lịch sử bị chôn vùi dưới lớp bụi thời gian.
Sự ra đời của Aeneas là minh chứng sống động cho thấy trí tuệ nhân tạo không chỉ là công cụ của khoa học kỹ thuật, mà còn có thể trở thành người đồng hành đáng tin cậy của nhân văn học, giúp con người đọc lại quá khứ bằng con mắt công nghệ và trí tuệ số.