AI không giỏi về lịch sử
Một nghiên cứu mới đây cho thấy trí tuệ nhân tạo (AI), dù gây ấn tượng mạnh ở nhiều lĩnh vực như mã hóa hay tạo nội dung, lại không giỏi khi phải xử lý các câu hỏi liên quan đến lịch sử cấp cao.
Trong nghiên cứu này, một nhóm chuyên gia đã đưa ba mô hình ngôn ngữ lớn (LLM) hàng đầu – GPT-4 của OpenAI, Llama của Meta và Gemini của Google vào bài kiểm tra mang tên Hist-LLM. Đây là một chuẩn mực được thiết kế dựa trên Seshat Global History Databank, cơ sở dữ liệu đồ sộ về lịch sử toàn cầu.
Kết quả của nghiên cứu này được trình bày tại hội nghị AI NeurIPS vừa qua, đã mang lại không ít thất vọng. Dù GPT-4 Turbo đạt hiệu suất cao nhất trong số các mô hình, độ chính xác của nó chỉ dừng lại ở mức 46% – một con số không khác gì so với việc đoán ngẫu nhiên.
Maria del Rio-Chanona, phó giáo sư khoa học máy tính tại University College London và đồng tác giả bài nghiên cứu nhận định rằng đây là minh chứng rõ ràng cho thấy LLM, dù rất ấn tượng trong các nhiệm vụ cơ bản, vẫn thiếu chiều sâu để xử lý các vấn đề lịch sử phức tạp ở cấp độ cao. Chúng có thể trả lời tốt một số sự kiện cơ bản, nhưng với những câu hỏi sâu sắc hơn, đòi hỏi sự hiểu biết sắc thái, như trong nghiên cứu tiến sĩ, thì LLM vẫn chưa đáp ứng được yêu cầu.
Nguồn hình ảnh: metamorworks / Hình ảnh Getty
Một ví dụ tiêu biểu được nhóm đưa ra là khi GPT-4 Turbo được hỏi về áo giáp vảy và sự xuất hiện của nó trong một giai đoạn lịch sử cụ thể tại Ai Cập cổ đại. Mô hình AI đã trả lời sai, cho rằng công nghệ này đã tồn tại, trong khi thực tế áo giáp vảy chỉ xuất hiện ở Ai Cập khoảng 1.500 năm sau đó.
Theo del Rio-Chanona, một lý do khiến các mô hình AI gặp khó khăn với các câu hỏi lịch sử phức tạp là vì chúng có xu hướng suy diễn dựa trên dữ liệu lịch sử phổ biến, nhưng lại khó xử lý các thông tin ít được đề cập hoặc có tính mơ hồ cao.
Một minh họa khác là khi các nhà nghiên cứu hỏi GPT-4 rằng liệu Ai Cập cổ đại có sở hữu quân đội thường trực chuyên nghiệp trong một giai đoạn lịch sử cụ thể hay không. Câu trả lời đúng là không, nhưng LLM đã trả lời có. Điều này có thể bắt nguồn từ việc các nền văn minh như Ba Tư – vốn nổi tiếng với đội quân thường trực – xuất hiện nhiều trong dữ liệu đào tạo, khiến AI suy diễn sai khi gặp các câu hỏi liên quan đến những nền văn minh khác ít được đề cập hơn.
Nghiên cứu cũng phát hiện các xu hướng bất cập khác. Chẳng hạn, các mô hình OpenAI và Llama thể hiện kém ở những khu vực cụ thể như miền cận Sahara châu Phi, gợi ý rằng có thể tồn tại sự thiên lệch trong dữ liệu đào tạo của chúng. Peter Turchin, người đứng đầu nghiên cứu này, nhận định rằng kết quả đã nhấn mạnh một thực tế rõ ràng: LLM hiện tại vẫn chưa đủ năng lực để thay thế con người trong một số lĩnh vực, đặc biệt là nghiên cứu lịch sử phức tạp.
Tuy nhiên, các nhà nghiên cứu cũng tin rằng tương lai của LLM trong lịch sử không hoàn toàn ảm đạm. Họ đang nỗ lực cải thiện chuẩn mực kiểm tra bằng cách bổ sung thêm dữ liệu từ các khu vực ít được đại diện, đồng thời tăng cường các câu hỏi ở mức độ phức tạp cao hơn. Theo bài báo, mặc dù kết quả chỉ ra những hạn chế nghiêm trọng của LLM hiện nay, chúng vẫn có tiềm năng trở thành công cụ hỗ trợ đắc lực cho các nhà sử học, giúp họ tiếp cận và xử lý khối lượng lớn thông tin dễ dàng hơn trong tương lai.