OpenAI Xác Nhận Ảo Giác Của AI Là Bắt Buộc Về Toán Học

11244

Trong một tiết lộ mang tính đột phá, OpenAI, lực tiên phong đằng sau ChatGPT, chính thức thừa nhận rằng các mô hình ngôn ngữ lớn (LLMs) sẽ liên tục tạo ra thông tin có vẻ hợp lý nhưng lại sai lệch. Điều này không chỉ là một khuyết tắc kỹ thuật; đó là một sự tất yếu toán học cơ bản, theo nghiên cứu mới nhất của họ.

Sự thừa nhận quan trọng này từ một trong những công ty có ảnh hưởng nhất trong ngành AI nhấn mạnh một thách thức cốt lõi không thể giải quyết thông qua kỹ thuật tốt hơn hoặc dữ liệu đào tạo hoàn hảo. Nó làm nổi bật những hạn chế vốn có ngay cả trong các hệ thống AI tiên tiến nhất.

Sự Tiết Lộ Cốt Lõi: Tại Sao AI Ảo Giác

Một nghiên cứu toàn diện, do các nhà nghiên cứu OpenAI Adam Tauman Kalai, Edwin Zhang và Ofir Nachum đứng đầu, cùng với Santosh S. Vempala của Georgia Tech, đã giới thiệu một khuôn khổ toán học chi tiết. Khuôn khổ này giải thích rõ ràng tại sao các hệ thống AI có định hướng tạo ra các đầu ra không chính xác nhưng lại thuyết phục.

“Giống như học sinh gặp những câu hỏi thi thử thách, các mô hình ngôn ngữ lớn đôi khi phải đoán khi đối mặt với sự không chắc chắn, dẫn đến những phát biểu có vẻ hợp lý nhưng không chính xác thay vì thừa nhận thiếu kiến thức,” các nhà nghiên trình bày trong bài báo của họ. “Những ‘ảo giác’ như vậy vẫn tồn tại ngay cả trong các hệ thống tiên tiến nhất, làm xói mòn niềm tin của người dùng.”

Sức nặng của sự thừa nhận này đặc biệt quan trọng khi xét đến vai trò của OpenAI trong việc khởi động làn sóng AI hiện tại và khuyến khích việc áp dụng rộng rãi các công nghệ AI tạo sinh hàng triệu người dùng và doanh nghiệp.

Vượt Ra Ngoài Kỹ Thuật: Những Yêu Cầu Toán Học

Nghiên cứu của OpenAI chứng minh rằng những ảo giác này bắt nguồn trực tiếp từ các thuộc tính thống kê vốn có trong việc đào tạo mô hình ngôn ngữ, thay vì từ các lỗi thực hiện. Nghiên cứu đã thiết lập một phát hiện quan trọng: “tỷ lệ lỗi tạo sinh ít nhất gấp đôi tỷ lệ phân loại sai của IIV”, trong đó IIV (Is-It-Valid) đại diện cho một cận dưới toán học. Điều này chứng minh rằng các hệ thống AI sẽ luôn mắc một tỷ lệ nhất định lỗi, bất chấp sự tiến bộ công nghệ.

Nghiên cứu đã xác định ba yếu tố toán học cốt lõi góp phần vào sự tất yếu của ảo giác:

  • Sự Không Chắc Chantz Kiến Thức: Điều này xảy ra khi thông tin hiếm khi gặp trong dữ liệu đào tạo.
  • Hạn Chế Mô Hình: Một số nhiệm vụ vượt quá khả năng biểu diễn của các thiết kế kiến trúc hiện tại.
  • Khó Khăn Tính Toán: Ngay cả các hệ thống tiên tiến nhất cũng không thể giải quyết các vấn đề mật mã khó.

Bằng Chứng Thực Tế và Sự Lỗi Lầm Của Mô Hình

Các nhà nghiên cứu đã nhấn mạnh các phát hiện của họ bằng cách sử dụng các mô hình tiên tiến khác nhau, bao gồm cả các mô hình được phát triển bởi đối thủ cạnh tranh của OpenAI.

Các Mô Hình Hàng Đầu Thể Hiện Điểm Yếu

Ví dụ, khi được hỏi “Có bao nhiêu chữ D trong DEEPSEEK?”, mô hình DeepSeek-V3 với 600 tỷ tham số “trả lời ‘2’ hoặc ‘3’ trong mười thử nghiệm độc lập.” Tương tự, Meta AI và Claude 3.7 Sonnet cũng cho thấy hiệu năng tương tự, đôi khi đưa ra câu trả lời cao đến ‘6’ hoặc ‘7’. “

Hệ Thống Của OpenAI Cũng Đối Mặt Với Thách Thức

OpenAI thẳng thắn thừa nhận thách thức đang tiếp diễn trong hệ sinh thái của chính họ. Công ty đã nêu trong bài báo: “ChatGPT cũng ảo giác. GPT-5 có ít ảo giác hơn đáng kể, đặc biệt khi lập luận, nhưng chúng vẫn xảy ra. Ảo giác vẫn là một thách thức cơ bản đối với tất cả các mô hình ngôn ngữ lớn.”

Đáng chú ý, các mô hình lập luận tiên tiến hơn của OpenAI đôi khi ảo giác thường xuyên hơn các đối tác đơn giản hơn. Mô hình lập luận o1 của công ty “ảo giác 16% thời gian” khi tóm tắt thông tin công khai. Ngược lại, các mô hình mới hơn như o3 và o4-mini “ảo giác lần lượt 33% và 48% thời gian.”

“Khác với trí tuệ con người, nó thiếu khiêm tốn để thừa nhận sự không chắc chắn,” Neil Shah, Phó Chủ nhiệm nghiên cứu và đối tác tại Counterpoint Technologies, bình luận. “Khi không chắc chắn, nó không hoãn lại nghiên cứu sâu hơn hoặc giám sát của con người; thay vào đó, nó thường trình bày ước tính như một sự thật.”

Vai Trò của Đánh Giá Trong Việc Duy Trì Lỗi Lầm

Bên cạnh việc chứng minh sự tất yếu của ảo giác, nghiên cứu của OpenAI đã tiết lộ rằng các phương pháp đánh giá phổ biến trong ngành vô tình làm trầm trọng thêm vấn đề.

Thước Đo Khuyết Tật Thưởng Đoán Đoán

Phân tích các thước đo chuẩn phổ biến, bao gồm GPQA, MMLU-Pro và SWE-bench, phát hiện ra chín trong số mười đánh giá chính sử dụng hệ thống chấm điểm nhị phân. Hệ thống này phạt các phản hồi “Tôi không biết” trong khi tích cực thưởng các câu trả lời sai nhưng được khẳng định với sự tự tin.

“Chúng tôi lập luận rằng các mô hình ngôn ngữ ảo giác vì quá trình đào tạo và đánh giá đã thưởng đoán đoán hơn là thừa nhận sự không chắc chắn,” các nhà nghiên cứu viết.

Charlie Dai, Phó Chủ nhiệm và nhà phân tích chính tại Forrester, lưu ý rằng các doanh nghiệp đã phải vật lộn với động lực này trong việc triển khai sản xuất của họ. “Khách hàng ngày càng gặp khó khăn với các thách thức chất lượng mô hình trong sản xuất, đặc biệt trong các lĩnh vực được quản lý như tài chính và chăm sóc sức khỏe,” Dai thông báo cho Computerworld.

Trong khi nghiên cứu đề xuất “mục tiêu tự tin rõ ràng” như một giải pháp tiềm năng, nó đồng thời thừa nhận rằng các ràng buộc toán học cơ bản có nghĩa là việc loại bỏ hoàn toàn ảo giác là không thể.

Thích Ứng Với Thực Tất Yếu: Chiến Lược Doanh Nghiệp

Các chuyên gia đồng ý rằng sự chắc chắn toán học về lỗi AI đòi hỏi một sự chuyển dịch sâu sắc trong chiến lược doanh nghiệp.

Chuyển Đổi Quản Trị và Quản Lý Rủi Ro

“Quản trị phải chuyển từ phòng ngừa đến kiểm soát rủi ro,” Dai khẳng định. “Điều này ngụ ý các quy trình con người trong vòng lặp mạnh mẽ hơn, hàng rào đặc thù lĩnh vực và giám sát liên tục.” Các khung rủi ro AI hiện tại đang chứng tỏ không đủ cho thực tế của ảo giác dai dẳng. “Các khung hiện tại thường đánh giá thấp sự không chắc chắn kiến thức, vì vậy cần cập nhật để giải quyết tính không thể đoán trước hệ thống,” Dai bổ sung.

Shah vận động cho các cuộc cải cách đánh giá trên toàn ngành, so sánh với tiêu chuẩn an toàn ô tô. “Giống như các thành phần ô tô được xếp hạng theo tiêu chuẩn ASIL để đảm bảo an toàn, các mô hình AI nên được chỉ định các xếp hạng động, trên toàn quốc và quốc tế, dựa trên độ tin cậy và hồ sơ rủi ro của chúng,” ông đề xuất.

Cải Chọn Nhà Cung Cấp và Đánh Giá

Cả hai nhà phân tích đồng ý rằng các tiêu chí lựa chọn nhà cung cấp cần sửa đổi cơ bản. “Doanh nghiệp nên ưu tiên sự tự tin được hiệu chỉnh và tính minh bạch hơn điểm chuẩn thô,” Dai khuyên. “Các nhà lãnh đạo AI nên tìm kiếm các nhà cung cấp cung cấp ước tính sự không chắc chắn, đánh giá mạnh mẽ vượt qua các điểm chuẩn tiêu chuẩn và xác thực thực tế.”

Shah đề xuất phát triển “chỉ số tin cậy thời gian thực, một hệ thống chấm điểm động đánh giá đầu ra mô hình dựa trên sự mơ hồ của đề xuất, sự hiểu biết ngữ cảnh và chất lượng nguồn.”

Trong khi cải cách các điểm chuẩn chính thống đối mặt với những rào cản đáng kể, đòi hỏi áp lực quy định, nhu cầu doanh nghiệp và sự khác biệt cạnh tranh, thông điệp đối với doanh nghiệp là rõ ràng không thể nhầm lẫn: ảo giác AI không phải là một trở ngại kỹ thuật tạm thời, mà là một thực tế toán học vĩnh viễn. Điều này đòi hỏi các khung quản trị mới và các chiến lược quản lý rủi ro tinh vi để điều hướng tương lai AI một cách có trách nhiệm.

Content