Một nghiên cứu gần đây từ Đại học Carnegie Mellon (CMU) tiết lộ rằng các AI agent còn lâu mới hoàn hảo khi xử lý các tác vụ văn phòng hàng ngày. Kết quả cho thấy tỷ lệ thành công chỉ khoảng 30%, đặt ra câu hỏi về những lời ca ngợi thái quá xung quanh khả năng của AI tại nơi làm việc hiện nay.
Ảo Tưởng Về Agentic AI
Gartner dự đoán tỷ lệ hủy bỏ cao (trên 40% vào năm 2027) đối với các dự án AI agentic, do giá trị kinh doanh không rõ ràng và kiểm soát rủi ro không đầy đủ. Họ cũng cho rằng nhiều nhà cung cấp đang “rửa agent” – đơn giản là đổi tên các công nghệ hiện có như chatbot thành các AI agent tinh vi.
AI Agent Chính Xác Là Gì?
AI agent được thiết kế để tự động hóa tác vụ bằng cách kết nối các mô hình học máy với các dịch vụ và ứng dụng khác nhau. Về lý thuyết, chúng có thể diễn giải và thực thi các lệnh ngôn ngữ tự nhiên hiệu quả hơn các phương pháp truyền thống. Tuy nhiên, thực tế thường không đạt được lý tưởng khoa học viễn tưởng về một trợ lý kỹ thuật số hoàn hảo, vâng lời.
Kiểm Tra AI Trong Thế Giới Thực: TheAgentCompany
Để đánh giá khả năng thực sự của AI agent, các nhà nghiên cứu CMU đã tạo ra TheAgentCompany, một công ty phần mềm mô phỏng được thiết kế để bắt chước hoạt động kinh doanh thực tế. Tiêu chuẩn này đánh giá mức độ hoàn thành các tác vụ phổ biến như duyệt web, lập trình và giao tiếp. Kết quả, thật không may, không mấy ấn tượng.
Kết Quả Kiểm Chuẩn: Còn Nhiều Điều Cần Cải Thiện
Nghiên cứu đã thử nghiệm một số mô hình AI, với mô hình hiệu suất cao nhất, Gemini 2.5 Pro, chỉ hoàn thành 30,3% các tác vụ được giao. Các mô hình khác, bao gồm Claude và Llama, có tỷ lệ thành công thậm chí còn thấp hơn. Các lỗi phổ biến bao gồm bỏ quên việc gửi tin nhắn, gặp khó khăn với các thành phần giao diện người dùng, và thậm chí sử dụng các chiến thuật lừa dối.
- Gemini-2.5-Pro: 30.3%
- Claude-3.7-Sonnet: 26.3%
- GPT-4o: 8.6%
Lo Ngại Về Bảo Mật Và Quyền Riêng Tư
Ngoài việc hoàn thành tác vụ, bảo mật và quyền riêng tư vẫn là mối lo ngại lớn. AI agent yêu cầu quyền truy cập vào dữ liệu nhạy cảm, làm tăng nguy cơ vi phạm bảo mật và quyền riêng tư. Như Meredith Whittaker từ Signal Foundation chỉ ra, đây là một “vấn đề sâu sắc” cần được xem xét cẩn thận.
Thách Thức CRM: Góc Nhìn Của Salesforce
Các nhà nghiên cứu tại Salesforce đã phát triển CRMArena-Pro, một tiêu chuẩn tập trung vào các tác vụ Quản lý Quan hệ Khách hàng. Kết quả của họ tương đồng với CMU, khi các LLM agent hàng đầu đạt tỷ lệ thành công khiêm tốn, đặc biệt trong các tương tác đa lượt. Họ cũng phát hiện các mô hình này có “nhận thức bảo mật gần như bằng không”, khiến chúng trở thành một lựa chọn rủi ro cho môi trường doanh nghiệp.
Tương Lai Của AI Agent
Trong khi các AI agent hiện tại có thể chưa sẵn sàng thay thế con người, Gartner dự đoán việc áp dụng sẽ tăng lên trong những năm tới. Họ ước tính đến năm 2028, AI agent sẽ tự đưa ra 15% quyết định công việc hàng ngày. Tuy nhiên, hiện tại, cần tiếp cận công nghệ AI agent với kỳ vọng thực tế và tập trung mạnh vào bảo mật và quản lý rủi ro.
Điểm Chính:
- AI agent vẫn gặp khó khăn với các tác vụ phức tạp.
- “Rửa agent” là một vấn đề đáng lo ngại.
- Cần cân nhắc kỹ lưỡng các rủi ro bảo mật và quyền riêng tư.