Sự bùng nổ của các AI Agent (tác nhân AI) mang đến tiềm năng lớn về tự động hóa, nhưng cũng mở ra những lỗ hổng bảo mật chưa từng có. Mới đây, Google DeepMind đã đưa ra cảnh báo khẩn cấp về khái niệm AI Agent Traps. Đây không phải là những cuộc tấn công trực tiếp vào mô hình ngôn ngữ lớn (LLM), mà là những cái bẫy tinh vi được gài cắm trong môi trường hoạt động, biến chính năng lực của Agent thành vũ khí tự hủy.
Kẻ xấu không cần phá vỡ cấu trúc của mô hình AI để chiếm quyền kiểm soát. Thay vào đó, chúng lợi dụng khả năng đọc hiểu và tương tác với dữ liệu của Agent để thực hiện các hành vi trục lợi. Dưới đây là những loại bẫy chính mà các nhà phát triển cần đặc biệt lưu ý:
Direct prompt injection: các chỉ dẫn độc hại nằm trong bất kỳ văn bản nào mà agent đọc được, giúp ghi đè mục tiêu ban đầu, lấy cắp dữ liệu hoặc kích hoạt các hành động không mong muốn.
Indirect injection via web content: sử dụng HTML ẩn, mẹo hiển thị CSS hoặc chữ trắng trên nền trắng khiến người dùng không thấy nhưng agent vẫn đọc và bị thao túng.
Multimodal injection: chèn lệnh vào pixel ảnh thông qua kỹ thuật giấu tin (steganography), hoặc cài cắm chỉ dẫn trong alt-text và siêu dữ liệu của hình ảnh.
Document injection: lợi dụng nội dung trong file PDF, ô tính spreadsheet hay ghi chú của thuyết trình để biến mọi định dạng tệp thành một vectơ tấn công tiềm năng.
Environment manipulation: tạo ra các yếu tố giao diện giả chỉ dành cho mô hình thị giác của AI hoặc các thử thách kiểu CAPTCHA gây hiểu lầm.
Jailbreak embedding: giấu các hướng dẫn vượt qua rào cản an toàn bên trong những nội dung có vẻ ngoài hoàn toàn hợp lệ.
Goal hijacking: làm chệch hướng mục tiêu của agent một cách từ từ qua nhiều lần tương tác mà không kích hoạt các bộ lọc an toàn.
Exfiltration attacks: lừa agent gửi dữ liệu người dùng đến các điểm cuối do kẻ tấn công kiểm soát thông qua các lệnh gọi API trông có vẻ hợp pháp.
Cross-agent injection: các agent đã bị xâm nhập sẽ tiếp tục chèn chỉ dẫn độc hại vào các agent khác trong cùng một quy trình làm việc đa tác nhân.
Nghiên cứu trên 502 người tại 8 quốc gia cho thấy các hệ thống bảo mật hiện tại gần như bất lực trước các loại bẫy này. Những phương pháp truyền thống không còn đủ sức bảo vệ AI trước các thủ đoạn tinh vi.
Nguy hiểm nhất trong số các loại bẫy chính là Memory poisoning (Nhiễm độc bộ nhớ). Kẻ tấn công đưa thông tin sai lệch vào hệ thống bộ nhớ của agent, khiến lỗi này tồn tại dai dẳng qua nhiều phiên làm việc khác nhau. Điều này dẫn đến việc rò rỉ dữ liệu cá nhân ra bên ngoài một cách âm thầm mà người dùng không hề hay biết.
Đây không còn là lý thuyết mà là thực tế đang diễn ra trên quy mô lớn. Các giải pháp như lọc dữ liệu đầu vào hay giám sát thủ công đều thất bại vì tốc độ và độ phức tạp của các cuộc tấn công đa phương thức vượt quá khả năng kiểm soát của con người.
Nếu bạn đang xây dựng các hệ thống AI tự vận hành (agentic systems), hãy rà soát lại ngay lập tức trước khi dự án bị dắt mũi bởi những dòng code ẩn. Việc hiểu rõ về AI Agent Traps là bước đầu tiên để xây dựng một hệ thống AI an toàn và bền vững trong kỷ nguyên tự động hóa. Đừng để năng lực của Agent trở thành điểm yếu chí mạng của doanh nghiệp.