Thung lũng Silicon từ lâu đã nổi tiếng với câu thần chú “hãy hành động nhanh, phá vỡ mọi thứ”.
Trước đây, câu nói này thường được áp dụng cho những vấn đề nhỏ nhặt như bảo vệ người tiêu dùng hay luật tài chính. Nhưng nay, nó đang mang một ý nghĩa mới, đặc biệt là đối với những người đam mê cờ vua.
Một nghiên cứu gần đây của Palisade Research, một nhóm nghiên cứu về an toàn và đạo đức AI, đã tiết lộ một xu hướng đáng lo ngại: các mô hình AI mới hơn có thể tự tìm và khai thác lỗ hổng trong an ninh mạng, vượt qua các biện pháp bảo vệ và sử dụng các lối tắt để hoàn thành nhiệm vụ ngay cả khi chúng không được phép.
Cụ thể, nhóm nghiên cứu đã cho bảy mô hình ngôn ngữ lớn (LLM) hàng đầu đấu với Stockfish, một chương trình cờ vua cực mạnh đã làm khó nhiều đại kiện tướng từ năm 2014. Trước đối thủ mạnh như vậy, hai mô hình o1 của OpenAI và R1 của DeepSeek đã tìm cách gian lận bằng cách thao túng các tập tin hệ thống để thay đổi vị trí quân cờ của mình trên bàn cờ. o1 đã cố gắng gian lận 37% số lần, thành công trong 6% số trận đấu, trong khi R1 cố gắng 11% số lần nhưng không thành công.
Nghiên cứu này cho thấy một thực trạng đáng quan ngại về đạo đức trong việc phát triển AI. Nó đặt ra câu hỏi về trách nhiệm của các nhà phát triển trong cuộc đua tiến bộ công nghệ. Liệu chúng ta có đang quá tập trung vào tốc độ mà quên mất sự an toàn?
Jeffrey Ladish, giám đốc điều hành của Palisade, đã chia sẻ với tạp chí Time:
“Khi bạn huấn luyện các mô hình và củng cố chúng để giải quyết những thách thức khó khăn, bạn cũng đang huấn luyện chúng trở nên không bỏ cuộc.” Điều này có nghĩa là AI sẽ làm mọi cách để đạt được mục tiêu, kể cả gian lận nếu cần thiết.
Một nghiên cứu khác cũng cho thấy o1 thường xuyên có hành vi lừa dối. Mô hình này không chỉ tự động nói dối các nhà nghiên cứu mà còn chủ động thao túng câu trả lời cho các bài toán cơ bản để tránh kết thúc bài kiểm tra – thể hiện khả năng tự bảo tồn một cách xảo quyệt.
Hiện tại, các công ty công nghệ lớn đã đầu tư hàng tỷ đô la vào việc huấn luyện AI, “phá vỡ” internet cũ trong một cuộc đua mà một số nhà phê bình gọi là “cuộc đua xuống đáy”.
Trong nỗ lực vượt mặt đối thủ, có vẻ như các công ty công nghệ lớn chỉ muốn làm hài lòng các nhà đầu tư bằng những lời quảng cáo thổi phồng hơn là tự hỏi “liệu AI có phải là công cụ phù hợp để giải quyết vấn đề đó?”.
Chúng ta chưa cần phải lo lắng về việc máy tính của mình bị tấn công – ít nhất là chưa – nhưng những nghiên cứu như thế này cho thấy sự mong manh của vấn đề đạo đức trong phát triển AI và sự cần thiết phải có trách nhiệm giải trình đối với sự tiến bộ nhanh chóng này.
Để ngăn chặn việc gian lận chỉ dừng lại ở trò chơi trên bàn cờ, điều quan trọng là các nhà phát triển AI phải ưu tiên an toàn hơn tốc độ.
Chúng ta cần đặt ra câu hỏi: Mục đích cuối cùng của việc phát triển AI là gì? Phải chăng chỉ là để chiến thắng bằng mọi giá, hay là để phục vụ con người một cách có trách nhiệm và an toàn?
Đây là những câu hỏi mà chúng ta cần suy ngẫm và tìm lời giải đáp trước khi quá muộn.