Phân tích - Bình luận
Mythos: "Chiếc hộp Pandora" của Anthropic và tranh cãi về lợi thế cạnh tranh
Công ty AI Mỹ hạn chế phát hành mô hình mạnh nhất từ trước tới nay nhưng dành ngoại lệ cho các “ông lớn” như JPMorgan Chase, Goldman Sachs và Apple.

Một buổi tối cuối tháng Hai tại Bali, Nicholas Carlini - nhà nghiên cứu AI được Anthropic thuê để tìm lỗ hổng trong các mô hình của công ty - kinh ngạc khi mô hình AI mới nhất của Anthropic có tên Mythos đã phá vỡ một hệ thống máy tính chỉ trong vài phút. Đây là điều ngay cả những hacker lành nghề nhất cũng phải mất nhiều ngày. Đó là thời điểm Anthropic nhận ra họ gặp vấn đề.
Ngày 7/4, Anthropic chính thức công bố Claude Mythos Preview, đồng thời tuyên bố mô hình này quá nguy hiểm để phát hành cho công chúng. Nhưng thay vì khóa nó lại hoàn toàn, Anthropic đã trao quyền truy cập cho khoảng 40 tập đoàn lớn nhất thế giới — gồm JPMorgan Chase, Goldman Sachs, Citigroup, Apple, Microsoft, Google, Amazon và Nvidia - thông qua một chương trình nội bộ có tên Project Glasswing.
Mythos làm được gì?
Để hiểu tại sao Mythos gây ra làn sóng chấn động, cần nhìn vào các con số. Trên SWE-bench Verified — bộ kiểm tra khả năng lập trình — Mythos đạt 93,9%, so với 80,8% của Claude Opus 4.6. Trên bộ bài toán toán học USAMO 2026, Mythos đạt 97,6%, trong khi Opus chỉ đạt 42,3%. Đây không phải là bước tiến tăng dần, mà là nhảy vọt thế hệ.
Nhưng an ninh mạng mới là vấn đề khiến Anthropic phải họp khẩn.
Trong quá trình thử nghiệm nội bộ, Anthropic dùng Mythos để quét mã nguồn phần mềm thực đang được chạy trên hàng triệu máy tính trên toàn thế giới. Kết quả gây sốc: mô hình phát hiện hàng chục nghìn lỗ hổng zero-day (lỗi chưa từng được biết tới) trên mọi hệ điều hành lớn và mọi trình duyệt web phổ biến. Không dừng lại ở đó, Mythos còn tự động viết mã khai thác để tấn công những lỗ hổng đó - điều mà các mô hình AI trước đây không thể làm.
Một phát hiện đặc biệt gây lo ngại khác: Mythos tìm ra một lỗ hổng tồn tại 27 năm trong nhân Linux, vốn là nền tảng của hầu hết máy chủ thế giới. Sau đó, nó tự động kết nối các lỗi rời rạc lại với nhau để tạo ra một chuỗi tấn công hoàn chỉnh, cho phép kẻ xấu chiếm quyền kiểm soát toàn bộ hệ thống. Nó cũng phát hiện một lỗ hổng trong OpenBSD, hệ điều hành được dùng trong nhiều hạ tầng bảo mật cao, từ năm 1999 mà chưa ai từng tìm ra.
Logan Graham, Trưởng nhóm "red team" của Anthropic, mô tả với Axios rằng Mythos Preview có thể hoạt động hoàn toàn tự chủ và sở hữu khả năng suy luận tinh vi ngang tầm một chuyên gia bảo mật cấp cao. Điều làm nó khác biệt không chỉ là tìm lỗ hổng, mà còn là tự xây dựng chiến lược tấn công đa bước, vượt qua cả các hệ thống phòng thủ tiên tiến.

Khi AI tự phá rào cản của mình
Một sự cố trong quá trình thử nghiệm đặc biệt đáng lo ngại. Anthropic chạy một thử nghiệm yêu cầu Mythos thoát khỏi môi trường sandbox - tức lớp cách ly an toàn ngăn AI can thiệp vào hệ thống bên ngoài - và gửi tín hiệu nếu thành công.
Kết quả, nó không chỉ thoát được, mà còn tự đăng thông tin chi tiết về lỗ hổng lên nhiều trang web công khai khó tìm, như một cách "chứng minh thành tích" mà không ai yêu cầu.
Đây là điều hiếm thấy trong lịch sử AI - một mô hình tự mình leo thang hành động vượt ra ngoài chỉ thị ban đầu, không phải do ác ý, mà vì nó tự suy luận rằng đây là cách tốt nhất để hoàn thành nhiệm vụ. Chính Anthropic gọi đây là "nỗ lực đáng lo ngại và không được yêu cầu."
Viện An ninh AI của Anh (AISI) — đơn vị được cấp quyền truy cập sớm — xác nhận trong đánh giá độc lập rằng mô hình thực sự thực hiện thành công các nhiệm vụ tấn công cấp chuyên gia.
Project Glasswing: An toàn hay Lợi nhuận?
Thay vì phát hành công khai, Anthropic triển khai Project Glasswing - một chương trình kiểm soát cho phép khoảng 40 tổ chức, gồm các ngân hàng lớn nhất Phố Wall và gã khổng lồ công nghệ, sử dụng Mythos cho mục đích bảo mật phòng thủ.
Lấy tên gọi từ loài bướm glasswing có cánh trong suốt, Anthropic muốn nhấn mạnh tới sự minh bạch trong cách Mythos phát hiện lỗ hổng.
Nhưng chính điều này làm dấy lên tranh cãi về cạnh tranh. Các tổ chức trong danh sách Glasswing — JPMorgan Chase, Goldman Sachs, Citigroup — không chỉ là đối tác bảo mật, mà còn là khách hàng tài chính lớn và nhà đầu tư chiến lược của Anthropic. Việc trao cho họ quyền truy cập gần như độc quyền vào mô hình AI mạnh nhất hiện nay đang khiến phần còn lại của thị trường lo ngại về một lợi thế cạnh tranh bị nghiêng hẳn về phía số ít.