Công ty khởi nghiệp an ninh mạng AISLE đã tái hiện một phần buổi trình diễn cốt lõi của hệ thống an ninh mạng hàng đầu Mythos của Anthropic, với một mô hình nhỏ tham số 3.6B chỉ tốn 0.11 đô la cho mỗi một triệu token. Giới hạn năng lực an ninh mạng của AI còn “không đồng đều” hơn cả những gì bạn nghĩ.
(Tóm tắt trước đó: Khi Anthropic công bố Mythos, đó có phải là thời điểm nổ bom hạt nhân của DeFi không?)
(Bổ sung bối cảnh: Mythos của Anthropic quá mạnh khiến phải triệu tập họp khẩn: Bessent, Powell triệu tập Citigroup, Goldman Sachs, Bank of America, Morgan Stanley và JPMorgan; năm ngân hàng tập trung vào rủi ro tài chính)
Mục lục
Toggle
Tuần này, Anthropic phát hành mô hình Claude Mythos Preview chưa được công bố và đồng thời khởi động dự án Project Glasswing (Cánh kính), được tạo bởi 12 công ty công nghệ như Amazon, Apple, Microsoft, CrowdStrike, Cisco…, sử dụng mô hình này để nghiên cứu an ninh mạng mang tính phòng thủ.
Bởi vì Mythos được cho là tự tìm ra hàng nghìn lỗ hổng zero-day trong từng hệ điều hành và trình duyệt chính (zero-day vulnerability: là các khiếm khuyết bảo mật chưa được công bố bản vá, mà ngay cả nhà cung cấp cũng có thể chưa biết), điều đó gợi ý rằng một kỷ nguyên mới do AI dẫn dắt trong phòng thủ an ninh mạng sắp bắt đầu.
Tuy nhiên, chưa đầy một tuần, công ty khởi nghiệp an ninh mạng AISLE do Stanislav Fort, một nhà nghiên cứu trước đây của DeepMind và Anthropic, đồng sáng lập cùng với các nhà nghiên cứu của Anthropic đã đăng một báo cáo mang tính hệ thống trên blog kỹ thuật của công ty.
Kết luận cốt lõi thẳng thừng: trong nhiệm vụ trình diễn “đỉnh” của Mythos, một mô hình mã nguồn mở có tham số active chỉ 3.6B, chi phí 0.11 đô la cho mỗi một triệu token, đạt được cùng kết quả phát hiện lỗ hổng.
AISLE thiết kế ba nhóm thử nghiệm, lần lượt tương ứng với các tác vụ an ninh mạng có mức độ khó và tính chất khác nhau.
Nhóm thứ nhất là thử nghiệm dương tính giả của OWASP (Open Web Application Security Project).
Nói ngắn gọn: một đoạn mã truy vấn Java SQL trông giống như SQL Injection (tấn công chèn mã SQL), nhưng thực tế là an toàn về mặt logic. Đáp án đúng là không phải lỗ hổng.
Kết quả thử nghiệm thể hiện hiệu ứng scaling (thu hẹp/mở rộng quy mô) gần như ngược: mô hình mã nguồn mở GPT-OSS-20b nhỏ (3.6B active tham số, $0.11/M tokens) bám đúng logic của chương trình, kết luận không gây hại.
Ngược lại, Claude Sonnet 4.5, toàn bộ dòng GPT-4.1/5.4 (trừ o3 và pro), toàn bộ dòng của Anthropic đến Opus 4.5, đều tự tin đánh nhầm là lỗ hổng mức độ nguy hiểm cao. Chỉ có một số rất ít mô hình top — o3, OpenAI-pro, Sonnet 4.6, Opus 4.6 — trả lời đúng.
Nhóm thứ hai là lỗ hổng FreeBSD NFS, tức CVE-2026-4747 được trình diễn đặc biệt trong bản phát hành “đỉnh” của Mythos: một lỗ hổng thực thi mã từ xa không được ủy quyền, có lịch sử 17 năm.
Kết quả: cả 8/8 mô hình được thử nghiệm đều phát hiện thành công, bao gồm cả mô hình nhỏ 3.6B active tham số đó. Tất cả các mô hình đều nhận diện đúng stack buffer overflow (tràn bộ đệm vùng stack), tính toán dung lượng còn lại, và đánh giá nó là Critical RCE.
Kết luận của AISLE là: năng lực phát hiện dạng này đã được “thương mại hóa”.
Nhóm thứ ba là lỗ hổng OpenBSD SACK (lịch sử 27 năm), đòi hỏi suy luận toán học thật sự: theo dõi chuỗi logic nhiều bước của hiện tượng tràn số nguyên có dấu (signed integer overflow).
Độ khó tăng rõ rệt, khiến hiệu suất mô hình phân hóa. GPT-OSS-120b (5.1B active tham số) tái hiện đầy đủ chuỗi khai thác lỗ hổng; AISLE chấm A+; phiên bản mã nguồn mở Kimi K2 đạt A-; trong khi Qwen3 32B lại đưa ra kết luận sai kiểu “mã nguồn rất vững chắc”, được chấm F.
Ngay cả trong nhiệm vụ khó hơn này, một mô hình mã nguồn mở có chi phí cực thấp vẫn đạt được cùng mức trình diễn như hệ thống hàng đầu.
Luận điểm thực sự của báo cáo này không phải “mô hình nhỏ là đủ”, mà là năng lực an ninh mạng do AI cung cấp có cấu trúc phức tạp hơn rất nhiều so với những gì giới bên ngoài tưởng tượng.
AISLE tách đường ống AI về an ninh mạng thành năm nhiệm vụ con độc lập:
Mỗi nhiệm vụ con có tính chất scaling khác nhau, và cũng cần năng lực mô hình khác nhau. Thông cáo của Mythos tích hợp năm cấp độ này thành một hệ thống hoàn chỉnh, nhưng thực tế nhu cầu của mô hình cho từng phần chênh lệch cực lớn: một số nhiệm vụ con ở 3.6B tham số đã bão hòa hoàn toàn, trong khi một số nhiệm vụ khác lại cần năng lực suy luận phức tạp.
Điều này tương ứng với khái niệm “Jagged Frontier” (ranh giới lởm chởm/không đều) mà các nhà nghiên cứu như Dell’Acqua và Mollick thuộc Trường Kinh doanh Harvard đưa ra năm 2023: ranh giới năng lực của AI không phải là một đường cong trơn tru, mà là dạng răng cưa lồi lõm; có những nhiệm vụ vượt xa con người, nhưng ở các nhiệm vụ liền kề lại bất ngờ yếu.
Nghiên cứu đó cho thấy: nếu người dùng triển khai AI trong phạm vi biên giới năng lực, năng suất tăng khoảng 40%; nếu bỗng nhiên mở rộng ra ngoài biên giới, hiệu suất lại giảm 19%.
Trong khuôn khổ này, AISLE đưa ra một suy luận mang tính thực dụng hơn: “Một nghìn nhà thám tử đủ dùng đi tìm khắp nơi, thay vì một nhà thám tử thiên tài đoán ở đâu để tìm, thì có thể phát hiện được nhiều lỗ hổng hơn.”
Việc triển khai hàng loạt các mô hình chi phí thấp để quét phổ rộng có thể mang lại hiệu quả tổng thể tốt hơn so với lập lịch thận trọng một mô hình chi phí cao. AISLE cho biết từ giữa năm 2025, họ đã thực hiện hệ thống phát hiện lỗ hổng trên các mục tiêu thực: tìm được 15 CVE trong OpenSSL (trong đó một lần phát hành phiên bản an toàn gồm 12 cái, CVSS 9.8 Critical), 5 CVE trong curl, và tổng cộng hơn 180 CVE đã được xác thực từ bên ngoài trên hơn 30 dự án, trải rộng trên nhiều tổ chức.
Phân tích này đối với Anthropic vừa không phải là phê bình toàn diện, cũng không phải lời chứng thực đơn thuần.
AISLE nói rõ rằng ý nghĩa của Mythos là chứng minh “danh mục AI về an ninh mạng” là có thật: nó không chỉ là khái niệm trong phòng thí nghiệm trình diễn, mà là một hệ thống có thể vận hành trên các mục tiêu thực. Thứ Anthropic đang làm là tối đa hóa “mật độ trí tuệ trên mỗi token”, và điều này vẫn có giá trị khó thay thế ngay cả trong các nhiệm vụ cần suy luận sâu.
Nhưng AISLE đồng thời chỉ ra một vấn đề mang tính căn bản hơn cho toàn ngành: lợi thế phòng tuyến nằm ở hệ thống, không nằm ở chính mô hình.
Trong lĩnh vực an ninh mạng, AISLE cho rằng thiết kế kiến trúc nhúng kiến thức chuyên môn sâu, ví dụ: cách phân rã nhiệm vụ, cách lên lịch các mô hình có chi phí khác nhau giữa các nhiệm vụ con, và cách duy trì niềm tin của người quản trị/duy trì trong môi trường sản xuất—mới là nguồn khác biệt hóa thực sự.
Một hệ thống có thể tìm ra các lỗ hổng có CVSS 9.8 trong OpenSSL, so với một hệ thống chỉ phát hiện các lỗ hổng mẫu đã biết trong một buổi trình diễn được kiểm soát, cần không chỉ mô hình mạnh hơn, mà cần logic kỹ thuật hoàn toàn khác.
Tóm lại, báo cáo của AISLE phát hiện rằng các mô hình rẻ hơn, mã nguồn mở hơn đã có thể tái hiện một phần các buổi trình diễn cốt lõi của họ. Vấn đề thực sự có lẽ không phải ai có mô hình mạnh nhất, mà là ai là người đầu tiên chạy thông suốt kiến trúc của năm nhiệm vụ con đó trong môi trường sản xuất.
Bài viết liên quan
Claude Mythos có đe dọa an ninh tài chính? Bộ trưởng Tài chính Mỹ và Chủ tịch Cục Dự trữ Liên bang triệu tập họp khẩn để cảnh báo rủi ro
Anthropic thuê công ty vận động hành lang Ballard Partners, trước đó đã đổ vỡ trong các cuộc đàm phán với Lầu Năm Góc do các hạn chế sử dụng AI
Rò rỉ bản ghi nhớ nội bộ của OpenAI: nhắm thẳng vào câu chuyện mang tính sợ hãi của Anthropic và “thua kém về năng lực tính toán, doanh thu bị thổi phồng”
AI Y tế bùng nổ phân biệt đối xử! Bệnh nhân thu nhập cao được kiểm tra chính xác, người gốc Phi và người vô gia cư được khuyến nghị điều trị xâm lấn
Các nhà đầu tư của OpenAI đặt câu hỏi về định giá 8520 tỷ USD, cho rằng việc chuyển hướng chiến lược hoặc có thể phải đối mặt với các mối đe dọa cạnh tranh
Ông chủ không cần vào công ty nữa! Meta đang xây dựng bản sao số của Zuckerberg, có việc thì hỏi AI trực tiếp