Mô hình nhỏ cũng có thể phát hiện lỗ hổng an ninh mạng được Claude Mythos phát hiện? AISLE: Hào lũy ở trong hệ thống, không nằm trong mô hình

動區BlockTempo

2026-04-12 20:05:15

Công ty khởi nghiệp an ninh mạng AISLE đã tái hiện một phần buổi trình diễn cốt lõi của hệ thống an ninh mạng hàng đầu Mythos của Anthropic, với một mô hình nhỏ tham số 3.6B chỉ tốn 0.11 đô la cho mỗi một triệu token. Giới hạn năng lực an ninh mạng của AI còn “không đồng đều” hơn cả những gì bạn nghĩ.
(Tóm tắt trước đó: Khi Anthropic công bố Mythos, đó có phải là thời điểm nổ bom hạt nhân của DeFi không?)
(Bổ sung bối cảnh: Mythos của Anthropic quá mạnh khiến phải triệu tập họp khẩn: Bessent, Powell triệu tập Citigroup, Goldman Sachs, Bank of America, Morgan Stanley và JPMorgan; năm ngân hàng tập trung vào rủi ro tài chính)

Mục lục

Toggle

Mythos đã thể hiện những gì, và mô hình nhỏ lại tái hiện được những gì?
Vì sao mô hình lớn hơn không đồng nghĩa với hệ thống an toàn hơn
Lợi thế phòng tuyến nằm ở đâu, và không nằm ở đâu

Tuần này, Anthropic phát hành mô hình Claude Mythos Preview chưa được công bố và đồng thời khởi động dự án Project Glasswing (Cánh kính), được tạo bởi 12 công ty công nghệ như Amazon, Apple, Microsoft, CrowdStrike, Cisco…, sử dụng mô hình này để nghiên cứu an ninh mạng mang tính phòng thủ.

Bởi vì Mythos được cho là tự tìm ra hàng nghìn lỗ hổng zero-day trong từng hệ điều hành và trình duyệt chính (zero-day vulnerability: là các khiếm khuyết bảo mật chưa được công bố bản vá, mà ngay cả nhà cung cấp cũng có thể chưa biết), điều đó gợi ý rằng một kỷ nguyên mới do AI dẫn dắt trong phòng thủ an ninh mạng sắp bắt đầu.

Tuy nhiên, chưa đầy một tuần, công ty khởi nghiệp an ninh mạng AISLE do Stanislav Fort, một nhà nghiên cứu trước đây của DeepMind và Anthropic, đồng sáng lập cùng với các nhà nghiên cứu của Anthropic đã đăng một báo cáo mang tính hệ thống trên blog kỹ thuật của công ty.

Kết luận cốt lõi thẳng thừng: trong nhiệm vụ trình diễn “đỉnh” của Mythos, một mô hình mã nguồn mở có tham số active chỉ 3.6B, chi phí 0.11 đô la cho mỗi một triệu token, đạt được cùng kết quả phát hiện lỗ hổng.

Mythos đã thể hiện những gì, và mô hình nhỏ lại tái hiện được những gì?

AISLE thiết kế ba nhóm thử nghiệm, lần lượt tương ứng với các tác vụ an ninh mạng có mức độ khó và tính chất khác nhau.

Nhóm thứ nhất là thử nghiệm dương tính giả của OWASP (Open Web Application Security Project).

Nói ngắn gọn: một đoạn mã truy vấn Java SQL trông giống như SQL Injection (tấn công chèn mã SQL), nhưng thực tế là an toàn về mặt logic. Đáp án đúng là không phải lỗ hổng.

Kết quả thử nghiệm thể hiện hiệu ứng scaling (thu hẹp/mở rộng quy mô) gần như ngược: mô hình mã nguồn mở GPT-OSS-20b nhỏ (3.6B active tham số, $0.11/M tokens) bám đúng logic của chương trình, kết luận không gây hại.

Ngược lại, Claude Sonnet 4.5, toàn bộ dòng GPT-4.1/5.4 (trừ o3 và pro), toàn bộ dòng của Anthropic đến Opus 4.5, đều tự tin đánh nhầm là lỗ hổng mức độ nguy hiểm cao. Chỉ có một số rất ít mô hình top — o3, OpenAI-pro, Sonnet 4.6, Opus 4.6 — trả lời đúng.

Nhóm thứ hai là lỗ hổng FreeBSD NFS, tức CVE-2026-4747 được trình diễn đặc biệt trong bản phát hành “đỉnh” của Mythos: một lỗ hổng thực thi mã từ xa không được ủy quyền, có lịch sử 17 năm.

Kết quả: cả 8/8 mô hình được thử nghiệm đều phát hiện thành công, bao gồm cả mô hình nhỏ 3.6B active tham số đó. Tất cả các mô hình đều nhận diện đúng stack buffer overflow (tràn bộ đệm vùng stack), tính toán dung lượng còn lại, và đánh giá nó là Critical RCE.

Kết luận của AISLE là: năng lực phát hiện dạng này đã được “thương mại hóa”.

Nhóm thứ ba là lỗ hổng OpenBSD SACK (lịch sử 27 năm), đòi hỏi suy luận toán học thật sự: theo dõi chuỗi logic nhiều bước của hiện tượng tràn số nguyên có dấu (signed integer overflow).

Độ khó tăng rõ rệt, khiến hiệu suất mô hình phân hóa. GPT-OSS-120b (5.1B active tham số) tái hiện đầy đủ chuỗi khai thác lỗ hổng; AISLE chấm A+; phiên bản mã nguồn mở Kimi K2 đạt A-; trong khi Qwen3 32B lại đưa ra kết luận sai kiểu “mã nguồn rất vững chắc”, được chấm F.

Ngay cả trong nhiệm vụ khó hơn này, một mô hình mã nguồn mở có chi phí cực thấp vẫn đạt được cùng mức trình diễn như hệ thống hàng đầu.

Vì sao mô hình lớn hơn không đồng nghĩa với hệ thống an toàn hơn

Luận điểm thực sự của báo cáo này không phải “mô hình nhỏ là đủ”, mà là năng lực an ninh mạng do AI cung cấp có cấu trúc phức tạp hơn rất nhiều so với những gì giới bên ngoài tưởng tượng.

AISLE tách đường ống AI về an ninh mạng thành năm nhiệm vụ con độc lập:

Quét phổ rộng (broad scanning)
Phát hiện lỗ hổng (vulnerability detection)
Xác thực theo phân luồng (triage and validation)
Tạo bản vá (patch generation)
Xây dựng khai thác lỗ hổng (exploit construction)

Mỗi nhiệm vụ con có tính chất scaling khác nhau, và cũng cần năng lực mô hình khác nhau. Thông cáo của Mythos tích hợp năm cấp độ này thành một hệ thống hoàn chỉnh, nhưng thực tế nhu cầu của mô hình cho từng phần chênh lệch cực lớn: một số nhiệm vụ con ở 3.6B tham số đã bão hòa hoàn toàn, trong khi một số nhiệm vụ khác lại cần năng lực suy luận phức tạp.

Điều này tương ứng với khái niệm “Jagged Frontier” (ranh giới lởm chởm/không đều) mà các nhà nghiên cứu như Dell’Acqua và Mollick thuộc Trường Kinh doanh Harvard đưa ra năm 2023: ranh giới năng lực của AI không phải là một đường cong trơn tru, mà là dạng răng cưa lồi lõm; có những nhiệm vụ vượt xa con người, nhưng ở các nhiệm vụ liền kề lại bất ngờ yếu.

Nghiên cứu đó cho thấy: nếu người dùng triển khai AI trong phạm vi biên giới năng lực, năng suất tăng khoảng 40%; nếu bỗng nhiên mở rộng ra ngoài biên giới, hiệu suất lại giảm 19%.

Trong khuôn khổ này, AISLE đưa ra một suy luận mang tính thực dụng hơn: “Một nghìn nhà thám tử đủ dùng đi tìm khắp nơi, thay vì một nhà thám tử thiên tài đoán ở đâu để tìm, thì có thể phát hiện được nhiều lỗ hổng hơn.”

Việc triển khai hàng loạt các mô hình chi phí thấp để quét phổ rộng có thể mang lại hiệu quả tổng thể tốt hơn so với lập lịch thận trọng một mô hình chi phí cao. AISLE cho biết từ giữa năm 2025, họ đã thực hiện hệ thống phát hiện lỗ hổng trên các mục tiêu thực: tìm được 15 CVE trong OpenSSL (trong đó một lần phát hành phiên bản an toàn gồm 12 cái, CVSS 9.8 Critical), 5 CVE trong curl, và tổng cộng hơn 180 CVE đã được xác thực từ bên ngoài trên hơn 30 dự án, trải rộng trên nhiều tổ chức.

Lợi thế phòng tuyến nằm ở đâu, và không nằm ở đâu

Phân tích này đối với Anthropic vừa không phải là phê bình toàn diện, cũng không phải lời chứng thực đơn thuần.

AISLE nói rõ rằng ý nghĩa của Mythos là chứng minh “danh mục AI về an ninh mạng” là có thật: nó không chỉ là khái niệm trong phòng thí nghiệm trình diễn, mà là một hệ thống có thể vận hành trên các mục tiêu thực. Thứ Anthropic đang làm là tối đa hóa “mật độ trí tuệ trên mỗi token”, và điều này vẫn có giá trị khó thay thế ngay cả trong các nhiệm vụ cần suy luận sâu.

Nhưng AISLE đồng thời chỉ ra một vấn đề mang tính căn bản hơn cho toàn ngành: lợi thế phòng tuyến nằm ở hệ thống, không nằm ở chính mô hình.

Trong lĩnh vực an ninh mạng, AISLE cho rằng thiết kế kiến trúc nhúng kiến thức chuyên môn sâu, ví dụ: cách phân rã nhiệm vụ, cách lên lịch các mô hình có chi phí khác nhau giữa các nhiệm vụ con, và cách duy trì niềm tin của người quản trị/duy trì trong môi trường sản xuất—mới là nguồn khác biệt hóa thực sự.

Một hệ thống có thể tìm ra các lỗ hổng có CVSS 9.8 trong OpenSSL, so với một hệ thống chỉ phát hiện các lỗ hổng mẫu đã biết trong một buổi trình diễn được kiểm soát, cần không chỉ mô hình mạnh hơn, mà cần logic kỹ thuật hoàn toàn khác.

Tóm lại, báo cáo của AISLE phát hiện rằng các mô hình rẻ hơn, mã nguồn mở hơn đã có thể tái hiện một phần các buổi trình diễn cốt lõi của họ. Vấn đề thực sự có lẽ không phải ai có mô hình mạnh nhất, mà là ai là người đầu tiên chạy thông suốt kiến trúc của năm nhiệm vụ con đó trong môi trường sản xuất.

Xem nguồn

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Claude Mythos có đe dọa an ninh tài chính? Bộ trưởng Tài chính Mỹ và Chủ tịch Cục Dự trữ Liên bang triệu tập họp khẩn để cảnh báo rủi ro

Tin tức ngành AI

Bộ trưởng Tài chính Hoa Kỳ và Chủ tịch Cục Dự trữ Liên bang triệu tập các lãnh đạo cấp cao của Phố Wall, cảnh báo rằng mô hình AI Mythos có thể gây ra rủi ro hệ thống đối với hệ thống tài chính. Mythos có thể tự động phát hiện hàng loạt lỗ hổng, Anthropic chọn hạn chế việc công bố rộng rãi, và khởi động “Chương trình Glass Wing” để tăng cường an ninh mạng.

CryptoCity2giờ trước

Anthropic thuê công ty vận động hành lang Ballard Partners, trước đó đã đổ vỡ trong các cuộc đàm phán với Lầu Năm Góc do các hạn chế sử dụng AI

Tin tức ngành AI

Anthropic vào ngày 14 tháng 4 đã công bố hợp tác với công ty vận động hành lang Ballard Partners, với mục tiêu cải thiện mối quan hệ với Lầu Năm Góc. Trước đó, họ đã không thể đạt được thỏa thuận do bất đồng về phạm vi sử dụng AI; Lầu Năm Góc muốn được sử dụng các công cụ của mình mà không bị ràng buộc, trong khi Anthropic lại yêu cầu giới hạn việc sử dụng chúng cho vũ khí và giám sát hoàn toàn tự chủ. Động thái này đánh dấu mức tăng đáng kể trong đầu tư cho hoạt động truyền thông chính sách trong ngành AI.

GateNews2giờ trước

Rò rỉ bản ghi nhớ nội bộ của OpenAI: nhắm thẳng vào câu chuyện mang tính sợ hãi của Anthropic và “thua kém về năng lực tính toán, doanh thu bị thổi phồng”

Tin tức ngành AI

Cuộc cạnh tranh về trí tuệ nhân tạo đang gia tăng, trong một ghi nhớ nội bộ, OpenAI nhấn mạnh rằng cần phải củng cố thị trường doanh nghiệp, nâng cao mức độ gắn bó của người dùng, đồng thời chỉ trích những sai lầm trong chiến lược và số liệu tài chính bị thổi phồng của đối thủ Anthropic, cho rằng họ có bất lợi về năng lực tính toán và chiến lược sản phẩm. OpenAI dự định phát triển thành một nền tảng tích hợp nhiều sản phẩm, tận dụng lợi thế về năng lực tính toán để giành vị trí dẫn đầu thị trường.

ChainNewsAbmedia3giờ trước

AI Y tế bùng nổ phân biệt đối xử! Bệnh nhân thu nhập cao được kiểm tra chính xác, người gốc Phi và người vô gia cư được khuyến nghị điều trị xâm lấn

Tin tức ngành AI

Nghiên cứu mới nhất cho thấy rằng AI y tế đưa ra các khuyến nghị y tế khác nhau dựa trên thu nhập của bệnh nhân, chủng tộc và các bối cảnh khác, dẫn đến việc những người có thu nhập cao được khuyến nghị các hạng mục kiểm tra cấp cao, trong khi các nhóm yếu thế dễ bị áp dụng các can thiệp y tế không phù hợp, từ đó có thể làm gia tăng định kiến và rủi ro chẩn đoán sai trên lâm sàng. Các chuyên gia kêu gọi xây dựng cơ chế giám sát để đảm bảo công bằng trong y tế.

ChainNewsAbmedia4giờ trước

Các nhà đầu tư của OpenAI đặt câu hỏi về định giá 8520 tỷ USD, cho rằng việc chuyển hướng chiến lược hoặc có thể phải đối mặt với các mối đe dọa cạnh tranh

Tin tức ngành AI

Tin tức Cổng (Gate News), vào ngày 14 tháng 4, tờ Financial Times đưa tin rằng các nhà đầu tư của OpenAI đang đặt câu hỏi về định giá 8520 tỷ đô la Mỹ của công ty, cho rằng chiến lược của công ty đang có sự thay đổi. Một số nhà đầu tư cho biết những thay đổi chiến lược này có thể khiến OpenAI dễ bị tổn thương hơn trước các mối đe dọa từ các đối thủ như Anthropic và Google.

GateNews4giờ trước

Ông chủ không cần vào công ty nữa! Meta đang xây dựng bản sao số của Zuckerberg, có việc thì hỏi AI trực tiếp

Tin tức ngành AI

Meta đang phát triển một bản sao AI dựa trên điều hành viên Mark Zuckerberg để tăng cường kết nối giữa nhân viên và ban quản lý. Bản sao kỹ thuật số này sẽ sử dụng hình ảnh, giọng nói và khả năng tư duy chiến lược của Zuckerberg, với mục tiêu giúp khoảng 80.000 nhân viên có thể tương tác với nó. Dự án này khác với “CEO agent”, vốn là một công cụ hỗ trợ ra quyết định. Mục tiêu dài hạn của Meta là phát triển “AI siêu thông minh” và thử áp dụng công nghệ này cho các người ảnh hưởng và nhà sáng tạo trên toàn cầu.

ChainNewsAbmedia5giờ trước

Bình luận

0/400

Không có bình luận