Ba bài báo hôm nay đều xoay quanh một câu hỏi: làm thế nào để agent LLM sống được qua những phiên dài, thay vì chỉ trả lời một câu rồi chết. Agent libOS đề xuất một runtime giống hệ điều hành, MemTrain tự huấn luyện bộ nhớ, còn Cosmos 3 mở rộng lên multimodal. Cả ba đều đang giải quyết cùng một nút thắt — nhưng con đường nào khả thi trong production sáu tháng tới?
🧠 Ba hướng tiếp cận bộ nhớ agent: runtime, tự huấn luyện, và world model
사실 요약
Ba bài báo trên arXiv ngày 6 tháng 6 năm 2026. Agent libOS (arXiv:2606.03895) đề xuất một runtime giống library OS cho agent LLM dài hạn: duy trì trạng thái qua nhiều lần gọi model, fork subtask, chờ sự kiện ngoài, yêu cầu quyền từ người dùng, sinh công cụ, và thực hiện side effect có thể resume và audit. MemTrain (arXiv:2606.03197) giới thiệu phương pháp tự huấn luyện bộ nhớ cho agent: thay vì RL trên downstream task, nó học cách lưu trữ và truy xuất thông tin qua extended interaction. Cosmos 3 (arXiv:2606.02800) là family world model omnimodal, xử lý và sinh language, image, video, audio, action sequence trong một kiến trúc mixture-of-transformers thống nhất. Cả ba đều chưa công bố code, benchmark trên downstream task, hay thông số latency.
살펴볼 포인트
Cả ba bài báo đều giải quyết cùng một vấn đề: agent LLM hiện tại không có bộ nhớ dài hạn đáng tin cậy. Nhưng hướng đi khác nhau, và mỗi hướng có trade-off riêng khi đưa vào production.
Agent libOS chọn cách xây runtime giống hệ điều hành — nghĩa là bạn phải chạy agent trong môi trường do nó định nghĩa. Điều này giống container hóa: kiểm soát được side effect, audit trail rõ ràng, nhưng chi phí overhead không nhỏ. Trong production, mỗi lần fork subtask hay chờ sự kiện đều tốn thêm latency và tài nguyên. Nếu bạn đang chạy agent trên serverless (AWS Lambda, Cloudflare Workers), runtime kiểu này có thể không fit — vì nó cần persistent state. Cần kiểm tra: runtime có hỗ trợ checkpoint/restore không? Overhead memory trên mỗi agent instance là bao nhiêu?
MemTrain chọn con đường ngược lại: không thay đổi runtime, mà huấn luyện model tự biết cách dùng bộ nhớ. Điều này hấp dẫn vì không cần hạ tầng mới. Nhưng vấn đề là: huấn luyện self-supervised trên memory task có generalize sang workload thật không? Bài báo chưa công bố kết quả trên benchmark agent chuẩn (ví dụ: SWE-bench, AgentBench). Nếu bạn muốn thử, cần tự fine-tune model của mình — chi phí GPU và dữ liệu training không hề rẻ. Và nếu model không học được pattern memory phức tạp, bạn vẫn phải fallback về RAG hoặc vector store.
Cosmos 3 là tham vọng nhất: world model omnimodal. Nhưng càng omnimodal, càng khó chạy trong production. Mixture-of-transformers với 5 modality đồng nghĩa với inference cost cực cao, latency khó đoán. Nếu bạn chỉ cần text agent, đây là overkill. Nếu bạn cần agent xử lý video + audio + action (ví dụ: robot, game NPC), thì Cosmos 3 mới đáng xem. Nhưng chưa có số liệu latency, chưa có code — còn rất xa production.
Cách đọc ba bài báo này: đừng chọn ngay cái 'tốt nhất'. Hãy xác định workload của bạn trước. Nếu agent của bạn chạy task ngắn (< 5 phút), không cần state phức tạp — MemTrain có thể đủ. Nếu bạn cần audit trail và kiểm soát side effect (ví dụ: agent tự động deploy code), Agent libOS đáng pilot. Nếu bạn làm physical AI (robot, autonomous vehicle), Cosmos 3 mới là hướng theo dõi. Cả ba đều chưa có production-ready artifact — hãy đợi ít nhất 6 tháng để có code và benchmark thực tế.
Agent libOS phù hợp workload cần audit trail, MemTrain phù hợp task ngắn không cần hạ tầng mới, Cosmos 3 chỉ đáng theo dõi nếu bạn làm physical AI. Cả ba đều chưa production-ready — cần 6 tháng để có code và benchmark thực tế.
Điểm chung: cả ba đều tránh dùng RAG truyền thống — dấu hiệu cho thấy cộng đồng đang tìm kiếm giải pháp memory native thay vì retrieval pipeline.
#Agent libOS, MemTrain, Cosmos 3 Cả ba bài báo hôm nay đều chỉ ra một xu hướng: agent LLM đang chuyển từ stateless sang stateful. Nhưng chưa có giải pháp nào vượt qua được bài toán chi phí và độ tin cậy. Tín hiệu cần theo dõi: 6 tháng tới, nếu một trong ba dự án công bố code kèm benchmark latency và memory overhead, đó sẽ là ứng cử viên production đầu tiên. Còn bây giờ, hãy giữ RAG + vector store làm baseline.
Nhận xét
Đăng nhận xét