Thứ Tư, 1 tháng 7, 2026

Agents-A1: 35B tham số, hiệu suất ngang nghìn tỷ — nhờ mở rộng… +1 mục | SynapWeave

Agents-A1: 35B tham số, hiệu suất ngang nghìn tỷ — nhờ mở rộng… +1 mục | SynapWeave
Ba bài báo hôm nay đều xoay quanh một vấn đề: phần thưởng (reward) thưa thớt trong các tác vụ agent dài hạn. Khi một agent thực hiện hàng trăm bước, chỉ đánh giá kết quả cuối cùng là không đủ. Cả ba đề xuất đều hướng tới việc xây dựng tín hiệu giám sát dày đặc hơn — nhưng mỗi bài lại đi theo một hướng khác nhau. Bài đáng chú ý nhất là Agents-A1: một mô hình 35B tham số đạt hiệu suất ngang mô hình nghìn tỷ tham số nhờ mở rộng 'chân trời tác vụ' (agent horizon).
▶ Tóm tắt nhanh
  • Agents-A1 có thể là một hướng đi đúng — mở rộng chân trời thay vì tham số — nhưng tuyên bố 'hiệu suất ngang nghìn tỷ' sẽ vô nghĩa nếu không có benchmark cụ thể. Hãy kiểm tra model card và bài đánh giá độc lập trước khi đầu tư.
  • QVal và TACO chỉ ra một hướng đi đúng: phần thưởng dày đặc là cần thiết cho agent dài hạn. Nhưng việc triển khai trong production sẽ đối mặt với trade-off giữa chi phí đánh giá và độ chính xác. Hãy thử nghiệm với mô hình rẻ trước khi đầu tư vào phương pháp phức tạp.

🧠 Agents-A1: 35B tham số, hiệu suất ngang nghìn tỷ — nhờ mở rộng chân trời, không phải tham số

Tóm tắt sự kiện

Bài báo 'Scaling the Horizon, Not the Parameters' (arXiv 2606.30616) giới thiệu Agents-A1, một mô hình agentic 35B tham số dạng Mixture-of-Experts. Tác giả tuyên bố mô hình này đạt hiệu suất ngang các mô hình nghìn tỷ tham số — không phải bằng cách tăng tham số, mà bằng cách mở rộng 'agent horizon' (chân trời tác vụ). Cụ thể, họ nghiên cứu hai hướng: (1) mở rộng quỹ đạo dài hạn (long-horizon trajectories) và (2) mở rộng khả năng không đồng nhất của agent (heterogeneous agent abilities). Bài báo chưa công bố benchmark cụ thể, chi phí suy luận, hay điều kiện phần cứng tối thiểu. Đây là bản preprint, chưa qua peer review.

Điểm cần lưu ý

Đây là một tín hiệu thú vị, nhưng cần đọc kỹ trước khi hào hứng. Tôi sẽ chỉ ra ba điểm cần kiểm tra:

  • 'Hiệu suất ngang nghìn tỷ tham số' — so với mô hình nào, trên benchmark nào? Bài báo chưa nêu rõ. 'Nghìn tỷ tham số' có thể là GPT-4 (1.7T tham số theo đồn đoán), Gemini Ultra, hay một mô hình MoE khác. Nếu không có bảng so sánh trên cùng một benchmark (MMLU, HumanEval, SWE-bench), tuyên bố này chỉ là một phép so sánh mơ hồ. Hãy chờ model card hoặc bài đánh giá độc lập.
  • 'Mở rộng chân trời tác vụ' — chi phí tính toán thực tế là bao nhiêu? Mô hình 35B tham số, dù là MoE, vẫn cần một lượng VRAM đáng kể. Nếu 'mở rộng chân trời' đồng nghĩa với việc phải chạy nhiều bước suy luận hơn (ví dụ: gọi tool, đọc kết quả, lập kế hoạch lại), thì latency và chi phí API có thể tăng vọt. Một mô hình 35B có thể chạy trên một GPU 80GB (ví dụ: H100), nhưng nếu cần giữ nguyên ngữ cảnh dài (long context) trong suốt quỹ đạo, bộ nhớ sẽ nhanh chóng cạn kiệt.
  • Kiến trúc MoE — có fine-tune được không? Mô hình MoE thường khó fine-tune hơn mô hình dense, đặc biệt là với các kỹ thuật như LoRA/QLoRA. Nếu bạn định dùng Agents-A1 làm nền tảng cho agent của riêng mình, hãy kiểm tra xem họ có công bố trọng số mở (open-weight) hay không, và license là gì. Bài báo chưa đề cập.

Cách đánh giá khi chưa có benchmark đầy đủ:

  • So sánh trên cùng một tác vụ agent (ví dụ: SWE-bench, WebArena) với các mô hình cùng cỡ (35B dense, 70B dense).
  • Đo latency p50/p99 trên một quỹ đạo dài (100+ bước) — không chỉ một lần gọi.
  • Kiểm tra chi phí suy luận: $/1M token cho input và output, cộng với chi phí gọi tool (nếu có).
  • Xem license: có cho phép sử dụng thương mại không? Có giới hạn output ownership không?
Agents-A1 có thể là một hướng đi đúng — mở rộng chân trời thay vì tham số — nhưng tuyên bố 'hiệu suất ngang nghìn tỷ' sẽ vô nghĩa nếu không có benchmark cụ thể. Hãy kiểm tra model card và bài đánh giá độc lập trước khi đầu tư.
Nếu Agents-A1 thực sự hoạt động tốt trên các tác vụ agent dài hạn, nó có thể thay đổi cách chúng ta nghĩ về scaling: không phải lúc nào cũng cần mô hình lớn hơn, mà cần mô hình biết cách 'suy nghĩ' lâu hơn.
#Agents-A1 · Scaling the Horizon · 35B MoE Agentic Model

🎯 QVal và TACO: Hai cách tiếp cận để giải quyết vấn đề phần thưởng thưa thớt cho agent dài hạn

Tóm tắt sự kiện

Hai bài báo trên arXiv cùng ngày (2606.32034 và 2606.30251) đề cập đến vấn đề phần thưởng thưa thớt (sparse reward) trong các tác vụ agent dài hạn. Bài 'QVal' đề xuất một phương pháp rẻ tiền để đánh giá tín hiệu giám sát dày đặc (dense supervision signals) cho LLM agent. Bài 'TACO' (Tool-Augmented Credit Optimization) tập trung vào việc tối ưu hóa tín dụng cho các hành động sử dụng công cụ (tool use) trong mô hình đa phương thức agentic. Cả hai đều cho rằng phần thưởng chỉ dựa trên kết quả cuối cùng (outcome-only rewards) là không đủ để hướng dẫn agent trong các quỹ đạo dài.

Điểm cần lưu ý

Đây là hai bài báo nghiên cứu, chưa phải sản phẩm. Nhưng vấn đề chúng giải quyết rất thực tế. Nếu bạn đang xây dựng một agent tự động hóa quy trình (ví dụ: kiểm thử phần mềm, phân tích dữ liệu nhiều bước), bạn sẽ gặp ngay vấn đề này: agent làm đúng 9 bước đầu, sai bước cuối, và bạn không biết bước nào sai.

QVal — 'Rẻ' đến mức nào?

  • Bài báo nói 'cheaply evaluating' (đánh giá rẻ). Nhưng 'rẻ' ở đây là so với cái gì? So với việc gọi GPT-4 để đánh giá từng bước? Hay so với việc thuê người gán nhãn? Cần xem xét chi phí tính toán của chính phương pháp QVal.
  • Nếu QVal dùng một mô hình nhỏ hơn (ví dụ: 7B) để đánh giá, thì chi phí sẽ thấp hơn, nhưng độ chính xác có đủ không? Bài báo chưa công bố số liệu so sánh.

TACO — Tối ưu hóa tín dụng cho tool use

  • Đây là vấn đề rất cụ thể: trong một tác vụ visual QA, agent có thể gọi code để phân tích ảnh. Một số lệnh gọi có ích, một số vô ích, một số gây hiểu lầm. Phần thưởng chỉ dựa trên câu trả lời cuối cùng không thể phân biệt được.
  • TACO đề xuất gán 'tín dụng' (credit) cho từng hành động gọi tool. Nếu phương pháp này hoạt động tốt, nó có thể áp dụng cho các agent dùng function calling trong production.

Cách áp dụng vào thực tế ngay hôm nay:

  • Nếu bạn đang dùng LangChain, CrewAI, hoặc bất kỳ framework agent nào, hãy bắt đầu log lại toàn bộ quỹ đạo (trajectory) của agent — không chỉ kết quả cuối cùng.
  • Dùng một mô hình rẻ (GPT-4o-mini, Claude Haiku, hoặc một mô hình open-source) để đánh giá từng bước trong quỹ đạo. Đây là cách triển khai 'dense supervision' thô sơ nhưng khả thi.
  • Nếu phát hiện agent thường xuyên mắc lỗi ở cùng một loại bước (ví dụ: sai khi parse JSON, sai khi gọi API), hãy thêm một bước kiểm tra (validation step) hoặc fine-tune prompt cho bước đó.

Hạn chế cần lưu ý:

  • Cả hai bài báo đều là preprint. Chưa có code hoặc benchmark độc lập để tái lập kết quả.
  • 'Dense supervision' có thể làm tăng đáng kể chi phí suy luận, vì bạn phải gọi mô hình đánh giá cho mỗi bước. Cần cân nhắc trade-off giữa độ chính xác và chi phí.
QVal và TACO chỉ ra một hướng đi đúng: phần thưởng dày đặc là cần thiết cho agent dài hạn. Nhưng việc triển khai trong production sẽ đối mặt với trade-off giữa chi phí đánh giá và độ chính xác. Hãy thử nghiệm với mô hình rẻ trước khi đầu tư vào phương pháp phức tạp.
Nếu QVal và TACO được công bố code và benchmark, chúng có thể trở thành công cụ tiêu chuẩn để đánh giá agent trong production — thay vì chỉ dựa vào outcome-only reward như hiện nay.
#QVal · TACO · Dense Supervision · Agentic Tool Use
Cả ba bài báo hôm nay đều chỉ ra một điểm chung: phần thưởng chỉ dựa trên kết quả cuối cùng là không đủ cho agent dài hạn. Tín hiệu tiếp theo cần theo dõi là việc công bố code và benchmark độc lập cho Agents-A1, QVal và TACO. Nếu không có code, đây chỉ là các đề xuất lý thuyết. Hãy kiểm tra lại sau 6 tháng.

Agents-A1: 35B tham số, hiệu suất ngang nghìn tỷ — nhờ mở rộng… +1 mục | SynapWeave

Ba bài báo hôm nay đều xoay quanh một vấn đề: phần thưởng (reward) thưa thớt trong các tác vụ agent dài hạn. Khi một agent thực hiện hàng tr...