Bài đăng

Benchmark tĩnh không còn dự đoán được hiệu năng production — bài học… | SynapWeave

Hôm nay ba bài báo trên arXiv cùng chỉ về một điểm mù: benchmark tĩnh không còn đủ để đánh giá agent trong production. Bài đầu tiên phơi bày khoảng cách giữa leaderboard và triển khai thực tế; bài thứ hai đưa ra phương pháp kiểm toán hallucination có phân loại cho luật; bài thứ ba đề xuất agent dùng công cụ không gian thay vì suy luận thị giác tĩnh. Cả ba đều là tín hiệu cho thấy cộng đồng đang chuyển từ 'chạy benchmark nào' sang 'đo lường điều gì mới có ý nghĩa'. ▶ Tóm tắt nhanh Benchmark tĩnh không dự đoán được hiệu năng production agent. Kiểm tra bằng cách yêu cầu nhà cung cấp công bố kết quả trên ít nhất 3 điều kiện vận hành khác nhau. Tỷ lệ hallucination trung bình 52% là vô dụng cho compliance. Cần phân loại lỗi theo kiểu để đánh giá rủi ro thực tế. Spatial intelligence không nên dựa vào VLM thuần túy. Tool-use layer chuyên biệt cho không gian là hướng bền vững hơn. 📊 Benchmark tĩnh không còn dự đoán được hiệu năng production — bài học từ 14 nghiên cứu song so...