Google chính thức phát hành Interactions API: Chuẩn mực mới cho kỷ nguyên AI Agent trên Gemini
Sau hơn nửa năm thử nghiệm công khai thành công kể từ tháng 12/2025, Google DeepMind vừa chính thức công bố phát hành rộng rãi (General Availability - GA) Interactions API. Đây sẽ trở thành cổng giao tiếp (interface) tiêu chuẩn và quan trọng nhất dành cho các nhà phát triển khi xây dựng ứng dụng với các mô hình và tác nhân (agent) Gemini, đánh dấu bước chuyển mình mạnh mẽ từ mô hình "hỏi - đáp" đơn thuần sang các luồng làm việc tự trị phức tạp.
Theo Ali Çevik (Trưởng nhóm Quản lý Sản phẩm) và Philipp Schmid (Kỹ sư Quan hệ Nhà phát triển tại Google DeepMind), API mới cung cấp một điểm cuối (endpoint) hợp nhất duy nhất, hỗ trợ quản lý trạng thái phía máy chủ, thực thi tác vụ ngầm, kết hợp công cụ và tạo nội dung đa phương tiện.

1. Đơn giản hóa tối đa việc phát triển AI
Interactions API cho phép các lập trình viên triển khai mô hình hoặc vận hành một AI Agent chỉ với vài dòng mã. Thay vì phải thiết lập các hệ thống rườm rà, người dùng chỉ cần gọi một ID mô hình (ví dụ: gemini-3.5-flash) cho các tác vụ suy luận nhanh, hoặc truyền vào một ID tác nhân (ví dụ: tác nhân lập trình antigravity-preview-05-2026) để gán các nhiệm vụ tự trị mang tính dài hạn.
2. Hàng loạt nâng cấp "khủng" trong phiên bản chính thức
Phiên bản GA mang đến một cấu trúc dữ liệu (schema) ổn định cùng hàng loạt tính năng mạnh mẽ được bổ sung dựa trên phản hồi từ cộng đồng lập trình viên:
-
Managed Agents (Tác nhân được quản lý): Chỉ với một lệnh gọi API, hệ thống sẽ tự động cấp phát một hộp cát (sandbox) Linux từ xa. Tại đây, AI có thể tự lập luận, viết và thực thi mã, duyệt web và quản lý tệp. Tác nhân Antigravity được tích hợp làm mặc định, đồng thời các nhà phát triển hoàn toàn có thể tự định nghĩa các agent tùy chỉnh với hướng dẫn, kỹ năng và nguồn dữ liệu riêng.
-
Chạy ngầm (Background Execution): Bằng cách thiết lập tham số
background=True, máy chủ của Google sẽ xử lý các tương tác dài hạn một cách bất đồng bộ, giải phóng tài nguyên và bớt gánh nặng chờ đợi cho ứng dụng phía máy khách. -
Nâng cấp Deep Research & Công cụ: Phiên bản mới cung cấp hai tùy chọn tác nhân Deep Research (thiên về tốc độ hoặc thiên về độ sâu nghiên cứu), hỗ trợ lập kế hoạch cộng tác và tạo biểu đồ/infographic gốc. Các công cụ tích hợp như Google Search, Google Maps có thể được dùng chung với các hàm tùy chỉnh trong cùng một yêu cầu; kết quả trả về hỗ trợ hiển thị hình ảnh song song với văn bản.
-
Sáng tạo đa phương tiện toàn diện: Tích hợp các mô hình đầu bảng như Nano Banana 2 (tạo hình ảnh), Lyria 3 (tạo âm nhạc) và công nghệ chuyển đổi văn bản thành giọng nói (TTS) đa diễn giả truyền cảm.
-
Cải tổ kiến trúc (Từ Roles sang Steps): Lược đồ được đơn giản hóa, thay thế cấu trúc "Roles" (Vai trò) cũ. Giờ đây, mỗi hành động (đầu vào của người dùng, suy nghĩ của AI, gọi hàm, kết quả mô hình...) đều được phân tách thành một "Bước" (Step) định kiểu riêng biệt.
3. Tối ưu hóa chi phí và hiệu năng vận hành
Nhằm giúp các doanh nghiệp dễ dàng triển khai thực tế, Google giới thiệu hai cấp độ vận hành: Flex và Priority. Trong đó, gói Flex mang lại cơ hội tiết kiệm tới 50% chi phí cho các luồng việc không đòi hỏi độ trễ tức thời.
Hệ thống báo lỗi (Error logging) cũng được tinh chỉnh để chỉ đích danh trường dữ liệu gặp sự cố. Ngoài ra, trên các gói trả phí, hệ thống cho phép lưu trữ và truy xuất toàn bộ lịch sử tương tác của tác nhân trong vòng 55 ngày.
4. Giao diện "độc quyền" cho các tính năng tương lai
Kể từ thời điểm này, Interactions API sẽ là tiêu chuẩn mặc định trên Google AI Studio, Gemini API và toàn bộ tài liệu hướng dẫn của Google.
Mặc dù giao diện cũ (generateContent) vẫn tiếp tục được hỗ trợ và cập nhật các mô hình Gemini tiêu chuẩn trong tương lai gần, Google nhấn mạnh rằng những năng lực trí tuệ nhân tạo vượt trội nhất dành cho các mô hình dài hạn và AI Agent sẽ chỉ cập bến độc quyền trên Interactions API. Điều này xuất phát từ việc kiến trúc mới được thiết kế nguyên bản ngay từ đầu để phục vụ các luồng công việc lưu trạng thái (stateful) và mang tính tự trị cao.
Để hỗ trợ hệ sinh thái "Agent-first", Google cũng phát hành bộ kỹ năng gemini-interactions-api giúp các tác nhân lập trình tự động nắm bắt các quy chuẩn viết mã mới nhất. Hiện tại, các nhà phát triển có thể tiếp cận API thông qua SDK Python, JavaScript hoặc thông qua các nền tảng đối tác như LiteLLM, Eigent và Agno. Một cẩm nang chuyển đổi (Migration Guide) chi tiết cũng đã được Google công bố để giúp các dự án hiện hữu nâng cấp lên chuẩn API mới một cách liền mạch.
(Theo Google Blog)
Bài viết liên quan
28.06.2026, 3:35 pm 2
Microsoft Tăng Giá Xbox Toàn Cầu: Mức Tăng Lên Đến 150 USD
26.06.2026, 9:27 am 7
Google chính thức tích hợp khả năng điều khiển máy tính vào mô hình Gemini 3.5 Flash
23.06.2026, 10:23 am 9
ĐẠI HỌC BANG FLORIDA (FSU) LỘT XÁC CHẤT LƯỢNG HỌC TẬP NHỜ GOOGLE NOTEBOOKLM: BIẾN AI THÀNH GIA SƯ 24/7
23.06.2026, 10:08 am 14
Cú bắt tay lịch sử: Google DeepMind và hãng phim A24 công bố hợp tác nghiên cứu AI trong điện ảnh
19.06.2026, 11:28 am 12
AI Y TẾ CỦA GOOGLE BƯỚC VÀO KỶ NGUYÊN MỚI: TỪ CHẨN ĐOÁN ĐẾN QUẢN LÝ BỆNH LÝ DÀI HẠN
17.06.2026, 10:36 am 52
Lịch Thi Đấu World Cup 2026: Xem Trực Tiếp Ở Đâu Trọn Vẹn Nhất?
11.06.2026, 10:05 am 20
Google Ra Mắt DiffusionGemma: Mô Hình AI Tạo Văn Bản Nhanh Gấp 4 Lần
06.06.2026, 11:10 am 15