Google chính thức tích hợp khả năng điều khiển máy tính vào mô hình Gemini 3.5 Flash
Google DeepMind vừa chính thức công bố bước tiến lớn tiếp theo cho hệ sinh thái trí tuệ nhân tạo của mình:
Tích hợp sâu khả năng "sử dụng máy tính" (Computer Use) trở thành một công cụ mặc định ngay trong mô hình Gemini 3.5 Flash.

Trước đây, tính năng này từng được Google giới thiệu dưới dạng một mô hình thử nghiệm độc lập mang tên Gemini 2.5 Computer Use. Với đợt nâng cấp mới nhất, công nghệ trên đã được tối ưu hóa và nhúng trực tiếp vào dòng mô hình chủ lực tốc độ cao Gemini Flash, hoạt động song song với các công cụ quen thuộc khác như Tìm kiếm (Search) hay Định vị (Maps).
Bước tiến mới cho các "Đại lý AI" (AI Agents)
Theo ông Mateo Quiros – Giám đốc Sản phẩm tại Google DeepMind, sự tích hợp này cho phép các nhà phát triển xây dựng các tác tử AI có khả năng nhìn thấy màn hình, suy luận tình huống và trực tiếp thực hiện các thao tác trên cả ba môi trường: trình duyệt web, ứng dụng di động và phần mềm máy tính (desktop).
Được thiết kế để giải quyết các bài toán tự động hóa dài hạn trong doanh nghiệp, Gemini 3.5 Flash có thể đảm nhận nhiều chuỗi công việc phức tạp như:
-
Tự động hóa kiểm thử phần mềm liên tục.
-
Đọc hiểu và phân tích giao diện ứng dụng để tổng hợp tài liệu.
-
Tự kiểm tra các lỗi tiếp cận (accessibility) trên trang web và hệ thống.
Siết chặt hàng rào bảo mật trước rủi ro "Prompt Injection"
Việc trao quyền cho AI tự thao tác chuột và bàn phím trên môi trường thực tế đi kèm với rủi ro bảo mật rất lớn, đặc biệt là các cuộc tấn công tiêm nhiễm câu lệnh gián tiếp (Indirect Prompt Injection). Để giải quyết bài toán này, Google cho biết họ đã áp dụng phương pháp huấn luyện đối kháng nhắm mục tiêu riêng cho Gemini 3.5 Flash.
Bên cạnh đó, hãng phát hành 2 hệ thống bảo vệ tùy chọn dành cho các doanh nghiệp:
-
Yêu cầu xác nhận từ con người: Buộc người dùng phải phê duyệt thủ công trước khi AI thực hiện các hành động nhạy cảm hoặc không thể hoàn tác (như xóa dữ liệu quan trọng hay chuyển tiền).
-
Tự động ngắt khẩn cấp: Lập tức dừng tác vụ nếu hệ thống phát hiện câu lệnh đang bị bên thứ ba thao túng.
Google khuyến cáo các lập trình viên áp dụng chiến lược "phòng thủ nhiều lớp", kết hợp giữa việc chạy AI trong hộp cát (sandboxing) an toàn và kiểm soát quyền truy cập nghiêm ngặt.
Phản hồi từ thị trường và cách thức trải nghiệm
Ngay trong giai đoạn sớm, các đối tác công nghệ lớn như UiPath, Browserbase và Browser Use đã tham gia thử nghiệm và ghi nhận hiệu năng vượt trội của mô hình mới trong việc xử lý các tác vụ tự động hóa văn phòng.
Hiện tại, các nhà phát triển và doanh nghiệp đã có thể bắt đầu khai thác tính năng này thông qua Gemini API và nền tảng Gemini Enterprise Agent Platform, hoặc trải nghiệm nhanh trong môi trường demo do Browserbase lưu trữ.
(Nguồn: Google Blog )
Bài viết liên quan
28.06.2026, 3:35 pm 2
Microsoft Tăng Giá Xbox Toàn Cầu: Mức Tăng Lên Đến 150 USD
23.06.2026, 10:23 am 9
ĐẠI HỌC BANG FLORIDA (FSU) LỘT XÁC CHẤT LƯỢNG HỌC TẬP NHỜ GOOGLE NOTEBOOKLM: BIẾN AI THÀNH GIA SƯ 24/7
23.06.2026, 10:17 am 14
Google chính thức phát hành Interactions API: Chuẩn mực mới cho kỷ nguyên AI Agent trên Gemini
23.06.2026, 10:08 am 14
Cú bắt tay lịch sử: Google DeepMind và hãng phim A24 công bố hợp tác nghiên cứu AI trong điện ảnh
19.06.2026, 11:28 am 12
AI Y TẾ CỦA GOOGLE BƯỚC VÀO KỶ NGUYÊN MỚI: TỪ CHẨN ĐOÁN ĐẾN QUẢN LÝ BỆNH LÝ DÀI HẠN
17.06.2026, 10:36 am 52