Google vừa giới thiệu mô hình Gemini 2.5 Computer Use, bước tiến mới cho phép trí tuệ nhân tạo thao tác trực tiếp trên trang web, từ nhấp chuột, nhập liệu đến cuộn trang, giống như cách người dùng thật tương tác. Mô hình hiện đã mở bản dùng thử công khai thông qua Gemini API trên Google AI Studio và Vertex AI.
Gemini 2.5 Computer Use được phát triển dựa trên nền tảng Gemini 2.5 Pro, tận dụng khả năng hiểu hình ảnh và lập luận vốn đã rất mạnh của dòng mô hình này. Giờ đây, thay vì chỉ “nhìn” hay “phân tích” dữ liệu, AI có thể thực sự hành động trên trình duyệt, thực hiện hàng loạt thao tác như nhấn nút, điền biểu mẫu, mở menu, di chuột hay truy cập liên kết.
Gemini 2.5 Computer Use (Ảnh: Internet)
Theo Google, mô hình mới cho hiệu suất tốt hơn rõ rệt so với nhiều công cụ hiện nay trong các bài kiểm tra như Online-Mind2Web, WebVoyager và AndroidWorld, đồng thời vẫn giữ được độ trễ thấp, giúp phản hồi nhanh và mượt mà hơn. Trong các bản demo, Google minh họa cách AI sắp xếp ghi chú trên bảng trắng kỹ thuật số hoặc chuyển thông tin thú cưng từ một trang web sang hệ thống CRM. Các video được tua nhanh để mô phỏng tốc độ thao tác gần với thời gian thực, cho thấy khả năng điều hướng linh hoạt và tự nhiên của mô hình.
Gemini 2.5 Computer Use được Google giới thiệu với hiệu suất vượt trội so với nhiều công cụ hiện có, thể hiện khả năng thao tác trên web nhanh, chính xác và mượt mà trong các bài thử nghiệm thực tế (Ảnh: Internet)
Hiện tại, mô hình hỗ trợ 13 loại hành động khác nhau và hoạt động tốt nhất trong môi trường trình duyệt. Google cho biết Gemini 2.5 Computer Use chưa được tối ưu cho các tác vụ cấp hệ điều hành trên máy tính, nhưng đã thể hiện tiềm năng rõ rệt trên các bài thử nghiệm di động.
Bên cạnh sức mạnh, yếu tố an toàn vẫn được Google đặt lên hàng đầu. Mỗi thao tác mà AI đề xuất đều được kiểm tra bởi hệ thống an toàn trước khi thực thi, nhằm tránh những hành vi không mong muốn. Nhà phát triển có thể giới hạn một số hành động nhất định, hoặc yêu cầu người dùng xác nhận khi AI thực hiện các nhiệm vụ nhạy cảm như giao dịch tài chính.
Google tích hợp hệ thống kiểm soát an toàn cho Gemini 2.5 Computer Use, đảm bảo mọi thao tác của AI đều được xem xét trước khi thực hiện để ngăn chặn rủi ro và bảo vệ người dùng (Ảnh: Internet)
Gemini 2.5 Computer Use hiện đã được nhiều nhóm nội bộ của Google sử dụng để thử nghiệm và tự động hóa giao diện người dùng trên các nền tảng như Search và Firebase. Một số nhà phát triển bên ngoài tham gia chương trình truy cập sớm cũng đã ứng dụng mô hình để tạo công cụ hỗ trợ công việc và tự động hóa quy trình hàng ngày.
Sự xuất hiện của Gemini 2.5 Computer Use cho thấy Google đang tiến gần hơn tới mục tiêu giúp AI không chỉ hiểu thế giới số mà còn thực sự “tương tác” với nó. Mặc dù vẫn trong giai đoạn thử nghiệm, nhưng hướng đi này mở ra khả năng AI có thể hỗ trợ con người linh hoạt hơn – từ thao tác trên web cho đến những công việc đòi hỏi tính tự động cao trong tương lai gần.
Google giới thiệu Gemini 2.5 Computer Use, mô hình AI có thể thao tác trực tiếp trên web
Gemini 2.5 Computer Use được phát triển dựa trên nền tảng Gemini 2.5 Pro, tận dụng khả năng hiểu hình ảnh và lập luận vốn đã rất mạnh của dòng mô hình này. Giờ đây, thay vì chỉ “nhìn” hay “phân tích” dữ liệu, AI có thể thực sự hành động trên trình duyệt, thực hiện hàng loạt thao tác như nhấn nút, điền biểu mẫu, mở menu, di chuột hay truy cập liên kết.

Gemini 2.5 Computer Use (Ảnh: Internet)
Theo Google, mô hình mới cho hiệu suất tốt hơn rõ rệt so với nhiều công cụ hiện nay trong các bài kiểm tra như Online-Mind2Web, WebVoyager và AndroidWorld, đồng thời vẫn giữ được độ trễ thấp, giúp phản hồi nhanh và mượt mà hơn. Trong các bản demo, Google minh họa cách AI sắp xếp ghi chú trên bảng trắng kỹ thuật số hoặc chuyển thông tin thú cưng từ một trang web sang hệ thống CRM. Các video được tua nhanh để mô phỏng tốc độ thao tác gần với thời gian thực, cho thấy khả năng điều hướng linh hoạt và tự nhiên của mô hình.

Gemini 2.5 Computer Use được Google giới thiệu với hiệu suất vượt trội so với nhiều công cụ hiện có, thể hiện khả năng thao tác trên web nhanh, chính xác và mượt mà trong các bài thử nghiệm thực tế (Ảnh: Internet)
Hiện tại, mô hình hỗ trợ 13 loại hành động khác nhau và hoạt động tốt nhất trong môi trường trình duyệt. Google cho biết Gemini 2.5 Computer Use chưa được tối ưu cho các tác vụ cấp hệ điều hành trên máy tính, nhưng đã thể hiện tiềm năng rõ rệt trên các bài thử nghiệm di động.
Bên cạnh sức mạnh, yếu tố an toàn vẫn được Google đặt lên hàng đầu. Mỗi thao tác mà AI đề xuất đều được kiểm tra bởi hệ thống an toàn trước khi thực thi, nhằm tránh những hành vi không mong muốn. Nhà phát triển có thể giới hạn một số hành động nhất định, hoặc yêu cầu người dùng xác nhận khi AI thực hiện các nhiệm vụ nhạy cảm như giao dịch tài chính.

Google tích hợp hệ thống kiểm soát an toàn cho Gemini 2.5 Computer Use, đảm bảo mọi thao tác của AI đều được xem xét trước khi thực hiện để ngăn chặn rủi ro và bảo vệ người dùng (Ảnh: Internet)
Gemini 2.5 Computer Use hiện đã được nhiều nhóm nội bộ của Google sử dụng để thử nghiệm và tự động hóa giao diện người dùng trên các nền tảng như Search và Firebase. Một số nhà phát triển bên ngoài tham gia chương trình truy cập sớm cũng đã ứng dụng mô hình để tạo công cụ hỗ trợ công việc và tự động hóa quy trình hàng ngày.
Tạm kết
Sự xuất hiện của Gemini 2.5 Computer Use cho thấy Google đang tiến gần hơn tới mục tiêu giúp AI không chỉ hiểu thế giới số mà còn thực sự “tương tác” với nó. Mặc dù vẫn trong giai đoạn thử nghiệm, nhưng hướng đi này mở ra khả năng AI có thể hỗ trợ con người linh hoạt hơn – từ thao tác trên web cho đến những công việc đòi hỏi tính tự động cao trong tương lai gần.
- Trào lưu tạo video AI bằng công cụ Sora 2 của OpenAI đang ảnh hưởng đến quyền riêng tư của người nổi tiếng
- Những thương hiệu tai nghe TWS đáng mua nhất năm 2025: Sony, Sennheiser, Bose và nhiều cái tên khác
- EJAE – giọng ca chính của “K-Pop Demon Hunters” chia sẻ danh sách nghệ sĩ mơ ước được hợp tác: Lisa, Doja Cat, Raye và Maroon 5
- YouTube Music thử nghiệm tính năng dịch lời bài hát cho một số người dùng Premium
- Máy tính bảng Kindle Scribe Colorsoft của Amazon sắp ra mắt với nhiều nâng cấp về màn hình và tính năng thông minh
- Điện thoại gập 3 màn hình của Samsung sẽ có nhiều tính năng xử lý đa nhiệm và làm việc chuyên nghiệp?