Tháng vừa qua thật bận rộn! Từ việc công bố Gemini Spark và Gemini 3.5…
Google ra mắt Gemini 3.5 Live Translate hỗ trợ dịch hội thoại trực tiếp hơn 70 ngôn ngữ
Rào cản ngôn ngữ vẫn luôn là thách thức lớn nhất cản bước sự hợp tác và phát triển của các doanh nghiệp quốc tế. Để xóa nhòa khoảng cách đó, Google mới đây đã chính thức trình làng tính năng đột phá Gemini 3.5 Live Translate – trợ lý dịch thuật hội thoại trực tiếp theo thời gian thực (real-time) hỗ trợ lên tới hơn 70 ngôn ngữ khác nhau. Giờ đây, chỉ cần một nút chạm trên Google Meet hay ứng dụng Gemini, bạn và đối tác nước ngoài có thể trò chuyện, thảo luận công việc một cách tự nhiên và trôi chảy bằng chính ngôn ngữ của mình. Hãy cùng Gimasys khám phá sự nâng cấp mang tính bước ngoặt này qua đó định hình lại cách chúng ta giao tiếp và làm việc xuyên biên giới như thế nào ngay dưới đây!
Mô hình này tự động phát hiện hơn 70 ngôn ngữ và tạo ra giọng nói được dịch mượt mà, tự nhiên, giữ nguyên ngữ điệu, tốc độ và cao độ của người nói. Không giống như các hệ thống dịch từng lượt chờ người nói kết thúc trước khi phản hồi, 3.5 Live Translate tạo ra giọng nói liên tục, cân bằng giữa việc chờ ngữ cảnh để cải thiện chất lượng và dịch ngay lập tức để đồng bộ với người nói. Nó cung cấp âm thanh trôi chảy mà không có những khoảng dừng khó xử và chỉ chậm hơn người nói vài giây trong suốt phiên dịch.
Gemini 3.5 Live Translate đang được triển khai bắt đầu từ hôm nay trên tất cả các sản phẩm của Google:
- Dành cho nhà phát triển trong bản xem trước công khai thông qua API Gemini Live và Google AI Studio
- Dành cho doanh nghiệp trong bản xem trước riêng tư bắt đầu từ tháng này trên Google Meet
- Dành cho tất cả mọi người thông qua Google Translate trên Android và iOS
Bắt đầu với Gemini 3.5 Live Translate
Gemini 3.5 Live Translate xử lý giọng nói ngay khi được truyền tải, cho phép kết nối liền mạch hơn giữa các ngôn ngữ. Mô hình này xử lý đầu vào đa ngôn ngữ mà không cần phải cấu hình cài đặt thủ công. Đồng thời, khả năng chống nhiễu của nó đảm bảo các ứng dụng có thể hoạt động trong môi trường ồn ào và khó đoán. Bạn có thể sử dụng các khả năng của nó để hỗ trợ phiên dịch trực tiếp cho các cuộc gọi, cuộc họp, bài học, chương trình phát sóng đa ngôn ngữ và nhiều hơn nữa.
Bằng cách sử dụng API Gemini Live, các nền tảng dành cho nhà phát triển như Agora, Fishjam, LiveKit, Pipecat và Vision Agents cho phép các nhà phát triển xây dựng và triển khai các ứng dụng dịch thuật giọng nói một cách dễ dàng. Các tích hợp này xử lý cơ sở hạ tầng truyền phát phương tiện thời gian thực phức tạp, giúp các nhà phát triển tập trung vào trải nghiệm người dùng.
Các đối tác của Googletại Grab đang thử nghiệm mô hình này để cho phép giao tiếp đa ngôn ngữ gần như thời gian thực giữa tài xế và hành khách tại các điểm đón. Những người dùng này thực hiện hơn 10 triệu cuộc gọi thoại mỗi tháng thông qua Grab.
Đánh giá ban đầu
Ngoài Grab, các công ty như CJ ENM, LiveKit và nhiều công ty khác cũng đã chia sẻ phản hồi tích cực về Gemini 3.5 Live Translate, nhấn mạnh chất lượng dịch thuật ấn tượng, độ chính xác và độ trễ thấp:
“Trong quá trình thử nghiệm Gemini 3.5 Live Translate, chúng tôi đánh giá cao khả năng tự động phát hiện nhiều ngôn ngữ và dịch giọng nói chính xác với độ trễ thấp.”
P Philipp Kandal – Giám đốc Sản phẩm tại Grab
“CJ ENM rất vui mừng được hợp tác với Google DeepMind trong dự án Live Translate 3.5. Các thử nghiệm ban đầu cho thấy chất lượng đầy hứa hẹn, mang đến trải nghiệm chân thực hơn cho người xem toàn cầu và Hàn Quốc.”
Bella Baek – Giám đốc Trí tuệ Nhân tạo tại CJ ENM
“Gemini 3.5 Live Translate giúp việc nhận diện giọng nói đa ngôn ngữ trở nên dễ dàng. Tôi đã xây dựng một bản demo trên LiveKit Agents, nơi mọi người đều nói ngôn ngữ mẹ đẻ của mình và hiểu nhau trực tiếp.”
J. Jesse Hall – Chuyên viên Phát triển Cộng tác tại LiveKit
Trải nghiệm Live Translate 3.5 trong các cuộc họp video của bạn
Tính năng dịch giọng nói trong Google Meet sẽ sớm sử dụng Live Translate 3.5, cải thiện trải nghiệm bằng cách:
- Cung cấp hơn 70 ngôn ngữ, cải tiến so với giới hạn trước đây chỉ là năm ngôn ngữ,
- Cho phép các cuộc hội thoại trên hơn 2000+ tổ hợp ngôn ngữ trong một cuộc họp, mở rộng từ trạng thái trước đây chỉ dịch sang và từ tiếng Anh,
- Cập nhật giao diện để cung cấp quyền truy cập tức thì vào tính năng dịch giọng nói.
Google đang triển khai bản cập nhật này ở chế độ xem trước riêng tư cho một số khách hàng doanh nghiệp Google Workspace được chọn bắt đầu từ tháng này, tiếp theo là triển khai rộng rãi hơn vào cuối năm nay.
Tích hợp tính năng Live Translate 3.5 vào ứng dụng Google Translate trên Android hoặc iOS
Tính năng này cũng đang được triển khai trên ứng dụng Google Translate toàn cầu, cả trên Android và iOS. Khi sử dụng tính năng Live Translate 3.5, chỉ cần kết nối bất kỳ tai nghe nào để trải nghiệm bản dịch liền mạch hơn, phản ánh giọng điệu của người nói trên hơn 70 ngôn ngữ.
Đối với người dùng Android, chúng tôi cũng đang bắt đầu triển khai chế độ “nghe” mới với tính năng Live Translate 3.5 cho phép bạn nghe bản dịch trực tiếp qua loa thoại của điện thoại. Chỉ cần giữ điện thoại áp vào tai như khi gọi điện thông thường, và âm thanh đã dịch sẽ được truyền thẳng đến bạn. Trải nghiệm mới này có thể hữu ích trong những trường hợp bạn muốn nhanh chóng nghe bản dịch mà không muốn người khác nghe thấy, và bạn không có tai nghe bên cạnh.
Bạn đã sẵn sàng nâng cấp hệ thống của mình với sức mạnh từ Live Translate 3.5
Nếu doanh nghiệp của bạn đang tìm kiếm đối tác để tích hợp các mô hình Gemini vào hệ thống vận hành thực tế một cách chuyên nghiệp và an toàn nhất, hãy để Gimasys đồng hành cùng bạn.
Là Đối tác chiến lược cấp cao (Premier Partner) của Google Cloud tại Việt Nam, Gimasys sở hữu đội ngũ kỹ sư và chuyên gia công nghệ được chứng nhận chuyên môn cao. Chúng tôi sẵn sàng hỗ trợ doanh nghiệp của bạn:
- Tư vấn kiến trúc AI, lựa chọn mô hình LLM tối ưu cho từng nghiệp vụ.
- Tối ưu hóa chi phí gọi API trên hạ tầng Google Cloud.
- Triển khai và xây dựng các hệ thống Agentic AI an toàn, bảo mật tuyệt đối.

