bỏ qua Nội dung chính
Chào mừng bạn đến với Gimasys!
Hotline: +84 974 417 099 (HCM) | +84 987 682 505 (HN) gcp@gimasys.com

Dịch thuật nhanh chóng, tự nhiên với Gemini 3.5 Live Translate

Hai mươi năm trước, Google Translate bắt đầu như một trong những thử nghiệm tiên phong về máy học nhằm biến khoa học ngôn ngữ thành phép màu của sự kết nối giữa con người. Thử nghiệm đó đã đạt được những thành tựu đáng kể, với hơn một nghìn tỷ từ được dịch cho hàng tỷ người dùng trên các sản phẩm của chúng tôi mỗi tháng.

Hôm nay, Google đang tiến thêm một bước nữa với việc phát hành Gemini 3.5 Live Translate, mô hình âm thanh mới nhất dành cho dịch thuật giọng nói trực tiếp.

Mô hình này tự động phát hiện hơn 70 ngôn ngữ và tạo ra giọng nói được dịch mượt mà, tự nhiên, giữ nguyên ngữ điệu, tốc độ và cao độ của người nói. Không giống như các hệ thống dịch từng lượt chờ người nói kết thúc trước khi phản hồi, 3.5 Live Translate tạo ra giọng nói liên tục, cân bằng giữa việc chờ ngữ cảnh để cải thiện chất lượng và dịch ngay lập tức để đồng bộ với người nói. Nó cung cấp âm thanh trôi chảy mà không có những khoảng dừng khó xử và chỉ chậm hơn người nói vài giây trong suốt phiên dịch.

Gemini 3.5 Live Translate đang được triển khai bắt đầu từ hôm nay trên tất cả các sản phẩm của Google:

  • Dành cho nhà phát triển trong bản xem trước công khai thông qua API Gemini Live và Google AI Studio
  • Dành cho doanh nghiệp trong bản xem trước riêng tư bắt đầu từ tháng này trên Google Meet
  • Dành cho tất cả mọi người thông qua Google Translate trên Android và iOS

Bắt đầu với Gemini 3.5 Live Translate

Gemini 3.5 Live Translate xử lý giọng nói ngay khi được truyền tải, cho phép kết nối liền mạch hơn giữa các ngôn ngữ. Mô hình này xử lý đầu vào đa ngôn ngữ mà không cần phải cấu hình cài đặt thủ công. Đồng thời, khả năng chống nhiễu của nó đảm bảo các ứng dụng có thể hoạt động trong môi trường ồn ào và khó đoán. Bạn có thể sử dụng các khả năng của nó để hỗ trợ phiên dịch trực tiếp cho các cuộc gọi, cuộc họp, bài học, chương trình phát sóng đa ngôn ngữ và nhiều hơn nữa.

Bằng cách sử dụng API Gemini Live, các nền tảng dành cho nhà phát triển như Agora, Fishjam, LiveKit, Pipecat và Vision Agents cho phép các nhà phát triển xây dựng và triển khai các ứng dụng dịch thuật giọng nói một cách dễ dàng. Các tích hợp này xử lý cơ sở hạ tầng truyền phát phương tiện thời gian thực phức tạp, giúp các nhà phát triển tập trung vào trải nghiệm người dùng.

Các đối tác của Googletại Grab đang thử nghiệm mô hình này để cho phép giao tiếp đa ngôn ngữ gần như thời gian thực giữa tài xế và hành khách tại các điểm đón. Những người dùng này thực hiện hơn 10 triệu cuộc gọi thoại mỗi tháng thông qua Grab.

Đánh giá ban đầu

Ngoài Grab, các công ty như CJ ENM, LiveKit và nhiều công ty khác cũng đã chia sẻ phản hồi tích cực về Gemini 3.5 Live Translate, nhấn mạnh chất lượng dịch thuật ấn tượng, độ chính xác và độ trễ thấp:

“Trong quá trình thử nghiệm Gemini 3.5 Live Translate, chúng tôi đánh giá cao khả năng tự động phát hiện nhiều ngôn ngữ và dịch giọng nói chính xác với độ trễ thấp.”

P Philipp Kandal – Giám đốc Sản phẩm tại Grab

“CJ ENM rất vui mừng được hợp tác với Google DeepMind trong dự án Live Translate 3.5. Các thử nghiệm ban đầu cho thấy chất lượng đầy hứa hẹn, mang đến trải nghiệm chân thực hơn cho người xem toàn cầu và Hàn Quốc.”

Bella Baek – Giám đốc Trí tuệ Nhân tạo tại CJ ENM

“Gemini 3.5 Live Translate giúp việc nhận diện giọng nói đa ngôn ngữ trở nên dễ dàng. Tôi đã xây dựng một bản demo trên LiveKit Agents, nơi mọi người đều nói ngôn ngữ mẹ đẻ của mình và hiểu nhau trực tiếp.”

J. Jesse Hall – Chuyên viên Phát triển Cộng tác tại LiveKit

Trải nghiệm Live Translate 3.5 trong các cuộc họp video của bạn

Tính năng dịch giọng nói trong Google Meet sẽ sớm sử dụng Live Translate 3.5, cải thiện trải nghiệm bằng cách:

  • Cung cấp hơn 70 ngôn ngữ, cải tiến so với giới hạn trước đây chỉ là năm ngôn ngữ,
  • Cho phép các cuộc hội thoại trên hơn 2000+ tổ hợp ngôn ngữ trong một cuộc họp, mở rộng từ trạng thái trước đây chỉ dịch sang và từ tiếng Anh,
  • Cập nhật giao diện để cung cấp quyền truy cập tức thì vào tính năng dịch giọng nói.

Google đang triển khai bản cập nhật này ở chế độ xem trước riêng tư cho một số khách hàng doanh nghiệp Google Workspace được chọn bắt đầu từ tháng này, tiếp theo là triển khai rộng rãi hơn vào cuối năm nay.

Tích hợp tính năng Live Translate 3.5 vào ứng dụng Google Translate trên Android hoặc iOS

Tính năng này cũng đang được triển khai trên ứng dụng Google Translate toàn cầu, cả trên Android và iOS. Khi sử dụng tính năng Live Translate 3.5, chỉ cần kết nối bất kỳ tai nghe nào để trải nghiệm bản dịch liền mạch hơn, phản ánh giọng điệu của người nói trên hơn 70 ngôn ngữ.

Đối với người dùng Android, chúng tôi cũng đang bắt đầu triển khai chế độ “nghe” mới với tính năng Live Translate 3.5 cho phép bạn nghe bản dịch trực tiếp qua loa thoại của điện thoại. Chỉ cần giữ điện thoại áp vào tai như khi gọi điện thông thường, và âm thanh đã dịch sẽ được truyền thẳng đến bạn. Trải nghiệm mới này có thể hữu ích trong những trường hợp bạn muốn nhanh chóng nghe bản dịch mà không muốn người khác nghe thấy, và bạn không có tai nghe bên cạnh.

Bạn đã sẵn sàng nâng cấp hệ thống của mình với sức mạnh từLive Translate 3.5

Nếu doanh nghiệp của bạn đang tìm kiếm đối tác để tích hợp các mô hình Gemini vào hệ thống vận hành thực tế một cách chuyên nghiệp và an toàn nhất, hãy để Gimasys đồng hành cùng bạn.

Là Đối tác chiến lược cấp cao (Premier Partner) của Google Cloud tại Việt Nam, Gimasys sở hữu đội ngũ kỹ sư và chuyên gia công nghệ được chứng nhận chuyên môn cao. Chúng tôi sẵn sàng hỗ trợ doanh nghiệp của bạn:

  • Tư vấn kiến trúc AI, lựa chọn mô hình LLM tối ưu cho từng nghiệp vụ.
  • Tối ưu hóa chi phí gọi API trên hạ tầng Google Cloud.
  • Triển khai và xây dựng các hệ thống Agentic AI an toàn, bảo mật tuyệt đối.
Trở lại đầu trang
0974 417 099