Thứ Ba, 30 tháng 6, 2026

Phiên dịch giọng nói mượt mà, tự nhiên với Gemini 3.5 Live Translate

Bài giới thiệu Gemini 3.5 Live Translate đăng trên Google Blog tiếng Việt

Gemini 3.5 Live Translate là mô hình âm thanh mới nhất của Google, cung cấp khả năng dịch giọng nói trực tiếp gần như tức thời trên hơn 70 ngôn ngữ, bao gồm tiếng Việt.


Hai mươi năm trước, dịch thuật tại Google được bắt đầu từ một trong những thử nghiệm tiên phong về học máy của Google, với mục tiêu biến khoa học ngôn ngữ thành phép màu của sự kết nối con người. Hai thập kỷ sau, thử nghiệm đó đã đạt được những bước tiến dài, với hơn một nghìn tỷ từ được dịch mỗi tháng cho hàng tỷ người dùng trên các sản phẩm của Google.

Hôm nay, Google tiếp tục tiến thêm một bước với việc ra mắt Gemini 3.5 Live Translate, mô hình âm thanh mới nhất của Google dành cho dịch thuật giọng nói trực tiếp.

Mô hình tự động nhận diện hơn 70 ngôn ngữ, bao gồm cả tiếng Việt và tạo ra giọng nói được dịch một cách mượt mà, tự nhiên, đồng thời giữ được ngữ điệu, nhịp nói và cao độ giọng của người nói. Không giống các hệ thống dịch theo từng lượt hội thoại, vốn phải chờ người nói kết thúc trước khi phản hồi, 3.5 Live Translate liên tục tạo ra bản dịch bằng giọng nói, cân bằng giữa việc chờ thêm ngữ cảnh để cải thiện chất lượng dịch và dịch ngay lập tức để duy trì sự đồng bộ với người nói. Mô hình mang đến trải nghiệm âm thanh liền mạch, không có những khoảng ngắt quãng gượng gạo và chỉ chậm hơn người nói vài giây trong suốt cuộc trò chuyện.

Gemini 3.5 Live Translate bắt đầu được triển khai từ hôm nay trên các sản phẩm của Google:
  • Dành cho doanh nghiệp dưới dạng bản dùng thử riêng tư bắt đầu từ tháng này trên Google Meet
  • Dành cho tất cả người dùng thông qua Google Translate trên AndroidiOS
Xây dựng ứng dụng với 3.5 Live Translate

Gemini 3.5 Live Translate xử lý giọng nói theo thời gian thực ngay trong quá trình truyền tải, giúp tạo nên sự kết nối liền mạch hơn giữa các ngôn ngữ. Mô hình có thể xử lý đầu vào đa ngôn ngữ mà không cần cấu hình thủ công. Đồng thời, khả năng chống nhiễu mạnh mẽ giúp các ứng dụng hoạt động hiệu quả trong những môi trường ồn ào và khó kiểm soát. Bạn có thể tận dụng những khả năng này để hỗ trợ phiên dịch trực tiếp cho các cuộc gọi, cuộc họp, lớp học và chương trình phát sóng đa ngôn ngữ, cùng nhiều tình huống khác.

Thông qua việc sử dụng Gemini Live API, các nền tảng dành cho nhà phát triển như Agora, Fishjam, LiveKit, Pipecat và Vision Agents giúp các nhà phát triển dễ dàng xây dựng và triển khai các ứng dụng dịch giọng nói. Các tích hợp này đảm nhiệm phần hạ tầng truyền tải dữ liệu đa phương tiện theo thời gian thực vốn phức tạp, cho phép các nhà phát triển tập trung vào việc xây dựng trải nghiệm người dùng.

Các đối tác của chúng tôi tại Grab đang thử nghiệm mô hình này nhằm hỗ trợ giao tiếp đa ngôn ngữ gần như theo thời gian thực giữa tài xế và hành khách tại điểm đón. Hiện mỗi tháng, tài xế và hành khách thực hiện hơn 10 triệu cuộc gọi thoại thông qua nền tảng Grab.

Những phản hồi đầu tiên

Bên cạnh Grab, các công ty như CJ ENM, LiveKit cùng nhiều đơn vị khác cũng đã chia sẻ những phản hồi tích cực về 3.5 Live Translate, trong đó nhấn mạnh chất lượng dịch thuật ấn tượng, độ chính xác cao và độ trễ thấp của mô hình này:

“Trong quá trình thử nghiệm Gemini 3.5 Live Translate, chúng tôi đánh giá cao khả năng tự động nhận diện nhiều ngôn ngữ và dịch giọng nói một cách chính xác với độ trễ thấp của mô hình này.” - Philipp Kandal, Giám đốc Sản phẩm tại Grab

"CJ ENM rất hào hứng được hợp tác với Google DeepMind trong dự án 3.5 Live Translate. Các thử nghiệm ban đầu cho thấy chất lượng đầy hứa hẹn, góp phần mang lại trải nghiệm chân thực hơn cho khán giả toàn cầu và khán giả Hàn Quốc." - Bella Baek, Giám đốc AI tại CJ ENM

"Gemini 3.5 Live Translate giúp việc giao tiếp bằng giọng nói giữa nhiều ngôn ngữ trở nên dễ dàng hơn bao giờ hết. Tôi đã xây dựng một bản demo trên LiveKit Agents, nơi mọi người có thể nói ngôn ngữ của riêng mình và vẫn hiểu nhau theo thời gian thực." - Jesse Hall, Chuyên viên Hỗ trợ Nhà Phát triển tại LiveKit

"Trong quá trình làm việc với mô hình 3.5 Live Translate, chúng tôi đã thử nghiệm trên nhiều ngôn ngữ khác nhau và đội ngũ của chúng tôi thực sự ấn tượng trước tốc độ, độ chính xác và sự tự nhiên trong cách thể hiện của mô hình." - Nash Ramdial, Giám đốc tại VisionAgents

"Gemini 3.5 Live Translate kết hợp với giao thức MoQ của Fishjam mở ra một bước tiến mới cho hoạt động truyền phát đa phương tiện theo thời gian thực, cho phép dịch trực tiếp từ giọng nói sang giọng nói trên hơn 70 ngôn ngữ." - Maciej Rys, Phó chủ tịch kỹ thuật tại Software Mansion

"Chúng tôi đã thử nghiệm mô hình Gemini 3.5 Live Translate tại Agora và theo đánh giá của mình, mô hình đã mang lại những kết quả tiên tiến nhất hiện nay, với độ trễ thấp và độ chính xác cao, thiết lập một tiêu chuẩn mới cho dịch thuật theo thời gian thực." - Mason Adams, Chuyên viên Phát triển Phần mềm tại Agora

Trải nghiệm 3.5 Live Translate trong các cuộc họp trực tuyến

Tính năng dịch lời nói trong Google Meet sẽ sớm được ứng dụng mô hình 3.5 Live Translate, giúp nâng cao trải nghiệm người dùng thông qua:
  • Hỗ trợ hơn 70 ngôn ngữ, một bước cải tiến lớn so với giới hạn chỉ 5 ngôn ngữ trước đây
  • Cho phép trò chuyện qua lại giữa hơn 2.000 cặp tổ hợp ngôn ngữ khác nhau ngay trong một cuộc họp, mở rộng đáng kể so với trước đây khi chỉ hỗ trợ dịch qua lại giữa tiếng Anh và các ngôn ngữ khác
  • Cập nhật giao diện mới giúp người dùng dễ dàng tiếp cận và sử dụng ngay tính năng dịch lời nói một cách tức thì.
Chúng tôi sẽ triển khai bản cập nhật này dưới dạng Bản xem trước riêng tư (Private Preview) cho một số khách hàng doanh nghiệp của Google Workspace được lựa chọn từ tháng này, trước khi mở rộng triển khai rộng rãi hơn vào cuối năm nay.

Trải nghiệm 3.5 Live Translate trên ứng dụng Google Translate dành cho Android và iOS

Mô hình này cũng đang được triển khai trên ứng dụng Google Translate trên toàn cầu, áp dụng cho cả hệ điều hành AndroidiOS. Khi sử dụng tính năng Dịch trực tiếp (Live translate), bạn chỉ cần kết nối với một cặp tai nghe bất kỳ để trải nghiệm bản dịch mượt mà hơn, đồng thời phản ánh chính xác tông giọng của người nói trên hơn 70 ngôn ngữ.

Đối với người dùng Android, chúng tôi cũng bắt đầu triển khai một “chế độ nghe” (Listening Mode) mới sử dụng 3.5 Live Translate, cho phép người dùng nghe bản dịch trực tiếp qua loa thoại của điện thoại. Chỉ cần đưa điện thoại lên tai như khi thực hiện một cuộc gọi thông thường, âm thanh đã được dịch sẽ được truyền trực tiếp đến bạn. Trải nghiệm mới này đặc biệt hữu ích trong những tình huống bạn muốn nhanh chóng nghe bản dịch mà không để người khác nghe thấy, hoặc khi không có sẵn tai nghe bên mình.

Được tích hợp ký hiệu mờ (watermark) bằng SynthID

Tất cả âm thanh do các mô hình của chúng tôi tạo ra đều được gắn watermark bằng SynthID. Watermark vô hình này được tích hợp trực tiếp vào đầu ra âm thanh, giúp nội dung do AI tạo ra vẫn có thể được nhận diện, qua đó góp phần ngăn chặn thông tin sai lệch. Để tìm hiểu thêm về cách tiếp cận của chúng tôi đối với vấn đề an toàn và trách nhiệm, vui lòng tham khảo thẻ thông tin mô hình.

Xem Video của Grab về mô phỏng tính năng Gemini 3.5 Live Translate: tại đây.


Thứ Ba, 21 tháng 4, 2026

Tính năng Trí thông minh cá nhân cho người dùng Gemini đã có tại Việt Nam

Cách đây 2 tháng, tui có đăng bài của Google giới thiệu về Trí tuệ cá nhân (Personal Intelligence) trên Gemini.  Khi ấy Personal Intelligence mới được triển khai tại Mỹ chớ chưa có tại Việt Nam. Nay (15/4/2026) tính năng này đã được triển khai tại Việt Nam, tui đã thử và thấy cực kỳ thú vị nên đăng bài giới thiệu của Google để mọi người cùng tham khảo.


Google chính thức triển khai tính năng
Trí thông minh cá nhân 
cho người dùng Gemini tại Việt Nam

Đầu năm nay, chúng tôi đã giới thiệu tính năng Trí thông minh cá nhân (Personal Intelligence) tại Hoa Kỳ, cho thấy cách Gemini giúp cuộc sống trở nên dễ dàng hơn bằng việc thấu hiểu những điều bạn quan tâm nhất. Hôm nay, chúng tôi chính thức mang trải nghiệm cá nhân hóa này đến với người dùng tại Việt Nam.

Thứ Sáu, 17 tháng 4, 2026

Ông già và biển cả

 

Ở đây không phải nhắc đến The Old Man and the Sea của nhà văn Hemingway, mà muốn nói đến tình cảnh của những nguòi già đang ngụp lặn (và có khả năng... chết chìm) trong biển cả những ứng dụng công nghệ số đang vây quanh mình.

Một báo cáo khá lạc quan của Việt Nam cho biết: Tính đến đầu năm 2026, nhóm người trên 60 tuổi không còn đứng ngoài cuộc chơi công nghệ mà đã trở thành một phần quan trọng của "dòng chảy số". Tỷ lệ tiếp cận tăng cao với khoảng 9,8% người dùng Internet tại Việt Nam thuộc nhóm trên 65 tuổi.

Thứ Hai, 13 tháng 4, 2026

Google Finance phiên bản mới được hỗ trợ bởi AI mở rộng đến hơn 100 quốc gia, bao gồm Việt Nam

Ngày 9/4/2026 Google Finance phiên bản mới, được hỗ trợ bởi AI sẽ được dần triển khai trên toàn cầu. Trong những tuần tới, chúng tôi sẽ triển khai trải nghiệm này đến hơn 100 quốc gia — bao gồm Việt Nam cùng các thị trường như Úc, Brazil, Canada, Indonesia, Nhật Bản, Mexico và nhiều quốc gia khác.

Thứ Tư, 1 tháng 4, 2026

Qua lại giữa Gemini và ChatGPT

Vài bữa trước, tui có đăng bài của Google là Mang những ký ức AI và lịch sử trò chuyện của bạn sang Gemini. Mặc dù là bài viết chính chủ, nhưng có lẽ quá ngắn gọn và nhất là mang tính tổng quát hóa dùng cho toàn cầu nên hơi khô khan và khó hiểu khi đọc ở Việt Nam. Nay tui viết lại nội dung đó theo cách hiểu bình dân của mình, hy vọng là dễ hiểu và dễ áp dụng hơn.

Thứ Ba, 31 tháng 3, 2026

Mang những ký ức AI và lịch sử trò chuyện của bạn sang Gemini

Những cuộc trò chuyện của chúng ta với mấy đứa AI như ChatGPT hay Gemini thường được cá nhân hóa, bọn nó ghi nhớ những điều ta đã hỏi, đã nói để từ đó có cách ứng xử, trả lời phù hợp hơn. Thí dụ như có lần ta cho nó đọc để phân tích kết quả xét nghiệm máu của mình, thế là từ đó nó biết được tuổi tác, bịnh tật của ta và ghi nhớ những điều đó để từ đó về sau khi ta nói chuyện với nó nó sẽ lưu ý ta những vấn đề kiêng cữ (dù lần sau ta không cần nhắc nó về tiền sử bịnh của mình). Hoặc là qua những lần trò chuyện với nó, nó biết được bạn bè, người yêu của ta là ai, tính tình thế nào, thế là những lần sau khi có dịp nhắc tới những người ấy thì nó nhớ ngay những người ấy tính tình ra sao để khuyên ta ứng xử hợp lý nhất.

Ta thường xài không chỉ một mà tới vài thằng trợ lý AI. Thí dụ, ChatGPT và Gemini. Như vậy sẽ có những điều ta nói với ChatGPT mà không nói với Gemini và ngược lại. Nghĩa là ChatGPT hiểu ta theo một cách, còn Gemini hiểu ta theo cách khác. Do đó, khi ta nói chuyện với Gemini mà nhắc tới thằng Tèo (trong khi trước đó ta chỉ nói tới thằng Tèo với ChatGPT mà thôi) thì Gemini nó đâu biết Tèo là thằng nào vì mới nghe lần đầu.

Hiện nay, Gemini vừa đưa ra tính năng mới, cho phép ta lấy hết toàn bộ ký ức AI và lịch sử trò chuyện của mình với một trợ lý AI khác, chuyển qua cho nó. Nhờ đó, cuộc nói chuyện của ta với Gemini sẽ mang tính cá nhân cao hơn, vì nó hiểu về ta nhiều hơn.

Bài viết của Maryam Sanglaji, Trưởng nhóm sản phẩm, ứng dụng Gemini,
 đăng ngày 26/3/2026 trên Google Blog, giới thiệu về tính năng đó và hướng dẫn cách sử dụng (nếu thích).

Phạm Hoài Nhân

Chủ Nhật, 29 tháng 3, 2026

Tính năng Search Live mở rộng trên toàn cầu, bao gồm cả Việt Nam

Khi sử dụng tính năng Search Live, bạn có thể thực hiện cuộc trò chuyện đa phương thức và tương tác ngay trong Chế độ AI Mode.

Hôm nay, chúng tôi bắt đầu triển khai tính năng Search Live trên toàn cầu với tất cả các ngôn ngữ và khu vực có hỗ trợ Chế độ AI Mode. Với lần ra mắt này, người dùng tại hơn 200 quốc gia và vùng lãnh thổ sẽ có thể trò chuyện và tương tác với tính năng Tìm kiếm trong Chế độ AI Mode bằng cả giọng nói và camera.