Đời sống Số
Lưu trữ các bài viết về công nghệ đăng trên báo Đồng Nai, Đồng Nai Cuối tuần, Lao động Đồng Nai
Thứ Năm, 2 tháng 7, 2026
Chiếc smartphone có thể cứu bạn khỏi thảm họa động đất?
Trận động đất kép xảy ra tại Venezuela lúc 18:04 ngày 24/6 vừa qua là một thiên tai khốc liệt bậc nhất tại đất nước này. Bên cạnh những tổn thất nặng nề về người và tài sản, người ta nhắc nhiều đến hiệu quả của Hệ thống cảnh báo động đất của Google, bởi nếu không có hệ thống này hậu quả sẽ thảm khốc hơn rất nhiều.
Thứ Ba, 30 tháng 6, 2026
Phiên dịch giọng nói mượt mà, tự nhiên với Gemini 3.5 Live Translate
Bài giới thiệu Gemini 3.5 Live Translate đăng trên Google Blog tiếng Việt
Gemini 3.5 Live Translate là mô hình âm thanh mới nhất của Google, cung cấp khả năng dịch giọng nói trực tiếp gần như tức thời trên hơn 70 ngôn ngữ, bao gồm tiếng Việt.
Hôm nay, Google tiếp tục tiến thêm một bước với việc ra mắt Gemini 3.5 Live Translate, mô hình âm thanh mới nhất của Google dành cho dịch thuật giọng nói trực tiếp.
Mô hình tự động nhận diện hơn 70 ngôn ngữ, bao gồm cả tiếng Việt và tạo ra giọng nói được dịch một cách mượt mà, tự nhiên, đồng thời giữ được ngữ điệu, nhịp nói và cao độ giọng của người nói. Không giống các hệ thống dịch theo từng lượt hội thoại, vốn phải chờ người nói kết thúc trước khi phản hồi, 3.5 Live Translate liên tục tạo ra bản dịch bằng giọng nói, cân bằng giữa việc chờ thêm ngữ cảnh để cải thiện chất lượng dịch và dịch ngay lập tức để duy trì sự đồng bộ với người nói. Mô hình mang đến trải nghiệm âm thanh liền mạch, không có những khoảng ngắt quãng gượng gạo và chỉ chậm hơn người nói vài giây trong suốt cuộc trò chuyện.
Gemini 3.5 Live Translate bắt đầu được triển khai từ hôm nay trên các sản phẩm của Google:
Gemini 3.5 Live Translate xử lý giọng nói theo thời gian thực ngay trong quá trình truyền tải, giúp tạo nên sự kết nối liền mạch hơn giữa các ngôn ngữ. Mô hình có thể xử lý đầu vào đa ngôn ngữ mà không cần cấu hình thủ công. Đồng thời, khả năng chống nhiễu mạnh mẽ giúp các ứng dụng hoạt động hiệu quả trong những môi trường ồn ào và khó kiểm soát. Bạn có thể tận dụng những khả năng này để hỗ trợ phiên dịch trực tiếp cho các cuộc gọi, cuộc họp, lớp học và chương trình phát sóng đa ngôn ngữ, cùng nhiều tình huống khác.
Thông qua việc sử dụng Gemini Live API, các nền tảng dành cho nhà phát triển như Agora, Fishjam, LiveKit, Pipecat và Vision Agents giúp các nhà phát triển dễ dàng xây dựng và triển khai các ứng dụng dịch giọng nói. Các tích hợp này đảm nhiệm phần hạ tầng truyền tải dữ liệu đa phương tiện theo thời gian thực vốn phức tạp, cho phép các nhà phát triển tập trung vào việc xây dựng trải nghiệm người dùng.
Các đối tác của chúng tôi tại Grab đang thử nghiệm mô hình này nhằm hỗ trợ giao tiếp đa ngôn ngữ gần như theo thời gian thực giữa tài xế và hành khách tại điểm đón. Hiện mỗi tháng, tài xế và hành khách thực hiện hơn 10 triệu cuộc gọi thoại thông qua nền tảng Grab.
Những phản hồi đầu tiên
Bên cạnh Grab, các công ty như CJ ENM, LiveKit cùng nhiều đơn vị khác cũng đã chia sẻ những phản hồi tích cực về 3.5 Live Translate, trong đó nhấn mạnh chất lượng dịch thuật ấn tượng, độ chính xác cao và độ trễ thấp của mô hình này:
“Trong quá trình thử nghiệm Gemini 3.5 Live Translate, chúng tôi đánh giá cao khả năng tự động nhận diện nhiều ngôn ngữ và dịch giọng nói một cách chính xác với độ trễ thấp của mô hình này.” - Philipp Kandal, Giám đốc Sản phẩm tại Grab
"CJ ENM rất hào hứng được hợp tác với Google DeepMind trong dự án 3.5 Live Translate. Các thử nghiệm ban đầu cho thấy chất lượng đầy hứa hẹn, góp phần mang lại trải nghiệm chân thực hơn cho khán giả toàn cầu và khán giả Hàn Quốc." - Bella Baek, Giám đốc AI tại CJ ENM
"Gemini 3.5 Live Translate giúp việc giao tiếp bằng giọng nói giữa nhiều ngôn ngữ trở nên dễ dàng hơn bao giờ hết. Tôi đã xây dựng một bản demo trên LiveKit Agents, nơi mọi người có thể nói ngôn ngữ của riêng mình và vẫn hiểu nhau theo thời gian thực." - Jesse Hall, Chuyên viên Hỗ trợ Nhà Phát triển tại LiveKit
"Trong quá trình làm việc với mô hình 3.5 Live Translate, chúng tôi đã thử nghiệm trên nhiều ngôn ngữ khác nhau và đội ngũ của chúng tôi thực sự ấn tượng trước tốc độ, độ chính xác và sự tự nhiên trong cách thể hiện của mô hình." - Nash Ramdial, Giám đốc tại VisionAgents
"Gemini 3.5 Live Translate kết hợp với giao thức MoQ của Fishjam mở ra một bước tiến mới cho hoạt động truyền phát đa phương tiện theo thời gian thực, cho phép dịch trực tiếp từ giọng nói sang giọng nói trên hơn 70 ngôn ngữ." - Maciej Rys, Phó chủ tịch kỹ thuật tại Software Mansion
"Chúng tôi đã thử nghiệm mô hình Gemini 3.5 Live Translate tại Agora và theo đánh giá của mình, mô hình đã mang lại những kết quả tiên tiến nhất hiện nay, với độ trễ thấp và độ chính xác cao, thiết lập một tiêu chuẩn mới cho dịch thuật theo thời gian thực." - Mason Adams, Chuyên viên Phát triển Phần mềm tại Agora
Trải nghiệm 3.5 Live Translate trong các cuộc họp trực tuyến
Tính năng dịch lời nói trong Google Meet sẽ sớm được ứng dụng mô hình 3.5 Live Translate, giúp nâng cao trải nghiệm người dùng thông qua:
Trải nghiệm 3.5 Live Translate trên ứng dụng Google Translate dành cho Android và iOS
Mô hình này cũng đang được triển khai trên ứng dụng Google Translate trên toàn cầu, áp dụng cho cả hệ điều hành Android và iOS. Khi sử dụng tính năng Dịch trực tiếp (Live translate), bạn chỉ cần kết nối với một cặp tai nghe bất kỳ để trải nghiệm bản dịch mượt mà hơn, đồng thời phản ánh chính xác tông giọng của người nói trên hơn 70 ngôn ngữ.
Đối với người dùng Android, chúng tôi cũng bắt đầu triển khai một “chế độ nghe” (Listening Mode) mới sử dụng 3.5 Live Translate, cho phép người dùng nghe bản dịch trực tiếp qua loa thoại của điện thoại. Chỉ cần đưa điện thoại lên tai như khi thực hiện một cuộc gọi thông thường, âm thanh đã được dịch sẽ được truyền trực tiếp đến bạn. Trải nghiệm mới này đặc biệt hữu ích trong những tình huống bạn muốn nhanh chóng nghe bản dịch mà không để người khác nghe thấy, hoặc khi không có sẵn tai nghe bên mình.
Được tích hợp ký hiệu mờ (watermark) bằng SynthID
Tất cả âm thanh do các mô hình của chúng tôi tạo ra đều được gắn watermark bằng SynthID. Watermark vô hình này được tích hợp trực tiếp vào đầu ra âm thanh, giúp nội dung do AI tạo ra vẫn có thể được nhận diện, qua đó góp phần ngăn chặn thông tin sai lệch. Để tìm hiểu thêm về cách tiếp cận của chúng tôi đối với vấn đề an toàn và trách nhiệm, vui lòng tham khảo thẻ thông tin mô hình.
Xem Video của Grab về mô phỏng tính năng Gemini 3.5 Live Translate: tại đây.
Gemini 3.5 Live Translate là mô hình âm thanh mới nhất của Google, cung cấp khả năng dịch giọng nói trực tiếp gần như tức thời trên hơn 70 ngôn ngữ, bao gồm tiếng Việt.
Hai mươi năm trước, dịch thuật tại Google được bắt đầu từ một trong những thử nghiệm tiên phong về học máy của Google, với mục tiêu biến khoa học ngôn ngữ thành phép màu của sự kết nối con người. Hai thập kỷ sau, thử nghiệm đó đã đạt được những bước tiến dài, với hơn một nghìn tỷ từ được dịch mỗi tháng cho hàng tỷ người dùng trên các sản phẩm của Google.
Hôm nay, Google tiếp tục tiến thêm một bước với việc ra mắt Gemini 3.5 Live Translate, mô hình âm thanh mới nhất của Google dành cho dịch thuật giọng nói trực tiếp.
Mô hình tự động nhận diện hơn 70 ngôn ngữ, bao gồm cả tiếng Việt và tạo ra giọng nói được dịch một cách mượt mà, tự nhiên, đồng thời giữ được ngữ điệu, nhịp nói và cao độ giọng của người nói. Không giống các hệ thống dịch theo từng lượt hội thoại, vốn phải chờ người nói kết thúc trước khi phản hồi, 3.5 Live Translate liên tục tạo ra bản dịch bằng giọng nói, cân bằng giữa việc chờ thêm ngữ cảnh để cải thiện chất lượng dịch và dịch ngay lập tức để duy trì sự đồng bộ với người nói. Mô hình mang đến trải nghiệm âm thanh liền mạch, không có những khoảng ngắt quãng gượng gạo và chỉ chậm hơn người nói vài giây trong suốt cuộc trò chuyện.
Gemini 3.5 Live Translate bắt đầu được triển khai từ hôm nay trên các sản phẩm của Google:
- Dành cho các nhà phát triển dưới dạng bản xem trước công khai thông qua Gemini Live API và Google AI Studio
- Dành cho doanh nghiệp dưới dạng bản dùng thử riêng tư bắt đầu từ tháng này trên Google Meet
Gemini 3.5 Live Translate xử lý giọng nói theo thời gian thực ngay trong quá trình truyền tải, giúp tạo nên sự kết nối liền mạch hơn giữa các ngôn ngữ. Mô hình có thể xử lý đầu vào đa ngôn ngữ mà không cần cấu hình thủ công. Đồng thời, khả năng chống nhiễu mạnh mẽ giúp các ứng dụng hoạt động hiệu quả trong những môi trường ồn ào và khó kiểm soát. Bạn có thể tận dụng những khả năng này để hỗ trợ phiên dịch trực tiếp cho các cuộc gọi, cuộc họp, lớp học và chương trình phát sóng đa ngôn ngữ, cùng nhiều tình huống khác.
Thông qua việc sử dụng Gemini Live API, các nền tảng dành cho nhà phát triển như Agora, Fishjam, LiveKit, Pipecat và Vision Agents giúp các nhà phát triển dễ dàng xây dựng và triển khai các ứng dụng dịch giọng nói. Các tích hợp này đảm nhiệm phần hạ tầng truyền tải dữ liệu đa phương tiện theo thời gian thực vốn phức tạp, cho phép các nhà phát triển tập trung vào việc xây dựng trải nghiệm người dùng.
Các đối tác của chúng tôi tại Grab đang thử nghiệm mô hình này nhằm hỗ trợ giao tiếp đa ngôn ngữ gần như theo thời gian thực giữa tài xế và hành khách tại điểm đón. Hiện mỗi tháng, tài xế và hành khách thực hiện hơn 10 triệu cuộc gọi thoại thông qua nền tảng Grab.
Những phản hồi đầu tiên
Bên cạnh Grab, các công ty như CJ ENM, LiveKit cùng nhiều đơn vị khác cũng đã chia sẻ những phản hồi tích cực về 3.5 Live Translate, trong đó nhấn mạnh chất lượng dịch thuật ấn tượng, độ chính xác cao và độ trễ thấp của mô hình này:
“Trong quá trình thử nghiệm Gemini 3.5 Live Translate, chúng tôi đánh giá cao khả năng tự động nhận diện nhiều ngôn ngữ và dịch giọng nói một cách chính xác với độ trễ thấp của mô hình này.” - Philipp Kandal, Giám đốc Sản phẩm tại Grab
"CJ ENM rất hào hứng được hợp tác với Google DeepMind trong dự án 3.5 Live Translate. Các thử nghiệm ban đầu cho thấy chất lượng đầy hứa hẹn, góp phần mang lại trải nghiệm chân thực hơn cho khán giả toàn cầu và khán giả Hàn Quốc." - Bella Baek, Giám đốc AI tại CJ ENM
"Gemini 3.5 Live Translate giúp việc giao tiếp bằng giọng nói giữa nhiều ngôn ngữ trở nên dễ dàng hơn bao giờ hết. Tôi đã xây dựng một bản demo trên LiveKit Agents, nơi mọi người có thể nói ngôn ngữ của riêng mình và vẫn hiểu nhau theo thời gian thực." - Jesse Hall, Chuyên viên Hỗ trợ Nhà Phát triển tại LiveKit
"Trong quá trình làm việc với mô hình 3.5 Live Translate, chúng tôi đã thử nghiệm trên nhiều ngôn ngữ khác nhau và đội ngũ của chúng tôi thực sự ấn tượng trước tốc độ, độ chính xác và sự tự nhiên trong cách thể hiện của mô hình." - Nash Ramdial, Giám đốc tại VisionAgents
"Gemini 3.5 Live Translate kết hợp với giao thức MoQ của Fishjam mở ra một bước tiến mới cho hoạt động truyền phát đa phương tiện theo thời gian thực, cho phép dịch trực tiếp từ giọng nói sang giọng nói trên hơn 70 ngôn ngữ." - Maciej Rys, Phó chủ tịch kỹ thuật tại Software Mansion
"Chúng tôi đã thử nghiệm mô hình Gemini 3.5 Live Translate tại Agora và theo đánh giá của mình, mô hình đã mang lại những kết quả tiên tiến nhất hiện nay, với độ trễ thấp và độ chính xác cao, thiết lập một tiêu chuẩn mới cho dịch thuật theo thời gian thực." - Mason Adams, Chuyên viên Phát triển Phần mềm tại Agora
Trải nghiệm 3.5 Live Translate trong các cuộc họp trực tuyến
Tính năng dịch lời nói trong Google Meet sẽ sớm được ứng dụng mô hình 3.5 Live Translate, giúp nâng cao trải nghiệm người dùng thông qua:
- Hỗ trợ hơn 70 ngôn ngữ, một bước cải tiến lớn so với giới hạn chỉ 5 ngôn ngữ trước đây
- Cho phép trò chuyện qua lại giữa hơn 2.000 cặp tổ hợp ngôn ngữ khác nhau ngay trong một cuộc họp, mở rộng đáng kể so với trước đây khi chỉ hỗ trợ dịch qua lại giữa tiếng Anh và các ngôn ngữ khác
- Cập nhật giao diện mới giúp người dùng dễ dàng tiếp cận và sử dụng ngay tính năng dịch lời nói một cách tức thì.
Trải nghiệm 3.5 Live Translate trên ứng dụng Google Translate dành cho Android và iOS
Mô hình này cũng đang được triển khai trên ứng dụng Google Translate trên toàn cầu, áp dụng cho cả hệ điều hành Android và iOS. Khi sử dụng tính năng Dịch trực tiếp (Live translate), bạn chỉ cần kết nối với một cặp tai nghe bất kỳ để trải nghiệm bản dịch mượt mà hơn, đồng thời phản ánh chính xác tông giọng của người nói trên hơn 70 ngôn ngữ.
Đối với người dùng Android, chúng tôi cũng bắt đầu triển khai một “chế độ nghe” (Listening Mode) mới sử dụng 3.5 Live Translate, cho phép người dùng nghe bản dịch trực tiếp qua loa thoại của điện thoại. Chỉ cần đưa điện thoại lên tai như khi thực hiện một cuộc gọi thông thường, âm thanh đã được dịch sẽ được truyền trực tiếp đến bạn. Trải nghiệm mới này đặc biệt hữu ích trong những tình huống bạn muốn nhanh chóng nghe bản dịch mà không để người khác nghe thấy, hoặc khi không có sẵn tai nghe bên mình.
Được tích hợp ký hiệu mờ (watermark) bằng SynthID
Tất cả âm thanh do các mô hình của chúng tôi tạo ra đều được gắn watermark bằng SynthID. Watermark vô hình này được tích hợp trực tiếp vào đầu ra âm thanh, giúp nội dung do AI tạo ra vẫn có thể được nhận diện, qua đó góp phần ngăn chặn thông tin sai lệch. Để tìm hiểu thêm về cách tiếp cận của chúng tôi đối với vấn đề an toàn và trách nhiệm, vui lòng tham khảo thẻ thông tin mô hình.
Xem Video của Grab về mô phỏng tính năng Gemini 3.5 Live Translate: tại đây.
Thứ Ba, 21 tháng 4, 2026
Tính năng Trí thông minh cá nhân cho người dùng Gemini đã có tại Việt Nam
Cách đây 2 tháng, tui có đăng bài của Google giới thiệu về Trí tuệ cá nhân (Personal Intelligence) trên Gemini. Khi ấy Personal Intelligence mới được triển khai tại Mỹ chớ chưa có tại Việt Nam. Nay (15/4/2026) tính năng này đã được triển khai tại Việt Nam, tui đã thử và thấy cực kỳ thú vị nên đăng bài giới thiệu của Google để mọi người cùng tham khảo.
Google chính thức triển khai tính năng
Trí thông minh cá nhân
cho người dùng Gemini tại Việt Nam
Đầu năm nay, chúng tôi đã giới thiệu tính năng Trí thông minh cá nhân (Personal Intelligence) tại Hoa Kỳ, cho thấy cách Gemini giúp cuộc sống trở nên dễ dàng hơn bằng việc thấu hiểu những điều bạn quan tâm nhất. Hôm nay, chúng tôi chính thức mang trải nghiệm cá nhân hóa này đến với người dùng tại Việt Nam.
Thứ Sáu, 17 tháng 4, 2026
Ông già và biển cả
Ở đây không phải nhắc đến The Old Man and the Sea của nhà văn Hemingway, mà muốn nói đến tình cảnh của những nguòi già đang ngụp lặn (và có khả năng... chết chìm) trong biển cả những ứng dụng công nghệ số đang vây quanh mình.
Một báo cáo khá lạc quan của Việt Nam cho biết: Tính đến đầu năm 2026, nhóm người trên 60 tuổi không còn đứng ngoài cuộc chơi công nghệ mà đã trở thành một phần quan trọng của "dòng chảy số". Tỷ lệ tiếp cận tăng cao với khoảng 9,8% người dùng Internet tại Việt Nam thuộc nhóm trên 65 tuổi.
Một báo cáo khá lạc quan của Việt Nam cho biết: Tính đến đầu năm 2026, nhóm người trên 60 tuổi không còn đứng ngoài cuộc chơi công nghệ mà đã trở thành một phần quan trọng của "dòng chảy số". Tỷ lệ tiếp cận tăng cao với khoảng 9,8% người dùng Internet tại Việt Nam thuộc nhóm trên 65 tuổi.
Thứ Hai, 13 tháng 4, 2026
Google Finance phiên bản mới được hỗ trợ bởi AI mở rộng đến hơn 100 quốc gia, bao gồm Việt Nam
Ngày 9/4/2026 Google Finance phiên bản mới, được hỗ trợ bởi AI sẽ được dần triển khai trên toàn cầu. Trong những tuần tới, chúng tôi sẽ triển khai trải nghiệm này đến hơn 100 quốc gia — bao gồm Việt Nam cùng các thị trường như Úc, Brazil, Canada, Indonesia, Nhật Bản, Mexico và nhiều quốc gia khác.
Thứ Tư, 1 tháng 4, 2026
Qua lại giữa Gemini và ChatGPT
Vài bữa trước, tui có đăng bài của Google là Mang những ký ức AI và lịch sử trò chuyện của bạn sang Gemini. Mặc dù là bài viết chính chủ, nhưng có lẽ quá ngắn gọn và nhất là mang tính tổng quát hóa dùng cho toàn cầu nên hơi khô khan và khó hiểu khi đọc ở Việt Nam. Nay tui viết lại nội dung đó theo cách hiểu bình dân của mình, hy vọng là dễ hiểu và dễ áp dụng hơn.
Thứ Ba, 31 tháng 3, 2026
Mang những ký ức AI và lịch sử trò chuyện của bạn sang Gemini
Những cuộc trò chuyện của chúng ta với mấy đứa AI như ChatGPT hay Gemini thường được cá nhân hóa, bọn nó ghi nhớ những điều ta đã hỏi, đã nói để từ đó có cách ứng xử, trả lời phù hợp hơn. Thí dụ như có lần ta cho nó đọc để phân tích kết quả xét nghiệm máu của mình, thế là từ đó nó biết được tuổi tác, bịnh tật của ta và ghi nhớ những điều đó để từ đó về sau khi ta nói chuyện với nó nó sẽ lưu ý ta những vấn đề kiêng cữ (dù lần sau ta không cần nhắc nó về tiền sử bịnh của mình). Hoặc là qua những lần trò chuyện với nó, nó biết được bạn bè, người yêu của ta là ai, tính tình thế nào, thế là những lần sau khi có dịp nhắc tới những người ấy thì nó nhớ ngay những người ấy tính tình ra sao để khuyên ta ứng xử hợp lý nhất.
Ta thường xài không chỉ một mà tới vài thằng trợ lý AI. Thí dụ, ChatGPT và Gemini. Như vậy sẽ có những điều ta nói với ChatGPT mà không nói với Gemini và ngược lại. Nghĩa là ChatGPT hiểu ta theo một cách, còn Gemini hiểu ta theo cách khác. Do đó, khi ta nói chuyện với Gemini mà nhắc tới thằng Tèo (trong khi trước đó ta chỉ nói tới thằng Tèo với ChatGPT mà thôi) thì Gemini nó đâu biết Tèo là thằng nào vì mới nghe lần đầu.
Bài viết của Maryam Sanglaji, Trưởng nhóm sản phẩm, ứng dụng Gemini, đăng ngày 26/3/2026 trên Google Blog, giới thiệu về tính năng đó và hướng dẫn cách sử dụng (nếu thích).
Ta thường xài không chỉ một mà tới vài thằng trợ lý AI. Thí dụ, ChatGPT và Gemini. Như vậy sẽ có những điều ta nói với ChatGPT mà không nói với Gemini và ngược lại. Nghĩa là ChatGPT hiểu ta theo một cách, còn Gemini hiểu ta theo cách khác. Do đó, khi ta nói chuyện với Gemini mà nhắc tới thằng Tèo (trong khi trước đó ta chỉ nói tới thằng Tèo với ChatGPT mà thôi) thì Gemini nó đâu biết Tèo là thằng nào vì mới nghe lần đầu.
Hiện nay, Gemini vừa đưa ra tính năng mới, cho phép ta lấy hết toàn bộ ký ức AI và lịch sử trò chuyện của mình với một trợ lý AI khác, chuyển qua cho nó. Nhờ đó, cuộc nói chuyện của ta với Gemini sẽ mang tính cá nhân cao hơn, vì nó hiểu về ta nhiều hơn.
Bài viết của Maryam Sanglaji, Trưởng nhóm sản phẩm, ứng dụng Gemini, đăng ngày 26/3/2026 trên Google Blog, giới thiệu về tính năng đó và hướng dẫn cách sử dụng (nếu thích).
Phạm Hoài Nhân
Đăng ký:
Bài đăng (Atom)





