Thứ Hai, 13 tháng 3, 2017

Google dịch có bước cải tiến lớn

Ra đời đã hơn 10 năm, Google dịch (Google Translate) đã giúp cho người sử dụng rất nhiều trong việc hiểu các văn bản tiếng nước ngoài. Bên cạnh đó, người dùng không khỏi bật cười trước những lỗi dịch hết sức ngô nghê của Google Translate, đến nỗi khi nào gặp một bản dịch lủng củng người ta lại mỉa mai: Chắc là lại nhờ Google dịch rồi! Mới đây, thông tin từ Google cho biết họ đang đưa vào công nghệ dịch mới, đạt độ chính xác cao hơn nhiều.

Thông tin từ Google

Ngày 6-3-17, nhà lãnh đạo sản phẩm Google Translate Barak Turovsky đã đang trên Blog Google thông tin như sau:

“Tháng 11 vừa qua, người dân sống ở các nước từ Brazil đến Thổ Nhĩ Kì và Nhật Bản nhận ra bản dịch ngôn ngữ của họ qua ứng dụng Google Translate (Google Dịch) bỗng dưng chính xác và dễ hiểu hơn. Nguyên nhân chính là vì Google đã áp dụng công nghệ Trí Thông Minh Nhân Tạo cho ứng dụng dịch thuật  (neural machine translation) cho tất cả 8 ngôn ngữ. Trong vòng vài tuần tới, những cải tiến dịch thuật này sẽ xuất hiện trên Google Translate và áp dụng cho nhiều ngôn ngữ hơn, bắt đầu từ tiếng Nga, tiếng Ba Lan, tiếng Thái, tiếng Việt. tiếng Hindi...

Dịch thuật bằng trí thông minh nhân tạo mang lại kết quả tốt hơn rất nhiều so với công nghệ dịch dựa vào cụm từ trước đây của Google Translate. Trí thông minh nhân tạo sẽ dịch toàn bộ câu văn cùng một lúc, thay vì dịch từng đoạn như trước đây. Đồng thời, trí thông minh nhân tạo sẽ khiến nội dung dịch trở nên chính xác và gần gũi hơn với ngôn ngữ hàng ngày của con người.

Lý do khiến chúng tôi vô cùng hào hứng và nhanh chóng áp dụng công nghệ tiên tiến này cho nhiều ngôn ngữ hơn là nó hoạt động tốt hơn hẳn khi học hỏi nhiều ngôn ngữ cùng một thời điểm. Nó có thể sử dụng các điểm tương đồng được tìm thấy giữa nhiều cặp ngôn ngữ khác nhau để tạo ra các phán đoán chính xác hơn trong trường hợp không có nhiều dữ liệu hay thông tin chi tiết để tham khảo.

Chúng tôi cũng nhận thấy công nghệ này không chỉ phát huy tác dụng cho các nhóm ngôn ngữ có mối liên hệ với nhau, chẳng hạn với 4 ngôn ngữ thuộc nhóm Dravidian mà chúng tôi từng thử nghiệm (ngôn ngữ nói sử dụng trong các gia đình phía nam, phía đông, miền trung Ấn Độ và các nước như Đông Bắc Sri Lanka, Tây Nam Pakistan, Afghanistan, Nepal, Bangladesh hay Bhutan…) mà còn với các loại ngôn ngữ không liên quan đến nhau, chẳng hạn với mô hình mà chúng tôi thử nghiệm với tiếng Ba Lan, tiếng Thái và tiếng Việt.

Dù công nghệ cỗ máy dịch thuật bằng trí thông minh nhân tạo là một bước tiến đột phá của Google Translate, vẫn còn rất nhiều việc phía trước phải làm. Chúng tôi sẽ tiếp tục nhờ cậy vào Cộng đồng Dịch thuật, những người có thể giúp chia sẻ các hiểu biết ngôn ngữ của mình bằng cách đóng góp và xem xét lại các nội dung dịch.

Chúng tôi sẽ áp dụng công nghệ dịch thuật bằng trí thông mình nhân tạo cho nhiều ngôn ngữ hơn trong vài tuần tới, nhằm giúp các nội dung dịch trở nên mượt mà và suôn sẻ hơn.”

Ví dụ minh họa

Sau đây là một ví dụ minh họa do Google đưa ra, với nguyên bản là một đoạn văn tiếng Pháp trong tác phẩm Hoàng tử Bé của Saint Exupéry, được dịch sang tiếng Anh
Nguyên bản tiếng Pháp:

Il y avait toujours eu, sur la planète du petit prince, des fleurs très simples, ornées d'un seul rang de pétales, et qui ne tenaient point de place, et qui ne dérangeaient personne.

Máy dịch sang tiếng Anh bằng Google Translate theo công nghệ cũ:

He had always been, on the planet of the little prince, very simple flowers, decorated with a single row of petals, and who held no place, and that bothered no one.

Máy dịch sang tiếng Anh bằng Google Translate theo công nghệ mới:

There had always been, on the planet of the little prince, very simple flowers, adorned with a single row of petals, which held no place, and did not disturb anyone.

Bản dịch của Con Người:
On the little prince's planet the flowers had always been very simple. They had only one ring of petals; they took up no room at all; they were a trouble to nobody.

Có thể thấy là bản dịch do máy dịch theo công nghệ mới (áp dụng Trí tuệ Nhân tạo) đã tốt hơn rất nhiều, nhưng vẫn chưa thể mượt mà như Người dịch.

Tiếc rằng cho đến nay chưa có phiên bản Google Translate dịch ra tiếng Việt theo công nghệ mới nên chưa thể so sánh xem đã tốt hơn đến mức nào. Dù vậy, ta hãy thử xem câu văn trên được Google dịch (theo công nghệ hiện tại) ra tiếng Việt như thế nào. Bản dịch như sau:

Hiện đã luôn luôn, trên hành tinh của hoàng tử nhỏ, rất đơn giản, được trang trí với một hàng duy nhất của các cánh hoa, Hoa và đó đang nắm giữ chỉ ra, và người làm phiền không có ai.

Thật là lủng củng và hơi vô nghĩa. Đúng ra phải dịch là:

Trên hành tinh của Hoàng tử Bé, những bông hoa luôn rất đơn giản, được điểm tô chỉ với một vòng cánh hoa, chiếm chẳng bao nhiêu chỗ và chẳng làm phiền đến ai.

Một ví dụ khác: Hiện giờ nếu ta đưa vào cụm từ Năm Giáp Thân thì Google sẽ dịch là… In Body Armor (Body là thân thể, Armor là áo giáp) chứ không hiểu Giáp Thân là một năm âm lịch. Khi áp dụng công nghệ mới, Google sẽ xem xét trong toàn cảnh câu văn để suy luận trước khi dịch và sẽ phán đoán được ý nghĩa để khỏi dịch sai.

Một ví dụ khác về dịch sai: “Quý” trong Quý Mùi dịch sai thành quarter (quý = 3 tháng), “mất” đáng lẽ phải dịch là die/dead (chết) thì dịch là loss (mất mát).

Hiệu quả tới đâu?

Các nhà khoa học ở Google đã dùng các phép đo – thử để xác định độ chính xác dịch thuật và cho ra mô hình sau:


Biểu đồ thể hiện chất lượng dịch của các phương pháp: Dịch theo cụm từ (PBMT, phrase-based, là phương pháp dịch hiện nay của Google), Dịch bằng Trí tuệ Nhân tạo (GNMT, neural, công nghệ dịch mới của Google) và Người dịch (human). Phép đo thực hiện với các cặp ngôn ngữ: dịch từ Anh sang Tây Ban Nha, Anh sang Pháp, Anh sang Hoa và ngược lại. Mức 6 là mức dịch hoàn hảo tuyệt đối. Xem xeet tổng quan, so với công nghệ cũ (PBMT) thì công nghệ mới (GNMT) có nhiều tiến bộ hơn nhưng vẫn còn khoảng cách về chất lượng so với bản dịch của con người. Ngoài ra, tùy theo cặp ngôn ngữ mà chất lượng dịch cao hay thấp; cặp ngôn ngữ Anh – Hoa, Hoa – Anh có chất lượng dịch thấp nhất, kể cả khi Người dịch.

Theo thông báo của Google những cải tiến dịch thuật này sẽ xuất hiện trên Google Translate và áp dụng cho nhiều ngôn ngữ hơn, bắt đầu từ tiếng Nga, tiếng Ba Lan, tiếng Thái, tiếng Việt. tiếng Hindi... Như vậy trong thời gian ngắn nữa ta sẽ có dịp kiểm chứng những bản dịch từ ngôn ngữ khác sang tiếng Việt và ngược lại tốt hơn hiện nay như thế nào.


Phạm Hoài Nhân
LĐĐN - 13/03/2017

Không có nhận xét nào:

Đăng nhận xét