Chủ Nhật, 1 tháng 11, 2020

Dịch máy – thành quả và những điều chưa đạt được

Google có lẽ là công ty đầu tiên đưa ra ứng dụng dịch tự động (hay còn gọi là dịch máy, machine translation) để phục vụ miễn phí cho người dùng, đó là ứng dụng Google Dịch (Google Translation). Đây cũng là ứng dụng bị người ta nhạo báng rất nhiều vì sự kém chính xác của nó, đến nỗi thấy nơi đâu có những cụm từ tiếng Anh rất ngô nghê là người ta mỉa mai ngay: Chắc là dùng Google Dịch rồi!


Dùng Google Dịch tích hợp trong Google Lens để chụp ảnh một bìa sách (ảnh 1) và ta có bìa sách dịch sang tiếng Việt (ảnh 2). Thực hiện: PHN

Dịch máy, chuyện không hề đơn giản

Dịch máy (machine translation, thường được viết tắt là MT) là một hướng ứng dụng trí tuệ nhân tạo, nó là sự kết hợp giữa ngôn ngữ, dịch thuật và khoa học máy tính. MT thực hiện dịch một ngôn ngữ này (gọi là ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (gọi là ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch. MT không đơn giản là tra từ điển để dịch từng từ, vì như thế nó sẽ dễ dàng dịch “không sao đâu” thành “no star where”, hay “miễn bàn” thành “no table”. Ngay cả khi chỉ dịch một từ thôi cũng chưa chắc đã đúng. Ví dụ: đường có thể dịch là way, road, line… mà cũng có thể dịch là sugar!

Công việc của MT không chỉ là dịch từng từ mà là dịch từng câu, từng đoạn. Vì vậy, sau khi tìm hiểu các nghĩa có thể của từng từ, nó phải dựa theo ngữ cảnh để chọn nghĩa phù hợp nhất của từ trong ngữ cảnh đó (trong trường hợp từ có nhiều nghĩa). Sau đó phải căn cứ theo quy luật ngữ pháp để bố trí các từ trong câu sao cho hợp lý (chú ý rằng mỗi ngôn ngữ lại có một quy luật ngữ pháp khác nhau).

Tất cả các công đoạn trên đều cần đến trí tuệ nhân tạo, mà quả thật ngay cả con người cũng chưa chắc là thực hiện tốt. Điều khác nhau là ở chỗ nếu con người bí thì sẽ bỏ cuộc, không dịch nữa, còn MT thì dù có bị sai sót trong từng khâu thì vẫn không biết và cứ thế mà đưa ra kết quả khiến người đọc buồn cười!

Chính Google Dịch đã thường xuyên rơi vào tình trạng đó và việc bị người ta chê cười, nhạo báng là… tất nhiên. Tuy nhiên, một cách khách quan mà nhận xét thì so với lúc mới ra đời Google Dịch đã có những tiến bộ vượt bậc, các bản dịch hiện nay đã khá mượt mà và trôi chảy.

Google Dịch đã làm như thế nào?

Google Dịch là dịch vụ miễn phí của Google dịch nhanh các từ, cụm từ và trang web giữa tiếng Việt và hơn 100 ngôn ngữ khác. Dịch vụ này được triển khai từ tháng 4-2006, dùng trên web bằng cách truy cập http://translate.google.com. Google Dịch được cung cấp với dạng app trên Android vào tháng 1-2010 và trên iOS vào tháng 2-2011.

Google Dịch không thực hiện phương pháp dịch như trình tự lý thuyết nêu ở trên (dịch nghĩa từng từ, chọn nghĩa phù hợp nhất của từ trong ngữ cảnh, căn cứ theo quy luật ngữ pháp để bố trí các từ trong câu sao cho hợp lý) mà nó tiếp cận theo một phương pháp khác, gọi là dịch máy thống kê (Statistical Machine Translation, SMT). Theo phương pháp này, Google nhập hàng trăm triệu tài liệu đã được con người dịch sẵn, khi có một câu cần dịch nó sẽ đối chiếu với các cặp câu dịch sẵn đã có, thông qua một số phân tích và dự đoán (nếu không có cặp câu hoàn toàn khớp) để chọn kết quả phù hợp. Từ năm 2005, Google đã lưu trữ sẵn khoảng 200 tỷ từ gồm các tài liệu của Liên hiệp quốc đã được dịch ra nhiều thứ tiếng khác nhau để làm kho dữ liệu dịch ban đầu. Google Dịch (và những phần mềm dịch khác) cũng đã lưu trữ hàng trăm triệu tài liệu được con người dịch sẵn để áp dụng phương pháp SMT này. Nhược điểm của phương pháp này là thay vì dịch trực tiếp từ ngôn ngữ nguồn sang ngôn ngữ đích, nó phải dịch sang ngôn ngữ trung gian là tiếng Anh. Ngoài ra SMT sử dụng các thuật toán tiên đoán để dịch văn bản, nên nó có độ chính xác ngữ pháp kém.

Tháng 11-2016, Google cho biết Google Dịch sẽ chuyển sang một công cụ dịch máy mô phỏng dây thần kinh (Google Neural Machine Translation, GNMT), theo đó công cụ này sẽ “dịch toàn bộ câu tại một thời điểm, chứ không phải từng mảnh một. Nó sử dụng ngữ cảnh rộng hơn này để giúp nó tìm ra bản dịch phù hợp nhất, sau đó nó sắp xếp lại và điều chỉnh để giống như một người nói với ngữ pháp thích hợp hơn”. Kể từ đó, chất lượng dịch của Google Dịch tốt hơn hẳn. Điều đáng chú ý là GNMT do một người Việt Nam đóng vai trò phát triển chủ chốt, đó là chàng trai gốc Huế - tiến sĩ Lê Viết Quốc.

Theo Google, tại thời điểm năm 2018, Google Dịch dịch được 100 tỷ từ mỗi ngày. Hiện nay Google Dịch hỗ trợ 103 ngôn ngữ.

Nỗ lực của Facebook để vượt qua Google trong lĩnh vực dịch máy

Không có ứng dụng độc lập như Google, nhưng Facebook cũng có chức năng dịch tự động để hỗ trợ người dùng. Cụ thể là khi bạn xem trên trang Facebook của mình (Facebook News Feed), nếu có những câu viết bằng tiếng nước ngoài thì Facebook hiện ngay bên cạnh là phần chọn Xem bản dịch để nó sẽ tự động dịch ra tiếng Việt cho bạn.

Trên News Feed của Facebook, khi nhấp vào Xem bản dịch (ảnh 1) thì ta sẽ có ngay kết quả dịch ra tiếng Việt (ảnh 2). Thực hiện: PHN, ảnh chụp màn hình.

Theo Facebook, hiện nay mỗi ngày họ cung cấp 20 tỷ bản dịch trên Facebook News Feed. Trên Facebook mọi người đăng nội dung bằng 160 ngôn ngữ khác nhau trên hàng tỷ bài viết, trong số đó 2/3 không phải là tiếng Anh. Chính vì vậy, việc dịch từ ngôn ngữ nguồn sang ngôn ngữ đích mà lại phải thông qua ngôn ngữ trung gian là tiếng Anh như hầu hết các nơi đều làm sẽ ảnh hưởng rất lớn đến tính chính xác của nội dung.

Mới đây, ngày 19-10-2020, bộ phận Trí tuệ nhân tạo của Facebook (Facebook AI) đã giới thiệu M2M-100, mô hình dịch máy đa ngôn ngữ (Multilingual Machine Translation, MMT) đầu tiên có thể dịch giữa bất kỳ cặp 100 ngôn ngữ nào mà không cần dựa vào dữ liệu tiếng Anh.

Khi dịch từ tiếng Nhật sang tiếng Việt chẳng hạn, hầu hết các mô hình đa ngôn ngữ đều lấy tiếng Anh làm trung tâm vì dữ liệu đào tạo tiếng Anh là phổ biến nhất, nên nó sẽ dịch từ Nhật sang Anh rồi mới dịch từ Anh sang Việt. Mô hình mới của Facebook dịch trực tiếp dữ liệu từ tiếng Nhật sang tiếng Việt để giữ nội dung chính xác hơn.

Sự kiện quan trọng này là đỉnh cao nhiều năm nghiên cứu căn bản của Facebook AI trong lĩnh vực dịch máy. Facebook đang chia sẻ chi tiết về cách họ xây dựng mô hình và tập dữ liệu đào tạo MMT đa dạng hơn cho 100 ngôn ngữ. Facebook cũng đang phát hành mô hình, đào tạo và đánh giá để giúp các nhà nghiên cứu khác tái tạo và nâng cao hơn nữa các mô hình đa ngôn ngữ.

Khối lượng dữ liệu cần thiết để “huấn luyện” cho máy tăng lên theo bậc hai với số lượng ngôn ngữ được hỗ trợ. Ví dụ: nếu chúng ta cần 10 triệu cặp câu cho mỗi hướng (ví dụ hướng Việt – Nhật, Hàn – Pháp…), thì cần khai thác 1 tỷ cặp câu cho 10 ngôn ngữ và 100 tỷ cặp câu cho 100 ngôn ngữ. Bằng cách sử dụng các chiến lược khai thác mới để tạo dữ liệu dịch, Facebook đã xây dựng tập dữ liệu thực sự “nhiều - nhiều” đầu tiên với 7,5 tỷ câu cho 100 ngôn ngữ. Tất cả các tài nguyên khai thác dữ liệu này đều tận dụng dữ liệu có sẵn công khai và có nguồn mở.

Dịch chưa chuẩn nhưng cũng đã giúp ích rất nhiều

Cho dù là đến nay chúng ta vẫn chưa thể hài lòng hoàn toàn về chất lượng bản dịch của Google hay Facebook, nhưng phải thừa nhận rằng hiện nay chất lượng dịch đã hơn hẳn 10 năm trước. Đối với các văn bản dài, gần như không thể tin tưởng vào bản dịch mà phải cần đến các nhà chuyên môn xem xét hiệu đính, tuy nhiên dịch máy cũng giúp tiết kiệm một khoản thời gian, công sức tương đối lớn của nhà chuyên mộn so với phải ngồi đọc và dịch toàn bộ văn bản. Đối với những câu ngắn, bảng hướng dẫn, chú thích… thì dịch máy quả là trợ thủ đắc lực cho những trường hợp không biết ngoại ngữ, nhất là những ngoại ngữ không thông dụng như Thái, Nhật, Hàn…

Phạm Hoài Nhân
Đồng Nai Cuối tuần - 01/11/2020

Không có nhận xét nào:

Đăng nhận xét