Google có lẽ là công ty đầu tiên đưa ra ứng dụng dịch tự động (hay còn gọi là dịch máy, machine translation) để phục vụ miễn phí cho người dùng, đó là ứng dụng Google Dịch (Google Translation). Đây cũng là ứng dụng bị người ta nhạo báng rất nhiều vì sự kém chính xác của nó, đến nỗi thấy nơi đâu có những cụm từ tiếng Anh rất ngô nghê là người ta mỉa mai ngay: Chắc là dùng Google Dịch rồi!
Dịch máy, chuyện không hề đơn giản
Dịch máy (machine translation, thường được viết tắt là MT)
là một hướng ứng dụng trí tuệ nhân tạo, nó là sự kết hợp giữa ngôn ngữ, dịch thuật
và khoa học máy tính. MT thực hiện dịch một ngôn ngữ này (gọi là ngôn ngữ
nguồn) sang một hoặc nhiều ngôn ngữ khác (gọi là ngôn ngữ đích) một cách tự
động, không có sự can thiệp của con người trong quá trình dịch. MT không đơn giản
là tra từ điển để dịch từng từ, vì như thế nó sẽ dễ dàng dịch “không sao đâu”
thành “no star where”, hay “miễn bàn” thành “no table”. Ngay
cả khi chỉ dịch một từ thôi cũng chưa chắc đã đúng. Ví dụ: đường có thể
dịch là way, road, line… mà cũng có thể dịch là sugar!
Công việc của MT không chỉ là dịch từng từ mà là dịch từng câu,
từng đoạn. Vì vậy, sau khi tìm hiểu các nghĩa có thể của từng từ, nó phải dựa
theo ngữ cảnh để chọn nghĩa phù hợp nhất của từ trong ngữ cảnh đó (trong trường
hợp từ có nhiều nghĩa). Sau đó phải căn cứ theo quy luật ngữ pháp để bố trí các
từ trong câu sao cho hợp lý (chú ý rằng mỗi ngôn ngữ lại có một quy luật ngữ pháp
khác nhau).
Tất cả các công đoạn trên đều cần đến trí tuệ nhân tạo, mà
quả thật ngay cả con người cũng chưa chắc là thực hiện tốt. Điều khác nhau là ở
chỗ nếu con người bí thì sẽ bỏ cuộc, không dịch nữa, còn MT thì dù có bị sai sót
trong từng khâu thì vẫn không biết và cứ thế mà đưa ra kết quả khiến người đọc
buồn cười!
Chính Google Dịch đã thường xuyên rơi vào tình trạng đó
và việc bị người ta chê cười, nhạo báng là… tất nhiên. Tuy nhiên, một cách khách
quan mà nhận xét thì so với lúc mới ra đời Google Dịch đã có những tiến bộ vượt
bậc, các bản dịch hiện nay đã khá mượt mà và trôi chảy.
Google Dịch đã làm như thế nào?
Google Dịch là dịch vụ miễn phí của Google dịch nhanh các
từ, cụm từ và trang web giữa tiếng Việt và hơn 100 ngôn ngữ khác. Dịch vụ này được
triển khai từ tháng 4-2006, dùng trên web bằng cách truy cập http://translate.google.com. Google Dịch
được cung cấp với dạng app trên Android vào tháng 1-2010 và trên iOS vào tháng
2-2011.
Google Dịch không thực hiện phương pháp dịch như trình tự lý
thuyết nêu ở trên (dịch nghĩa từng từ, chọn nghĩa phù hợp nhất của từ trong ngữ
cảnh, căn cứ theo quy luật ngữ pháp để bố trí các từ trong câu sao cho hợp lý)
mà nó tiếp cận theo một phương pháp khác, gọi là dịch máy thống kê
(Statistical Machine Translation, SMT). Theo phương pháp này, Google nhập hàng trăm
triệu tài liệu đã được con người dịch sẵn, khi có một câu cần dịch nó sẽ đối chiếu
với các cặp câu dịch sẵn đã có, thông qua một số phân tích và dự đoán (nếu không
có cặp câu hoàn toàn khớp) để chọn kết quả phù hợp. Từ năm 2005, Google đã lưu
trữ sẵn khoảng 200 tỷ từ gồm các tài liệu của Liên hiệp quốc đã được dịch ra
nhiều thứ tiếng khác nhau để làm kho dữ liệu dịch ban đầu. Google Dịch (và những
phần mềm dịch khác) cũng đã lưu trữ hàng trăm triệu tài liệu được con người dịch
sẵn để áp dụng phương pháp SMT này. Nhược điểm của phương pháp này là thay vì
dịch trực tiếp từ ngôn ngữ nguồn sang ngôn ngữ đích, nó phải dịch sang ngôn ngữ
trung gian là tiếng Anh. Ngoài ra SMT sử dụng các thuật toán tiên đoán để dịch
văn bản, nên nó có độ chính xác ngữ pháp kém.
Tháng 11-2016, Google cho biết Google Dịch sẽ chuyển sang
một công cụ dịch máy mô phỏng dây thần kinh (Google Neural Machine Translation,
GNMT), theo đó công cụ này sẽ “dịch toàn bộ câu tại một thời điểm, chứ không
phải từng mảnh một. Nó sử dụng ngữ cảnh rộng hơn này để giúp nó tìm ra bản dịch
phù hợp nhất, sau đó nó sắp xếp lại và điều chỉnh để giống như một người nói
với ngữ pháp thích hợp hơn”. Kể từ đó, chất lượng dịch của Google Dịch tốt hơn
hẳn. Điều đáng chú ý là GNMT do một người Việt Nam đóng vai trò phát triển chủ
chốt, đó là chàng trai gốc Huế - tiến sĩ Lê Viết Quốc.
Theo Google, tại thời điểm năm 2018, Google Dịch dịch được
100 tỷ từ mỗi ngày. Hiện nay Google Dịch hỗ trợ 103 ngôn ngữ.
Nỗ lực của Facebook để vượt qua Google trong lĩnh vực dịch
máy
Không có ứng dụng độc lập như Google, nhưng Facebook cũng có
chức năng dịch tự động để hỗ trợ người dùng. Cụ thể là khi bạn xem trên trang
Facebook của mình (Facebook News Feed), nếu có những câu viết bằng tiếng nước
ngoài thì Facebook hiện ngay bên cạnh là phần chọn Xem bản dịch để nó sẽ
tự động dịch ra tiếng Việt cho bạn.
Theo Facebook, hiện nay mỗi ngày họ cung cấp 20 tỷ bản dịch
trên Facebook News Feed. Trên Facebook mọi người đăng nội dung bằng 160 ngôn ngữ
khác nhau trên hàng tỷ bài viết, trong số đó 2/3 không phải là tiếng Anh. Chính
vì vậy, việc dịch từ ngôn ngữ nguồn sang ngôn ngữ đích mà lại phải thông qua ngôn
ngữ trung gian là tiếng Anh như hầu hết các nơi đều làm sẽ ảnh hưởng rất lớn đến
tính chính xác của nội dung.
Mới đây, ngày 19-10-2020, bộ phận Trí tuệ nhân tạo của
Facebook (Facebook AI) đã giới thiệu M2M-100, mô hình dịch máy đa ngôn ngữ (Multilingual
Machine Translation, MMT) đầu tiên có thể dịch giữa bất kỳ cặp 100 ngôn ngữ nào
mà không cần dựa vào dữ liệu tiếng Anh.
Khi dịch từ tiếng Nhật sang tiếng Việt chẳng hạn, hầu hết
các mô hình đa ngôn ngữ đều lấy tiếng Anh làm trung tâm vì dữ liệu đào tạo
tiếng Anh là phổ biến nhất, nên nó sẽ dịch từ Nhật sang Anh rồi mới dịch từ Anh
sang Việt. Mô hình mới của Facebook dịch trực tiếp dữ liệu từ tiếng Nhật sang
tiếng Việt để giữ nội dung chính xác hơn.
Sự kiện quan trọng này là đỉnh cao nhiều năm nghiên cứu căn
bản của Facebook AI trong lĩnh vực dịch máy. Facebook đang chia sẻ chi tiết về
cách họ xây dựng mô hình và tập dữ liệu đào tạo MMT đa dạng hơn cho 100 ngôn
ngữ. Facebook cũng đang phát hành mô hình, đào tạo và đánh giá để giúp các nhà
nghiên cứu khác tái tạo và nâng cao hơn nữa các mô hình đa ngôn ngữ.
Khối lượng dữ liệu cần thiết để “huấn luyện” cho máy tăng
lên theo bậc hai với số lượng ngôn ngữ được hỗ trợ. Ví dụ: nếu chúng ta cần 10
triệu cặp câu cho mỗi hướng (ví dụ hướng Việt – Nhật, Hàn – Pháp…), thì cần
khai thác 1 tỷ cặp câu cho 10 ngôn ngữ và 100 tỷ cặp câu cho 100 ngôn ngữ. Bằng
cách sử dụng các chiến lược khai thác mới để tạo dữ liệu dịch, Facebook đã xây
dựng tập dữ liệu thực sự “nhiều - nhiều” đầu tiên với 7,5 tỷ câu cho 100 ngôn
ngữ. Tất cả các tài nguyên khai thác dữ liệu này đều tận dụng dữ liệu có sẵn
công khai và có nguồn mở.
Dịch chưa chuẩn nhưng cũng đã giúp ích rất nhiều
Cho dù là đến nay chúng ta vẫn chưa thể hài lòng hoàn toàn về
chất lượng bản dịch của Google hay Facebook, nhưng phải thừa nhận rằng hiện nay
chất lượng dịch đã hơn hẳn 10 năm trước. Đối với các văn bản dài, gần như không
thể tin tưởng vào bản dịch mà phải cần đến các nhà chuyên môn xem xét hiệu đính,
tuy nhiên dịch máy cũng giúp tiết kiệm một khoản thời gian, công sức tương đối
lớn của nhà chuyên mộn so với phải ngồi đọc và dịch toàn bộ văn bản. Đối với những
câu ngắn, bảng hướng dẫn, chú thích… thì dịch máy quả là trợ thủ đắc lực cho những
trường hợp không biết ngoại ngữ, nhất là những ngoại ngữ không thông dụng như
Thái, Nhật, Hàn…
Phạm Hoài Nhân
Đồng Nai Cuối tuần - 01/11/2020
Không có nhận xét nào:
Đăng nhận xét