Có trên 2,5 tỷ người sử dụng
Facebook, trong đó không ít người khiếm thị. Để giúp những người khiếm thị này
theo dõi được nội dung đăng trên Facebook người ta dùng các ứng dụng đọc màn hình
(screen reader). Ứng dụng này sẽ đọc những dòng status, comment… được đăng trên
Facebook để người khiếm thị nghe. Thế nhưng hình ảnh thì sao? 5 năm qua,
Facebook đã có những nỗ lực nhằm giúp người khiếm thị “xem” được hình ảnh trên
mạng xã hội này.
Khái niệm về văn bản thay thế
Mỗi hình ảnh được tải lên mạng Internet đều có một thuộc tính
là Alt Text – viết tắt của Altenative Text, nghĩa là Văn bản thay thế. Alt Text
là một dòng văn bản ngắn gọn, mô tả sơ về bức ảnh được tải lên đó. Ở buổi ban đầu
của Internet, tốc độ đường truyền rất chậm, việc tải một bức ảnh (vốn có kích
thước file lớn hơn văn bản rất nhiều) lên mạng tốn rất nhiều thời gian, thậm chí
không tải lên được. Khi ấy Alt Text, vốn là văn bản nên sẽ được tải lên nhanh
chóng hơn. Người xem sẽ đọc văn bản ấy để hình dung được về hình ảnh chưa/không
được tải lên là gì.
Những người khiếm thị được hưởng lợi nhờ điều này. Bằng một trình đọc màn hình (screen reader) thích hợp, họ có thể nghe được mô tả về hình ảnh ấy thông qua việc đọc Alt Text.
Công nghệ ngày càng phát triển, tốc độ đường truyền ngày càng
nhanh và việc tải lên một bức ảnh gần như đồng thời với văn bản. Người dùng không
cần đọc Alt Text nữa vì hình ảnh đã hiện ra gần như đồng thời với văn bản. Kết
quả là những người biên tập web hầu như không còn dùng tới nó nữa, hầu hết Alt
Text đều bị để trống mà hoàn toàn không ảnh hưởng gì đến website cả. Các bạn có
thể dễ dàng nhận thấy điều này khi chính mình là người tải ảnh lên Facebook mà
không hề nhập vào Alt Text nào cả!
Đối với người bình thường thì điều này chẳng ảnh hưởng gì,
nhưng đối với người khiếm thị thì đây là một thiệt thòi, vì họ sẽ không thể
nghe mô tả về ảnh được nữa, đồng nghĩa với việc không “xem” được ảnh.
AAT của Facebook tạo văn bản thay thế tự động
Để giải quyết vấn đề trên, năm 2016 Facebook đã giới thiệu
một công nghệ mới được gọi là văn bản thay thế tự động (Automatic Alternative
Text, AAT). AAT được công nhận vào năm 2018 với Giải thưởng Thành tựu Helen
Keller từ Quỹ Người mù Hoa Kỳ - sử dụng tính năng nhận dạng đối tượng để tạo mô
tả về ảnh giúp những người khiếm thị có thể thưởng thức đầy đủ hơn trang
Facebook mà họ đang xem.
Phiên bản đầu tiên của AAT được phát triển bằng cách sử dụng
dữ liệu do con người gán nhãn, nhờ đó Facebook đã đào tạo một mạng nơ-ron phức
hợp sâu bằng cách sử dụng hàng triệu ví dụ theo kiểu có giám sát. Mô hình AAT này
có thể nhận ra 100 khái niệm phổ biến, như “cây”, “núi” hay “ngoài trời”. Và vì
những người sử dụng Facebook thường chia sẻ ảnh của bạn bè và gia đình, mô tả
AAT cũng đã sử dụng các mô hình nhận dạng khuôn mặt để xác định mọi người (miễn
là những người đó đồng ý chọn tham gia rõ ràng). Đối với những người khiếm thị,
đây là một bước tiến lớn.
AAT thế hệ mới cải thiện trải nghiệm ảnh cho người dùng
Phiên bản mới nhất của AAT thể hiện nhiều tiến bộ công nghệ
giúp cải thiện trải nghiệm ảnh cho người dùng. Đầu tiên và quan trọng nhất, số
lượng các khái niệm mà AAT có thể phát hiện và xác định một cách đáng tin cậy
trong một bức ảnh tăng lên hơn 10 lần, mô tả cũng chi tiết hơn, với khả năng
xác định các hoạt động, địa danh, loại động vật, v.v. - ví dụ: “Có thể là
ảnh tự chụp của 2 người, ngoài trời, Tháp nghiêng Pisa.”
AAT thế hệ mới có thể đưa thông tin về vị trí đặt ảnh và
kích thước tương đối của các yếu tố trong ảnh. Vì vậy, thay vì mô tả nội dung
của bức ảnh là “Có thể là hình ảnh của 5 người”, Facebook sẽ xác định rằng có
hai người ở giữa bức ảnh và ba người khác nằm rải rác về phía rìa, ngụ ý rằng
hai người ở trung tâm là trọng tâm. Hoặc, thay vì chỉ mô tả một phong cảnh đáng
yêu với “Có thể là một ngôi nhà và một ngọn núi”, AAT sẽ nhấn mạnh rằng ngọn
núi là đối tượng chính trong một cảnh dựa trên độ lớn của nó so với ngôi nhà ở
gốc.
Tổng hợp lại, những tiến bộ này giúp người dùng bị mù hoặc
khiếm thị hiểu rõ hơn về những gì có trong ảnh do gia đình và bạn bè của họ
đăng - và trong ảnh của chính họ - bằng cách cung cấp nhiều thông tin hơn và
chi tiết hơn.
Trí tuệ nhân tạo (AI) góp phần cải tiến AAT
Với sự hỗ trợ của AI, có thể làm được nhiều hơn và bước hợp
lý tiếp theo là mở rộng số lượng các đối tượng có thể nhận biết và tinh chỉnh
cách mô tả chúng.
Đối với lần cải thiện AAT mới nhất này, Facebook đã tận dụng
một mô hình được đào tạo dựa trên dữ liệu được giám sát chủ yếu dưới dạng hàng
tỷ hình ảnh Instagram công khai và thẻ hashtag. Để các mô hình này hoạt động
tốt hơn cho mọi người, Facebook đã tinh chỉnh chúng sao cho dữ liệu lấy được từ
hình ảnh trên tất cả các khu vực địa lý được quy về mẫu chuẩn và sử dụng bản
dịch các thẻ hashtag sang nhiều ngôn ngữ. Facebook cũng đánh giá các khái niệm
của mình theo trục giới tính, màu da và tuổi tác. Các mô hình kết quả vừa chính
xác hơn, vừa bao gồm cả văn hóa và nhân khẩu học - ví dụ, chúng có thể xác định
các đám cưới trên khắp thế giới (một phần) dựa trên trang phục truyền thống
thay vì chỉ dán nhãn cho ảnh có váy cưới trắng.
Nó cũng giúp sử dụng lại các mô hình học máy một cách dễ
dàng hơn, như là điểm khởi đầu để đào tạo về các nhiệm vụ mới - một quá trình
được gọi là học chuyển giao. Điều này cho phép tạo ra các mô hình xác định những
khái niệm như di tích quốc gia, các loại thực phẩm (như cơm chiên và khoai tây
chiên) và ảnh tự chụp. Đây là những việc không thể thực hiện được trong quá
khứ.
Để có được thông tin phong phú hơn như vị trí và số lượng, Facebook
đã tạo một máy dò đối tượng hai giai đoạn, được gọi là Faster R-CNN, sử dụng
Detectron2, một nền tảng mã nguồn mở để phát hiện và phân đoạn đối tượng do
Facebook AI Research phát triển. Facebook đã đào tạo các mô hình để dự đoán vị
trí và nhãn ngữ nghĩa của các đối tượng trong hình ảnh. Các kỹ thuật đào tạo đa
nhãn/đa tập dữ liệu đã giúp mô hình đáng tin cậy hơn với số lượng nhãn lớn hơn.
AAT mới nhận dạng đáng tin cậy hơn 1.200 khái niệm - gấp hơn
10 lần so với phiên bản gốc năm 2016. Khi tham khảo ý kiến của những người sử dùng
ứng dụng đọc màn hình về AAT và cách tốt nhất để cải thiện nó, họ đã nói rõ
rằng độ chính xác là điều tối quan trọng, vì vậy, Facebook chỉ đưa vào những
khái niệm mà họ có thể đảm bảo các mô hình được đào tạo bài bản đáp ứng một mức
độ chính xác cao nhất định.
Không những mô tả nhiều hơn AAT còn mô tả tốt hơn. Facebook đã
phỏng vấn những người khiếm thị phải dùng trình đọc màn hình về những gì và lúc
nào họ muốn nghe. Họ cho biết muốn biết thêm thông tin khi một hình ảnh là của
bạn bè hoặc gia đình và ít hơn khi không phải. AAT mới được thiết kế để cung
cấp mô tả ngắn gọn cho tất cả các ảnh theo mặc định nhưng mô tả chi tiết hơn đối
với các ảnh được quan tâm cụ thể.
Khi người dùng chọn tùy chọn sau, một bảng điều khiển được
hiển thị, mô tả toàn diện hơn về nội dung của ảnh, bao gồm số lượng các yếu tố
trong ảnh, một số yếu tố có thể chưa được đề cập trong mô tả mặc định. Mô tả
chi tiết cũng bao gồm thông tin vị trí đơn giản - trên cùng/giữa/dưới cùng hoặc
trái/giữa/phải - và so sánh mức độ nổi bật tương đối của các đối tượng, được mô
tả là “chính”, “phụ”.
AAT sử dụng cụm từ đơn giản cho mô tả mặc định của nó thay
vì một câu dài, hoa mỹ. Người dùng có thể đọc và hiểu mô tả một cách nhanh
chóng - và nó tự cho phép dịch để tất cả các mô tả văn bản thay thế có sẵn bằng
45 ngôn ngữ khác nhau, đảm bảo rằng AAT hữu ích cho mọi người trên khắp thế
giới.
Phạm Hoài Nhân
(Theo Facebook)
Báo Đồng Nai Cuối tuần 31/01/2021
Không có nhận xét nào:
Đăng nhận xét