Năm 2016, 11,5 triệu tài liệu mật của công ty Panama Mossack Fonseca bị
rò rỉ, cho thấy thông tin chi tiết của hơn 214.000 công ty ma được thành lập để
trốn thuế, bao gồm cả danh sách của các cổ đông và các giám đốc. Trong các danh
sách này có nhiều nhà chính trị và các tổ chức giàu có, nhiều thế lực của nhiều
quốc gia. Cả thế giới chấn động, nhưng ít người biết là để xử lý khối tài liệu
khổng lồ này giới báo chí đã phải tiếp cận với công nghệ số hiện đại, mà ngày
nay người ta gọi là Công nghệ Dữ liệu lớn.
Biếm họa về vụ Hồ sơ
Panama. Giới truyền thông (Media) đang soi rọi những tài liệu về việc trốn thuế
(Tax evasion). Tranh của Paresh trên The Khaleej Times, Dubai.
Tóm tắt về hồ sơ Panama
Hồ sơ Panama là gì? Là lượng tài liệu mật khổng lồ tiết lộ
cách thức những người giàu có và quyền lực giấu tài sản của họ.
Hồ sơ Panama đến từ đâu? Ai tiết lộ? Đến từ cơ sở dữ liệu
nội bộ của công ty luật Mossack Fonseca của Panama, nhà cung cấp dịch vụ tài
sản ở nước ngoài lớn thứ tư thế giới. Mossack Fonseca hoạt động hợp pháp nhưng
luôn bị cho là chuyên cung cấp ngầm các dịch vụ rửa tiền, trốn thuế. Nhân vật tiết
lộ Hồ sơ Panama lấy bí danh “John Doe” nói rằng chưa từng làm việc cho một cơ
quan tình báo hay cơ quan chính phủ và chính sự bất bình đẳng thu nhập đã thôi
thúc người này chia sẻ tài liệu mật. Tài liệu được chuyển đến Liên đoàn Phóng
viên Điều tra Quốc tế (ICIJ) và tổ chức này đã phân phối đến khoảng 400 các nhà
báo tại 107 tổ chức truyền thông tại hơn 80 quốc gia để phân tích.
Có gì trong các tài liệu? Trong các tài liệu có: thông tin
các giao dịch chuyển tiền mặt, ngày thành lập các công ty, liên kết giữa các công
ty và cá nhân, cách thức giúp khách hàng rửa tiền, tránh các biện pháp trừng
phạt và trốn thuế.
Hồ sơ Panama lớn đến cỡ nào?
Hồ sơ Panama có 11,5 triệu tài liệu liên quan đến 214.000 công
ty chiếm một dung lượng lên đến 2,6 TB (tức 2.600 GB). Các tài liệu này không đơn
thuần là một loại dữ liệu mà bao gồm nhiều định dạng khác nhau như: e-mail, các
tập tin PDF, hình ảnh, và các trích dẫn từ một cơ sở dữ liệu nội bộ hãng
Mossack Fonseca. Các tài liệu trải dài từ những năm 1970 đến mùa xuân năm 2016,
bao gồm 4.804.618 email, 3.047.306 tập tin từ cơ sở dữ liệu, 2.154.264 tập tin
PDF, 1.117.026 hình ảnh, 320.166 tập tin văn bản, và 2.242 tập tin trong các
định dạng khác.
Dung lượng tài liệu rò rỉ này lớn hơn hẳn các trường hợp rò
rỉ trước đây. Báo Guardian (Anh) đã dùng hình ảnh minh họa sau để cho thấy lượng
dữ liệu của hồ sơ Panama lớn hơn rất nhiều so với dữ liệu các vụ rò rỉ thông
tin khác.
Trong hình, lượng dữ liệu
của các vụ rò rỉ khác được thể hiện bằng diện tích các ô nhỏ màu sáng, lượng dữ
liệu của Hồ sơ Panama bằng toàn bộ diện tích phần còn lại.
Người ta ước tính rằng nếu một người ngồi xem cho hết các tài
liệu này sẽ mất 30 năm. Ấy là chỉ xem một lượt tất cả các tài liệu chứ không có
nhận định phân tích gì cả! Trên thực tế có đến 376 nhà báo thuộc 110 đối tác
truyền thông của 80 nước cùng tham gia xử lý tài liệu này, nhưng cũng không thể
xử lý nổi khối lượng dữ liệu đồ sộ bằng những cách thức quen thuộc. Phải cần đến
máy tính!
Thế nhưng có máy tính cũng chưa phải đã giải quyết được vấn đề.
Các chương trình xử lý dữ liệu trên máy tính thường chỉ xử lý các dữ liệu thuần
nhất, nhưng các dữ liệu ở đây vừa nhiều vừa đa dạng. Các khối dữ liệu có cấu trúc
khác nhau đã là phức tạp rồi, lại còn chủng loại khác nhau nữa (mail, file PDF,
hình ảnh…). Đây chính là đặc thù của Dữ liệu lớn.
Vậy các nhà báo đã làm như thế nào? Chúng ta hãy xem lời kể
của 2 nhà báo tham gia chiến dịch là Jérémie Baruch và Maxime Vaudano, nhà báo
dữ liệu của tờ Decodeurs, đăng trên tờ Le Monde (Pháp) tháng 4-2016.
Họ đã làm thế nào? Lời kể của Jérémie Baruch và Maxime
Vaudano
Cần phải có một công cụ tìm kiếm có hiệu năng cao để khám phá
các cơ sở dữ liệu. Đội ngũ kỹ thuật của ICIJ đã có sẵn một công cụ mạnh mẽ, dựa
trên hệ thống Solr, và được cải tiến dành cho chiến dịch này. Hệ thống có những
toán tử tìm kiếm tiên tiến (“AND”, “OR”, tìm kiếm với độ chính xác cao những từ
trong dấu ngoặc kép) và một hệ thống các “cửa sổ nhỏ” để sàng lọc hàng ngàn kết
quả mà một số cuộc tìm kiếm đã tạo ra nhờ các siêu dữ liệu (dạng văn bản, ngày
tạo văn bản, công ty liên kết). Hệ thống cũng cho phép trích xuất văn bản thô từ
hàng chục định dạng tập tin, từ dạng văn bản .PDF đến dạng văn bản .DOC, qua dạng
văn bản .MSG (dạng thư điện tử gắn với Microsoft Outlook).
Nhưng trên hết, công cụ được trang bị một cơ chế tìm kiếm gần
đúng (fuzzy search) cho phép tìm kiếm thoáng hơn. Ví dụ tìm “Jean Dupont” sẽ
cho ra cả “Dupont Jean” hay “Jean Edouard Michel Dupont”.
Mặc cho tất cả tính năng này, chúng tôi đã phải đối mặt những
hạn chế về cấu trúc liên quan đến bản chất thông tin “rò rỉ”. Có rất nhiều tài
liệu mà bản gốc không dưới những dạng mà máy tính có thể hiểu được (như dưới dạng
scan, hình ảnh) đã được xử lý qua một hệ thống nhận dạng ký tự quang học (OCR)
của ICIJ. Kỹ thuật này dù tốt đến đâu cũng có nguy cơ bỏ qua những từ ghi nhận
sai, như chữ viết tay hoặc bản scan kém chất lượng.
Những lỗi chính tả hoặc chuyển ngữ âm sai tên các cá nhân có
thể làm cho những nhân vật đó thoát khỏi sự phát hiện của chúng tôi. Chưa kể đến
vấn đề dịch thuật từ những cái tên tiếng Nga hay Trung quốc được theo bảng chữ
cái Kirin hay chữ tượng hình…
Sau giai đoạn thăm dò đầu tiên các dữ liệu mang tính lộn xộn,
chúng tôi đã phải hợp lý hóa công cuộc tìm kiếm để đảm bảo không bỏ qua những cái
tên quan trọng. Về vấn đề này, tổ chức ICIJ trong quá trình thực hiện dự án đã
phát triển một cơ chế tìm kiếm theo khối (batch search). Thay vì tìm kiếm từng
cái tên một, thì chúng ta có thể đưa vào công cụ tìm kiếm một danh sách có cấu
trúc những cái tên. Sau một vài phút, công cụ sẽ cho ra một bảng kết quả dưới định
dạng .CSV, có chứa tất cả những lần xuất hiện được tìm thấy đối với mỗi mục nhập
của danh sách. Phần còn lại là sàng lọc “gạo với trấu” như đối với mọi công cụ
tìm kiếm.
Chúng tôi còn dùng nhiều cách khác để tìm ra danh sách những
người đáng quan tâm. Với 214.488 công ty ma tìm được, có trên 450.000 cổ đông,
tất cả đều có một địa chỉ bưu điện tương ứng. Với phần mềm xử lý dữ liệu OpenRefine,
chúng tôi đã “làm sạch” và cân đối các địa chỉ này để trích xuất danh sách cổ đông
cần thiết, sau đó sử dụng một cách có hệ thống công cụ tìm kiếm Google để phát
hiện ra những nhân vật có khả năng là quan trọng.
Sự phức tạp của những dàn dựng ở nước ngoài, với rất nhiều công
ty bình phong lồng trong nhau như những con búp bê Nga, đã làm cho công việc lần
theo dấu vết của những người thụ hưởng thực rất vất vả. Vì vậy, ICIJ đã cung cấp
cho các đối tác truyền thông một công cụ hiển thị bằng đồ thị, Linkurious, để
giúp thăm dò các cơ sở dữ liệu được dễ dàng. Cụ thể, công cụ này đã liên kết 4
thực thể khác nhau có tên trong phần “có cấu trúc” của thông tin rò rỉ: các công
ty, các trung gian, các cổ đông và địa chỉ của họ. Nó cho phép thực hiện những
tìm kiếm nhanh và trực quan về các thực thể này.
Sự khởi đầu của điều tra báo chí trong thời đại công nghệ
4.0
Trên đây chỉ là một phần lời kể của 2 nhà báo về những công
việc mà họ đã phải thực hiện để tìm hiểu về Hồ sơ Panama. Jérémie Baruch và
Maxime Vaudano, sau khi kể lại những điều đã trải qua, kết luận: Đây là sự khởi
đầu của những gì có thể là bước tiếp theo của điều tra báo chí với sự hỗ trợ của
máy tính: việc sử dụng một cách có hệ thống các công cụ Dữ liệu lớn, điều mà đến
nay còn giới hạn trong lĩnh vực nghiên cứu và doanh nghiệp, và vẫn còn rất xa lạ
với giới truyền thông.
Còn giám đốc của tờ Le Monde thì viết trong bài xã luận của
mình: Đối mặt với sự chuyển đổi của cuộc điều tra sang thời đại Dữ liệu lớn là
việc 110 đối tác truyền thông tham gia cuộc điều tra đã phải từ bỏ cuốn sổ tay
bỏ túi và cây bút chì để sử dụng những công cụ điện toán tiên tiến.
Cuộc cách mạng công nghiệp 4.0 với những công nghệ nổi trội
của nó là Trí tuệ nhân tạo (AI), Dữ liệu lớn (Big Data) đang ảnh hưởng đến tất
cả mọi lĩnh vực, ngành nghề, trong đó có giới truyền thông. Câu chuyện về Hồ sơ
Panama là một minh chứng sống động.
Phạm Hoài Nhân
Đồng Nai Cuối tuần - 03/01/2020
Không có nhận xét nào:
Đăng nhận xét