Đời sống Số: Hồ sơ Panama (2016): Thách thức công nghệ số đối với báo chí

Năm 2016, 11,5 triệu tài liệu mật của công ty Panama Mossack Fonseca bị rò rỉ, cho thấy thông tin chi tiết của hơn 214.000 công ty ma được thành lập để trốn thuế, bao gồm cả danh sách của các cổ đông và các giám đốc. Trong các danh sách này có nhiều nhà chính trị và các tổ chức giàu có, nhiều thế lực của nhiều quốc gia. Cả thế giới chấn động, nhưng ít người biết là để xử lý khối tài liệu khổng lồ này giới báo chí đã phải tiếp cận với công nghệ số hiện đại, mà ngày nay người ta gọi là Công nghệ Dữ liệu lớn.

Biếm họa về vụ Hồ sơ Panama. Giới truyền thông (Media) đang soi rọi những tài liệu về việc trốn thuế (Tax evasion). Tranh của Paresh trên The Khaleej Times, Dubai.

Tóm tắt về hồ sơ Panama

Hồ sơ Panama là gì? Là lượng tài liệu mật khổng lồ tiết lộ cách thức những người giàu có và quyền lực giấu tài sản của họ.

Hồ sơ Panama đến từ đâu? Ai tiết lộ? Đến từ cơ sở dữ liệu nội bộ của công ty luật Mossack Fonseca của Panama, nhà cung cấp dịch vụ tài sản ở nước ngoài lớn thứ tư thế giới. Mossack Fonseca hoạt động hợp pháp nhưng luôn bị cho là chuyên cung cấp ngầm các dịch vụ rửa tiền, trốn thuế. Nhân vật tiết lộ Hồ sơ Panama lấy bí danh “John Doe” nói rằng chưa từng làm việc cho một cơ quan tình báo hay cơ quan chính phủ và chính sự bất bình đẳng thu nhập đã thôi thúc người này chia sẻ tài liệu mật. Tài liệu được chuyển đến Liên đoàn Phóng viên Điều tra Quốc tế (ICIJ) và tổ chức này đã phân phối đến khoảng 400 các nhà báo tại 107 tổ chức truyền thông tại hơn 80 quốc gia để phân tích.

Có gì trong các tài liệu? Trong các tài liệu có: thông tin các giao dịch chuyển tiền mặt, ngày thành lập các công ty, liên kết giữa các công ty và cá nhân, cách thức giúp khách hàng rửa tiền, tránh các biện pháp trừng phạt và trốn thuế.

Hồ sơ Panama lớn đến cỡ nào?

Hồ sơ Panama có 11,5 triệu tài liệu liên quan đến 214.000 công ty chiếm một dung lượng lên đến 2,6 TB (tức 2.600 GB). Các tài liệu này không đơn thuần là một loại dữ liệu mà bao gồm nhiều định dạng khác nhau như: e-mail, các tập tin PDF, hình ảnh, và các trích dẫn từ một cơ sở dữ liệu nội bộ hãng Mossack Fonseca. Các tài liệu trải dài từ những năm 1970 đến mùa xuân năm 2016, bao gồm 4.804.618 email, 3.047.306 tập tin từ cơ sở dữ liệu, 2.154.264 tập tin PDF, 1.117.026 hình ảnh, 320.166 tập tin văn bản, và 2.242 tập tin trong các định dạng khác.

Dung lượng tài liệu rò rỉ này lớn hơn hẳn các trường hợp rò rỉ trước đây. Báo Guardian (Anh) đã dùng hình ảnh minh họa sau để cho thấy lượng dữ liệu của hồ sơ Panama lớn hơn rất nhiều so với dữ liệu các vụ rò rỉ thông tin khác.

Trong hình, lượng dữ liệu của các vụ rò rỉ khác được thể hiện bằng diện tích các ô nhỏ màu sáng, lượng dữ liệu của Hồ sơ Panama bằng toàn bộ diện tích phần còn lại.

Người ta ước tính rằng nếu một người ngồi xem cho hết các tài liệu này sẽ mất 30 năm. Ấy là chỉ xem một lượt tất cả các tài liệu chứ không có nhận định phân tích gì cả! Trên thực tế có đến 376 nhà báo thuộc 110 đối tác truyền thông của 80 nước cùng tham gia xử lý tài liệu này, nhưng cũng không thể xử lý nổi khối lượng dữ liệu đồ sộ bằng những cách thức quen thuộc. Phải cần đến máy tính!

Thế nhưng có máy tính cũng chưa phải đã giải quyết được vấn đề. Các chương trình xử lý dữ liệu trên máy tính thường chỉ xử lý các dữ liệu thuần nhất, nhưng các dữ liệu ở đây vừa nhiều vừa đa dạng. Các khối dữ liệu có cấu trúc khác nhau đã là phức tạp rồi, lại còn chủng loại khác nhau nữa (mail, file PDF, hình ảnh…). Đây chính là đặc thù của Dữ liệu lớn.

Vậy các nhà báo đã làm như thế nào? Chúng ta hãy xem lời kể của 2 nhà báo tham gia chiến dịch là Jérémie Baruch và Maxime Vaudano, nhà báo dữ liệu của tờ Decodeurs, đăng trên tờ Le Monde (Pháp) tháng 4-2016.

Họ đã làm thế nào? Lời kể của Jérémie Baruch và Maxime Vaudano

Cần phải có một công cụ tìm kiếm có hiệu năng cao để khám phá các cơ sở dữ liệu. Đội ngũ kỹ thuật của ICIJ đã có sẵn một công cụ mạnh mẽ, dựa trên hệ thống Solr, và được cải tiến dành cho chiến dịch này. Hệ thống có những toán tử tìm kiếm tiên tiến (“AND”, “OR”, tìm kiếm với độ chính xác cao những từ trong dấu ngoặc kép) và một hệ thống các “cửa sổ nhỏ” để sàng lọc hàng ngàn kết quả mà một số cuộc tìm kiếm đã tạo ra nhờ các siêu dữ liệu (dạng văn bản, ngày tạo văn bản, công ty liên kết). Hệ thống cũng cho phép trích xuất văn bản thô từ hàng chục định dạng tập tin, từ dạng văn bản .PDF đến dạng văn bản .DOC, qua dạng văn bản .MSG (dạng thư điện tử gắn với Microsoft Outlook).

Nhưng trên hết, công cụ được trang bị một cơ chế tìm kiếm gần đúng (fuzzy search) cho phép tìm kiếm thoáng hơn. Ví dụ tìm “Jean Dupont” sẽ cho ra cả “Dupont Jean” hay “Jean Edouard Michel Dupont”.

Mặc cho tất cả tính năng này, chúng tôi đã phải đối mặt những hạn chế về cấu trúc liên quan đến bản chất thông tin “rò rỉ”. Có rất nhiều tài liệu mà bản gốc không dưới những dạng mà máy tính có thể hiểu được (như dưới dạng scan, hình ảnh) đã được xử lý qua một hệ thống nhận dạng ký tự quang học (OCR) của ICIJ. Kỹ thuật này dù tốt đến đâu cũng có nguy cơ bỏ qua những từ ghi nhận sai, như chữ viết tay hoặc bản scan kém chất lượng.

Những lỗi chính tả hoặc chuyển ngữ âm sai tên các cá nhân có thể làm cho những nhân vật đó thoát khỏi sự phát hiện của chúng tôi. Chưa kể đến vấn đề dịch thuật từ những cái tên tiếng Nga hay Trung quốc được theo bảng chữ cái Kirin hay chữ tượng hình…

Sau giai đoạn thăm dò đầu tiên các dữ liệu mang tính lộn xộn, chúng tôi đã phải hợp lý hóa công cuộc tìm kiếm để đảm bảo không bỏ qua những cái tên quan trọng. Về vấn đề này, tổ chức ICIJ trong quá trình thực hiện dự án đã phát triển một cơ chế tìm kiếm theo khối (batch search). Thay vì tìm kiếm từng cái tên một, thì chúng ta có thể đưa vào công cụ tìm kiếm một danh sách có cấu trúc những cái tên. Sau một vài phút, công cụ sẽ cho ra một bảng kết quả dưới định dạng .CSV, có chứa tất cả những lần xuất hiện được tìm thấy đối với mỗi mục nhập của danh sách. Phần còn lại là sàng lọc “gạo với trấu” như đối với mọi công cụ tìm kiếm.

Chúng tôi còn dùng nhiều cách khác để tìm ra danh sách những người đáng quan tâm. Với 214.488 công ty ma tìm được, có trên 450.000 cổ đông, tất cả đều có một địa chỉ bưu điện tương ứng. Với phần mềm xử lý dữ liệu OpenRefine, chúng tôi đã “làm sạch” và cân đối các địa chỉ này để trích xuất danh sách cổ đông cần thiết, sau đó sử dụng một cách có hệ thống công cụ tìm kiếm Google để phát hiện ra những nhân vật có khả năng là quan trọng.

Sự phức tạp của những dàn dựng ở nước ngoài, với rất nhiều công ty bình phong lồng trong nhau như những con búp bê Nga, đã làm cho công việc lần theo dấu vết của những người thụ hưởng thực rất vất vả. Vì vậy, ICIJ đã cung cấp cho các đối tác truyền thông một công cụ hiển thị bằng đồ thị, Linkurious, để giúp thăm dò các cơ sở dữ liệu được dễ dàng. Cụ thể, công cụ này đã liên kết 4 thực thể khác nhau có tên trong phần “có cấu trúc” của thông tin rò rỉ: các công ty, các trung gian, các cổ đông và địa chỉ của họ. Nó cho phép thực hiện những tìm kiếm nhanh và trực quan về các thực thể này.

Sự khởi đầu của điều tra báo chí trong thời đại công nghệ 4.0

Trên đây chỉ là một phần lời kể của 2 nhà báo về những công việc mà họ đã phải thực hiện để tìm hiểu về Hồ sơ Panama. Jérémie Baruch và Maxime Vaudano, sau khi kể lại những điều đã trải qua, kết luận: Đây là sự khởi đầu của những gì có thể là bước tiếp theo của điều tra báo chí với sự hỗ trợ của máy tính: việc sử dụng một cách có hệ thống các công cụ Dữ liệu lớn, điều mà đến nay còn giới hạn trong lĩnh vực nghiên cứu và doanh nghiệp, và vẫn còn rất xa lạ với giới truyền thông.

Còn giám đốc của tờ Le Monde thì viết trong bài xã luận của mình: Đối mặt với sự chuyển đổi của cuộc điều tra sang thời đại Dữ liệu lớn là việc 110 đối tác truyền thông tham gia cuộc điều tra đã phải từ bỏ cuốn sổ tay bỏ túi và cây bút chì để sử dụng những công cụ điện toán tiên tiến.

Cuộc cách mạng công nghiệp 4.0 với những công nghệ nổi trội của nó là Trí tuệ nhân tạo (AI), Dữ liệu lớn (Big Data) đang ảnh hưởng đến tất cả mọi lĩnh vực, ngành nghề, trong đó có giới truyền thông. Câu chuyện về Hồ sơ Panama là một minh chứng sống động.

Phạm Hoài Nhân

Đồng Nai Cuối tuần - 03/01/2020

Đời sống Số

Chủ đề

Thứ Hai, 6 tháng 1, 2020

Hồ sơ Panama (2016): Thách thức công nghệ số đối với báo chí

Không có nhận xét nào:

Đăng nhận xét