Tổng số lượt xem trang

Thứ Tư, 21 tháng 10, 2015

SKYNET & DRONE


SKYNET: MỘT CHƯƠNG TRÌNH TIN HỌC BÍ MẬT MÀ NSA TẠO RA ĐỂ SĂN LÙNG GIẾT KHŨNG BỐ THÔNG QUA CÁC MÁY BAY KHÔNG NGƯỜI LÁI.
Chắc bạn đã biết từ 10 năm nay, từ khi Internet xuất hiện, dữ liệu trên thế giới giữa các cá nhân ngày càng tăng thành một khối khỗng lồ, đươc gọi tên là Big Data. Người ta đã nghĩ ra một phương pháp tích trữ khối dữ liệu khổng lồ này đươc gọi là Cloud, tiếng Việt dịch là "đám mây". Nên trong giới lập trình có một môn học mới gọi là Cloud Computing (lập trình đám mây).
Phần lớn dữ liệu Big Data này đến từ những cuộc gọi trên điện thoại mobile của bạn, từ những giao dịch ngân hàng tài chính trên PC, từ những nội dung email, Facebook, Twitter, v.v.. của bạn. Và những cơ quan nắm giữ các dữ liệu Big Data này tất cả đều thuộc các tập đoàn lớn của Mỹ như Microsoft, Apple, Amazon, Facebook, v.v... Như vậy theo lo gic tự nhiên chính quyền Mỹ có thể làm áp lực lên các tập đoàn Mỹ này để có thể vào Big Data của thế giới để do thám, hay để làm gì đó, các bạn có thể tưởng tượng ra. Một cơ quan tình báo an ninh Mỹ, được thành lập mang tên là NSA (National Security Agency) có nhiệm vụ khai thác khối Big Data này. Một chương trình tin học phức tạp, rất siêu bí mật của NSA lo việc khai thác Big Data này được mệnh danh là Skynet. Chương trình Skynet này được thông báo phổ biến cho dân chúng biết lần đầu tiên vào tháng 4/2015, thông qua một site gọi là The Intercept, dựa trên những tài liệu rò rĩ bởi tay cựu tình báo viên NSA, Snowden, hiện đang trốn ở Nga, như bạn đã biết.
Thật ra, vào lúc ban đầu, chương trình Skynet được phát triển ở Pakistan để nhận diện và truy tìm theo phương pháp điện tữ các thành viên và các tay giao liên của tổ chức Al Quaeda, rồi sau đó cho thủ tiêu các tên khũng bố này sữ dụng các drone (máy bay không người lái) được điều khiển từ xa từ nước Mỹ hoặc từ các căn cứ quân sự Mỹ ở hãi ngoại. Thú vị không. Mỹ có thể thủ tiêu dễ dàng không đếm xiã luật pháp quốc tế những tay đối lập (chống đối chánh sách của Mỹ) xuyên biên giới thông qua các drone, đươc điều khiển từ Mỹ tại Toà Bạch Ốc hoặc từ Ngũ Giác Đài, hoặc từ các căn cứ quân sự ở nước ngoài v.v.. Hollywood có cho ra phim Terminator, chiến tranh ngoài hành tinh. Cơ quan NSA có thể đã bắt chước nội dung phim giã tưởng này đưa vào thực tế.
Bây giờ, ta đi vào chi tiết của vấn đề.

KHỐI LƯỢNG DỮ LIỆU BIG DATA

(1) trước tiên ta phãi thu thập dữ liệu cho phép hình thành Big Data này: đây là những thông tin kỹ thuật cho phép nhận diện một thông điệp hoặc một giao dịch. Đây là những thông tin liên quan đến: người gởi, người nhận, ngày giờ giao dịch, nơi xuất phát, nơi đến, dạng thức (format), ..
(2) tiếp theo ta cho trữ các thông tin theo một dạng record nào đó trên Cloud.

(3) cuối cùng, người ta cho xữ lý các record này để thực hiện những mô hình, rồi đưa các mô hình này cho các chương trình đặc biệt được gọi là machine learning, chương trình học việc, cho phép nhận diện những mục tiêu (target) rõ ràng. Ở đây, cơ quan NSA làm theo yêu cầu của CIA, hoặc của Bộ Quốc Phòng. Sau đó, các cơ quan CIA, BQP lo thi hành ngay tại chỗ những gì NSA đã cung cấp.

Skynet hoạt động chủ yếu trên các dữ liệu được thu thập bởi những công ty điện thoại di động. Các máy điện thoại di động cung cấp liên tục những thông tin liên quan đến những cuộc gọi gởi đi hoặc nhận về, kèm theo thông tin liên quan đến vị trí giao dịch, do đó Skynet có thể lên bản đồ di chuyển của mobile. Skynet cũng có thể phát hiện và ghi nhận mobile nào tìm cách tránh né bị theo dõi

Ngoài ra, mỗi mobile thường có 2 Mã số: (1) Mã IMSI là Mã số thẽ Sim; (2) Mã IMEI nhận diện cái máy. Những người sữ dụng ngây thơ, tưởng rằng có thể qua mặt theo dõi bằng cách đỗi cạt Sim, sẽ bị phát hiện dễ dàng khi người này thay đổi thường xuyên Sim. Cuối cùng, việc thay đổi mobile cũng có thể được phát hiện và ghi nhớ: Skynet sẽ dựa trên việc các dữ liệu Big Data khác bao giờ cũng nằm yên không thay đổi, chẵng hạn vị trí người sữ dụng cũng như dữ liệu tương tác xã hội (bạn bè, gia đình, đối tác...).

Khi người ta cung cấp "dáng dấp" (profil) các điện thoại di động của trọn một quốc gia, thì Skynet có thế thiết lập hành vi thường nhật của người dân nước này: (1) những ai cùng đi với nhau; (2) những ai cùng đối tác với nhau thường xuyên; (3) những ai thường xuyên đi ngủ nhà bạn bè; (4) những ai thay đổi thường xuyên chỗ ở, hoặc đi ra nước ngoài. Nhìn chung, Skynet sẽ có thể trích ra 80 loại dữ liệu, mà về sau ta có thể nạp vào những giãi thuật cho phép mô hình hoá (modelization) hoặc cho ra những biến giãi thích (explaining variable) giúp xác định những hành vi của con người. Người ta đặt giã thuyết cơ bản là cách sống của những mục tiêu nhắm tới cần nhận diện sẽ hoản toàn khác biệt so với các công dân bình thường.
SỰ THẬT TẠI CHỖ
Một loại nguyên liệu khác mà SNA phãi cung cấp cho Skynet là "sự thật tại trận" (in place truth), nghĩa là những dữ liệu mang theo những bình luận và ghi chú, theo đấy người sữ dụng dtdd sẽ được phân biệt trước là thuộc một trong 2 thành phần đã định sẵn: "khũng bố" và "vô tội". Nguyên liệu kể trên sẽ được dùng dạy Skynet phãi chọn thế nào, một trong 2 thành phần kể trên. 
Lẽ dĩ nhiên, việc có được "sự thật tại trận" là rất khó. Người ta bắt Skynet làm việc trên dữ liệu Big Data của dân chúng nước Pakistan, 188 triệu dân. Muốn thành lập "sự thật tại trận" liên quan đến dữ liệu của 188 triệu dân Pakistan, Skynet sử dụng đến một thước đo (étalon) là những dữ liệu cá nhân của các thành viên Al Qaida biết đến, đề có thế thiết lập một dáng dấp mẩu (profil type) của một tên khũng bố mà chương trình Skynet phải dò ra trong mớ hỗn độn dữ liệu của 188 triệu dân Pakistan.
Liên quan đến Big Data, điều luật thứ nhất là có càng nhiều dữ liệu càng tốt, nghĩa là nếu ta có một khối dữ liệu lớn thì kết quả sẽ tốt hơn. Tuy nhiên, khi phải quản lý 80 loại dữ liệu trên 188 triệu dân (số dân nước Pakistan), thì việc xữ lý cái khối dữ liệu trở nên một thách thức phức tạp. Cơ quan NSA có thể nhờ đến những tính toán thống kê, nhưng khối lượng lớn dữ liệu là quá quan trọng để có thể quản lý duy nhất bởi suy luận con người. Để hỗ trợ, Skynet sẽ dùng đến một loại giãi thuật quyết định làm việc trên những mẫu dữ liệu được chọn ra một cách hồ đồ, tiếp theo cho phối hợp lại cho ra bình quân giữa những trù liệu khác nhau. 
Giãi thuật phãi cho ra một điểm số (score) đối với mỗi cá nhân. Giãi thuật phãi tìm ra cách tốt nhất để phối hợp dữ liệu thô để cho ra một score lớn hơn đối với những cá nhân được dán nhãn "khũng bố" trong vùng sự thật tại trận và một score thấp hơn đối với phần dân chúng còn lại được dán nhãn "vô tội". Khi loại giãi thuật này được sữ dụng để thực hiện một loại sắp xếp nhị phân - "khũng bố", "vô tội", thì ta phãi định nghĩa một cái ngưỡng: nếu score của cá nhân nào đó lớn hơn ngưỡng thì coi cá nhân này là một tên khũng bố, cón nếu nhỏ thua cái ngưỡng thì cá nhân này vô tội. Dựa trên dữ liệu của "sự thật tại trận", NSA chọn cho mình một biên độ an toàn bằng cách chọn một cái ngưỡng bảo đãm là chỉ một tĩ lệ nào đó sẽ được liệt vào danh sách "khũng bố". Theo tài liệu mà Snowden cho phỗ biến, thì NSA chọn con số 50%: nghĩa là một nữa những tên khũng bố sẽ được xem là "vô tội", mà người ta gọi là "negative false".
NHỮNG NGƯỜI VÔ TỘI, NHỮNG POSITIVE FALSE

Ngược lại, những người vô tội được xếp sai vào loại khũng bố, vì score của họ quá cao, nến loại người này được gọi là "positive false". Trong việc định lượng, NSA cung cấp những thống kê liên quan đến 2 lô dữ liệu.. NSA phân tích dữ liệu của 100.000 cá nhân được chọn ra hồ đồ trong số nhân dân tổng quát được nhận diện bỡi mã số thẻ SIM và dtdd. Tiếp theo NSA phối hợp các dữ liệu này với dữ liệu của 7 điện thoại thuộc các tay khũng bố nỗi tiếng,  được nhận diện bởi những phương tiện khác. Cuối cùng, giãi thuật tiếp nhận những dữ liệu nhận diện 6 trên 7 tay khũng bố, và phải nhận diện ra tên khũng bố số 7. Như vậy, ta có thể xác định một tỹ lệ các "positive false".

Các tài liệu của NSA cung cấp một tỹ lệ positive false và negative false liên quan đến nhiều ngưỡng, và những giãi thuật khác nhau. Kết quả rất đáng ngạc nhiên: trong trường hợp theo đấy 50% các tên khũng bố được bỏ qua (50% negative false) thì giãi thuật chĩ sẽ có một tỹ lệ positive false (vô tội bị nhận lầm là khũng bố) là 0,18% hoặc 0,008% theo phiên bản cãi tiến. 

Để trắc nghiệm sự tiến triễn của hệ thống, SNA bắt đầu lại hoạt động với một lô 55 triệu người dân. SNA đã sữ dụng chương trình mang tên MapReduce, thường được các công ty tư nhân dùng trong mục đích thương mãi và quảng cáo. Đối với mẫu dữ liệu lớn như thế, thì tài liệu NSA không nói đến tĩ lệ positive false. 

Trong thực tế, các kết quả này về mặt khoa học là không hợp lệ. Đây là những con số sàn. Phương pháp này không đem lại sự tổng quát hoá mong muốn, vì 100.000 cá nhân được chọn một cách hồ đồ, còn 7 tên khũng bố đến từ một lô đã biết trước. Trong sự chọn lựa độc đoán một mẫu vật nhỏ thua 0,1% dân số Pakistan, mật độ biểu đồ xã hội của những người vô tội hầu như zero (các người vô tội không biết lẫn nhau và không đi lại với nhau) trong khi nhóm nhân chứng (témoin) 7 tên khũng bố được chọn sẵn là có liên hệ mật thiết. Đúng ra phải trộn những tên "khũng bố" với dân tổng quát trước khi chọn ra hồ đồ một mẫu vật, nhưng việc này là không thực tế, vì con số quá nhỏ - tổng cộng chỉ 7.

Kết quả rất tích cực NSA cho ra, chỉ 0,008% loại positive false, là cực kỳ thấp. Cho dù người ta chấp nhận sự chính xác của con số kết quả, 0,008%, tỹ lệ sai sót có thể chấp nhận đối với một công ty tư nhân, chỉ chịu rũi ro khi gởi tới cho người sữ dụng mạng một quảng cáo sai mục tiêu, nghĩa là đưa ra một mặt hàng giá quá cao, hay tư vấn người bệnh một loại thuốc không phù hợp. Nhưng trong trường hợp chống khũng bố, 0,008% trên dân số 188 triệu dân Pakistan, thì có đến 15.000 người vô tội bị giết oan uỗng cũng là quá quắc, trong khi cùng lúc ấy 50% tên khũng bố bị bỏ lọt, vì score của chúng là quá thấp so với cái mốc ngưỡng được ấn định một cách hồ đồ.
MỘT CUỘC CHIẾN CÁC MÁY BAY KHÔNG NGƯỜI LÁI KHŨNG KHIẾP Ở PAKISTAN
Vấn đề này xem ra hoàn toàn hàn lâm, nhưng nó làm hỏng sự chính xác trong việc sắp đặt những cá nhân vào loại "khũng bố" với những hậu quả kèm theo. Đặc biệt người ta không biết là những ai bị sắp xếp vào hàng ngũ "khũng bố" bởi chương trìnhn Skynet về sau có thể bị triệt hạ bởi những máy bay không người lái (drone, BKL) hay không. Ngược lại, một điều khá chắc chắn là ở Pakistan, quân đội Mỹ đã cho tiến hành một cuộc "chiến tranh các drone" rất khũng khiếp. Chính phủ Hoa Kỳ không hề công bố bất cứ thông tin chỉnh xác liên quan đến các chiến dịch này: họ chỉ bằng lòng xác nhận là những nạn nhân vô tội là rất hiếm, và mọi tên khũng bố bị nhắm tới đại diện cho một mối đe doạ "ngay liền và thường xuyên" đối với cuộc sống của người dân Mỹ. Đây được xem như là một dạng phòng thủ tự vệ dự phòng hợp pháp, nghĩa là ra tay bắn trước người ta khi nghi ngờ người ta sẽ bắn mình. Dạng ngăn ngừa này đã đươc mã hoá chính thức bởi một memorandum vào tháng 5/2013.
Những con số duy nhất được công bố cho dân chúng liên quan đến "cuộc chiến khũng các máy bay không người lái" ở Pakistan là do điều tra độc lập. Theo thống kê của cơ quan BIJ (Bureau of Investigative Journalism, trụ sở đặt tại Anh Quốc) thì cơ quan tình báo Mỹ, CIA từ năm 2004 đến 2015 đã cho tiến hành ít nhất 421 vụ oanh kích Drone làm chết 2500-4000 người,và bị thương 1500 người. 60% oanh kích là vào nhà cữa có người ở, do đó rùi ro người vô tội bị giết oan uổng là rất cao. Các cuộc oanh kích drone thường xãy ra vào lúc chiều tối. Theo BIJ thì có đến 22% người chết là thường dằn vô tội không có sung trong tay, nghĩa là không thuộc chiến quân (kể cả con nít), và 76% không thể được liệt vào một hạng người rõ ràng. Chĩ có 1,5% là xem như được nhận diện chính xác là những "mục tiêu có giá trị cao", nghĩa là những tay khũng bố nguy hiểm đối với lợi ich của Mỹ.





Không có nhận xét nào:

Đăng nhận xét