Tổng số lượt xem trang

Thứ Bảy, 8 tháng 2, 2014

BIG DATA



Hubert Guillaud - Le Monde - 13/12/2013
Dương Quang Thiện (dịch)

BIG DATA : TẠI SAO NHỮNG SIÊU DỮ LIỆU (METADATA) CỦA CHÚNG TA MANG TÍNH CÁ NHÂN HƠN DẤU VÂN TAY CỦA CHÚNG TA .
Nhân dịp hội thảo liên quan đến "chính sách dữ liệu cá nhân: Big Data hoặc việc kiểm soát cá nhân"  được tổ chức bởi Institut des systèmes complexes (viện các hệ thống phức tạp) và École normale supérieure de Lyon (Trường Cao đẵng Sư phạm Lyon) được diễn ra ngày 21/09/2013 vừa qua, Yves-Alexandre de Montjoye (@yvesalexandre) đã đến trình bày công trình nghiên cứu của mình, và thông qua Montjoye những công trình nghiên cứu của MediaLab về đề tài này cũng đã được trình bày. Yves-Alexandre de Montjoye đã làm tiến sĩ tại MIT. 

Những dữ liệu di chuyễn của chúng ta mang tính riêng tư nhiều hơn là những dấu vân tay.

Cho tương ứng các dấu vân tay không đơn giản tí nào. Theo ngành cãnh sát khoa học Pháp, thì chỉ cần sử dụng 12 điểm qui chiếu là có thể nhận diện một cách chắc chắn những dấu vân tay của một ai đó.

Tuy nhiên, những vết tích số của chúng ta để lại nhiều hơn là những vân tay 12 điểm qui chiếu ... Điện thoại của chúng ta để lại ở phía sau vô số dữ liệu tại các trung tâm tổng đài điện thoại: gọi ai, khi nào, bao lâu, tại địa điểm nào... Các dữ liệu điện thoại di động (đtdd) liệt kê tất cã các nơi nào ta đi đến. Do đó, cách ta di chuyển thường rất đều đặn, mang tính lặp đi lặp lại, duy nhất giống như những dấu vân tay. Khi người ta nhìn vào một căn cứ dữ liệu (ccdl) trung tâm đtdd, người ta đối mặt với hằng triệu mẫu tin các cuộc gọi. Người ta có cãm tưởng không thấy ai cã, nhưng thật sự ai cũng biết mỗi người trong chúng ta đều hiện diện trong ccdl này. Làm thế nào tìm ra ai đó trong những ccdl như thế ? Phải bao nhiêu điểm qui chiếu để nhận diện một cách chắc chắn một người nào đó trong ccdl đồ sộ như thế?

Trong một CCDL thuộc trung tâm điện thoại quốc gia, gồm 1,5 triệu người thuê bao, thì chỉ cần 4 điểm qui chiếu là có thể nhận diện 95% số người. "Các dữ liệu di chuyển của chúng ta mang tính cá nhân còn nhiều hơn là các dấu vân tay của ta." Có thể nào làm cho việc tái-nhận diện trở thành ít chính xác hơn? Theo Yves-Alexandre de Montjoye, làm việc tại MIT (Mỹ) thì việc áp dụng giảm độ phân giải tới mức độ nào đó, ta sẽ không còn khả năng nhận diện con người trên hình ảnh, phân biệt người này với người kia... Ta tự hỏi ta có thể áp dụng điều này đối với dữ liệu đtdd được không? Tới mức độ nào thì sự phân giãi không cho phép nhận diện các con người?

Các nhà nghiên cứu MIT (Mỹ) cho lấy những dữ liệu dtdd rồi cho giảm đi độ phân giãi theo không gian và độ phân giãi theo thời gian. Thay vì có một thông tin trên một ăn ten dtdd, các nhà nghiên cứu  cho thay thế bởi dữ liệu chung chung, theo vùng địa lý lớn, và theo những chĩ dẫn thời gian lớn thay vì chính xác. Lẽ dĩ nhiên là việc giãm độ phân giãi theo không gian và theo thời gian làm cho việc nhận diện lại khó hơn, nhưng chỉ cần vài điểm phụ thêm là có thể phục hồi lại việc nhận diện. Thật ra, những hoạt động hằng ngày của chúng ta thường xuyên mang tính duy nhất nên khó lòng qua khỏi mắt đám đông. Việc giảm độ phân giãi không phải là một hệ thống đủ làm cho ta trở thành vô danh tàn hình. Chúng ta có cãm tưởng là giống các người khác khi ta đứng dồn nén trong xe điện ngầm mỗi buổi sáng đi làm, nhưng thật ra chúng ta hoàn toàn là duy nhất. 

Những vết tích di chuyển của chúng ta nói lên nhiều điều hơn là những di chuyển của chúng ta

Thật vậy, dữ liệu di chuyển của chúng ta sẵn sàng có sẵn như cho thấy các đài nghe lén Verizon và của cơ quan tình báo Mỹ, NSA, hoặc thông qua các ứng dụng được cài đặt trên dtdd thông minh: 30% các dữ liệu này ghi nhận các thông tin vị trí. Các dữ liệu giao dịch trên các thẻ tín dụng hoặc thẻ ô tô buýt đều có ghi dữ liệu vị trí di chuyển. Những dữ liệu mà ta đóng góp thêm vào, khi sử dụng dịch vụ web, khi đánh giá phim ta vừa coi xong, hoặc bản nhạc ta vừa nghe xong, hoặc khi đánh giá các trang trên Facebook, cũng cho phép suy ra vô số hành vi của ta cũng như cho biết ta là ai.

Một cuộc trắc nghiệm cá tính được gọi là BFI (Big Five Inventory) do các nhà tâm lý học John, Donahue et Kentle soạn ra và đề xướng vào năm 1991 (xem Wikipedia) cho phép kiểm kê 5 yếu tố cá tính lớn (neurotisme, extraversion, conscientiousness, agreeableness, openness), dựa trên một trăm câu hỏi cho phép mô tả 5 loại tánh khí lớn theo đấy tương quan những đặc tính chẵng hạn hiệu quả đối với công việc, hoặc khã năng lấy quyết định khi mua sắm. Đối với mỗi ai trãi qua cuộc trắc nghiệm, mô hình phân biệt 5 đặc tính tâm lý lớn chẵng hạn tính cởi mở trước kinh nghiệm (nghĩa là cãm nhận nghệ thuật, cãm xúc, sự phiêu lưu, các ý kiến khác người, sự tò mò, và trí tưởng tượng), có lương tâm (nghĩa là tính tu thân, sự kính trọng những bắt buộc, tổ chức, thay vì tính cởi mở tự nhiên), tính hướng ngoại (năng lực, chiều hướng đi tìm kích thích, sự an ủi của bạn bè), tính dễ thương (có chiều hướng thương cãm và hợp tác thay vì nghi kỵ hoặc đổi đầu với người khác) và cuối cùng tánh khí thần kinh (nghĩa là ngược lại sự ổn định cảm xúc, chẵng hạn chiều hướng cãm nhận những cãm xúc khó chịu như nổi giận, lo sợ, trầm cảm, hoặc dễ bị tổn thương). Đối với những nhà tâm lý học sử dụng những trắc nghiệm này từ lâu rồi, những trã lời cho phép đánh giá dáng vóc (profil) tâm lý dựa trên những tiêu chuẫn này cho phép đến phiên truy ra một số lớn các đặc tính như hiệu quả công việc hoặc khã năng lấy những quyết định mua sắm...

BFItestparMIT
Hình cạnh bên: 5 đặc tính tâm lý của bản trắc nghiệm BFI và mức độ tương quan với những dữ liệu di động, thông qua poster của bản nghiên cứu "Chiếc điện thoại nói gì về bạn ?"

Đại học MIT đã yêu cầu sinh viên điền vào bản trắc nghiệm để xác định profil rồi nhìn vào dữ liệu trên dtdd để tìm ra những mối tương quan, nghĩa là tử những dữ liệu trên dtdd tìm ra những tương quang cho phép rút ra 5 loại cá tính vừa kể trên. Bản nghiên cứu này cho phép cập nhật 36 chĩ dẫn (vị trí, sử dụng điện thoại, sự đều đặn, tiếp xúc khác nhau, hoạt động người sử dụng, thí dụ mất bao nhiêu thời gian để trã lời một văn bản...) có khã năng tiên đoán kết quả bản trắc nghiệm BFI của bất cứ người đăng ký điện thoại nào.

Mô hình tương đối khã tín. Thí dụ, từ những dữ liệu dtdd, mô hình có khã năng tiên đoán điểm số  tính hướng ngoại (extraversion) của bạn một cách khá chính xác... Đây có nghĩa là, từ một profil được sủ dụng trên dtdd của bạn, dưới dạng một dãy số trong một ccdl cực kỳ lớn, theo đấy mỗi người hình như bị che khuất bởi khối lượng lớn các người khác, người ta có thể suy diễn ra các đặc tính tâm lý của bạn . . . Tuy nhiên, cá tính của bạn sẽ được trưng ra theo từng hành vi nhỏ và ngay vào lúc tất cả mọi hành vi của chúng ta đều bị ghi chép, các cá tính của chúng ta đều ẩn trong những vết tích các hoạt động của chúng ta. Tất cã dữ liệu của chúng ta đều mang tính cá nhân, chúng tôi đã phát biểu như thế vào năm 2009, và bây giờ mỗi ngày sẽ trở thành thật hơn.

Thí dụ trên cho thấy là khó lòng biết bao để vô danh hoá các dữ liệu giao dịch. Gỡ bỏ các số điện thoại cũng như tên tuỗi cũng không làm cho loại dữ liệu cơ bản này trở thành vô danh. Và những dữ liệu cơ bản như thế cho ta biết nhiều hơn chỉ là những chuyện xê dịch của chúng ta hoặc những mạng quan hệ mà ta thuộc về. Xin chúc mừng bạn đến với thời đại các mối tương quan. Cho dù các mô hình chưa hoàn chỉnh thế nào đi nữa, thì từ đây người ta cũng có thể suy ra những đánh giá đối với bạn từ bất cứ từ những hành vi nhỏ nhoi nào của bạn. Cuối cùng, thì chỉ cần một chút ít dữ liệu là xong...

Công nghệ có thể sữa chữa những gì công nghệ đã đập bể ? 

Như vậy, có nên ngưng sử dụng Facebook ? Có nên thay đổi dtdd ? Có nên ngưng sử dụng Internet ? . . . Kỹ sư MIT bảo là không thể được. Vì rằng, dữ liệu có một giá trị đối với khoa học cũng như đối với mỗi một người trong chúng ta. Theo quan điểm xã hội, các dữ liệu này sẽ cho phép nghiên cứu hành vi của con người và cho phép trã lời trước những câu hỏi quan trọng của xã hội. Theo tư cách cá nhân, mỗi một trong chúng ta thường muốn biết con đường đi nào tốt nhất tránh tắt nghẽn giao thông, hoặc nghe một bản nhạc ta yêu thích nhất, ... Các dịch vụ này là hữu ích, và ta không muốn bỏ qua. Đây có nghĩa là, gấp rút ta phải tìm ra một thế quân bình mới, một điểm trung dung nằm giữa vấn đề kỹ thuật và vấn đề pháp lý để đóng khung việc thu thập dữ liệu, như đã được hô hào cách đây vài tuần bởi các ông Yves-Alexandre de Montjoye, Cesar Hidalgo và Sandy Pentland  trên các báo Christian Science Monitor (Mỹ) và Le Monde (Pháp).

Đây chính là việc MIT đang làm từ đây trở đi : lập lại thế quân bình. Xây dựng một New Deal xung quanh các dữ liệu. Các nhà nghiên cứu ước tính : New Deal này đòi hỏi người sử dụng có khã năng truy cập dữ liệu của mình hoặc ít nhất truy cập vào bản sao cho phép hiểu được việc sử dụng dữ liệu này là thế nào và tưởng tượng ra những dịch vụ mới. Đây là vấn đề của OpenPDS. OpenPDS muốn xem mình như là cái kho chứa các dữ liệu riêng tư, cho phép người sử dụng lưu trữ các dữ liệu giao dịch của mình và tự mình quãn lý việc cho ai truy cập vào dữ liệu này, nghĩa là một cái tủ sắt cất trữ các dữ liệu riêng tư của người sử dụng.

openPDSHình ảnh : OpenPDS giúp bảo vệ cuộc sống riêng tư của mình.

Nhưng cùng lúc là một cái chi nhiều hơn nữaTừ một thi công OpenPDS, từ phía điều hành viên dữ liệu, MIT tưởng tượng ra một dịch vụ yêu cầu cho phép giữ bí mật dữ liệu, nhưng vẫn cho phép sử dụng dữ liệu. Safe Answers là một dịch vụ dành cho những dịch vụ hoặc cho các nhà nghiên cứu theo đấy có thể thiết đặt những nhà cung cấp lớn các dữ liệu. Thật thế, các nhà nghiên cứu cũng như các dịch vụ khỏi cần truy cập dữ liệu thô tại các ngân hàng hoặc tại tổng đài điện thoại chẵng hạn. 

Các dịch vụ cung cấp nhạc trực tuyến khỏi cần truy cập tất cả các bài hát mà bạn đã nghe trong nhiều năm qua mà cũng có thể gợi ý cho bạn một cách chính xác, một vài tá bài hát là quá đủ. Ý đồ của Safe Answers cho phép được đặt ra những câu hỏi dưới dạng mã cho các ccdl nhưng vẫn tôn trọng đời sống riêng tư của những người sử dụng. Ý kiến là giảm đi chiều kích của dữ liệu thành một câu trã lời đơn giản. Ngoài ra, cũng có ý kiến yêu cầu các tổng đài điều hành dữ liệu tạo ra thêm một dịch vụ cho phép truy cập dữ liệu nhưng vẫn bảo vệ hoàn toàn tính riêng tư của khách hàng tổng đài dtdd. Thay vì cho chạy quanh những ccdl không hoàn toàn được vô danh hoá, Safe Answers đề nghị cho chạy quanh những yêu cầu của các nhà tiếp thị hoặc các nhà nghiên cứu, cho phép cung cấp một câu trã lời được vô danh hoá.

Đối với nhà nghiên cứu trẽ MIT, chã có gì phải lo lắng: việc giữ bí mật chưa hề chết. Ta phải đưa ra tranh luận. Phải tìm ra điểm trung dung, cũng như phải tìm ra những công cụ tốt... Điều chắc chắn đối với kỹ sư thì câu trã lời phải mang tính công nghệ, và phải như vậy. Có điều ta quên hơi nhanh là các tủ sắt các dữ liệu điện tữ đã hiện hữu từ lâu nhưng không gặp thành công hoặc là do khỏ đưa vào sử dụng vì phức tạp. Thiện chí của các cơ quan dịch vụ có đủ không ? Khó lòng tin tưởng nổi khi người ta nhận ra rằng việc người thỗi còi Edward Snowden tung tài liệu do thám cho công chúng cũng không làm động đậy các ông trùm các dữ liệu bí mật đã...cộng tác với cơ quan do thám Mỹ, NSA.

Phải chăng rũi ro là sự dai dẵng tình trạng hiện hành của việc không còn chọn lựa: giữa tiện nghi truy cập và việc không truy cập vào các tiện nghi, thì các nhà sử dụng sẽ nhanh chóng chọn lựa. Bao giờ, họ cũng dành ưu tiên cho việc truy cập, dịch vụ trước sự sự bí mật của dữ liệu, . . . Yves-Alexandre de Montjoye muốn tiếp tục tin tưởng. Đối với ông này, OpenPDS hứa hẹn sẽ khác đi so với những két sắt các dữ liệu hiện hữu. Trước tiên, OpenPDS đến đúng lúc, kế đến 
OpenPDS không hoạt động trên bất cứ dữ liệu nào, mà tìm cách làm việc trên các dữ liệu giao dịch, và dữ liệu dtdd, nhiều hơn là trên dữ liệu đóng góp. Đây là khoảng không gian mà người ta có thể làm được cái gì. Apple và Google không ngừng thay đổi phương thức truy cập vào dữ liệu của họ. Nhiều tủ sắt dữ liệu tìm đủ cách làm gì đó, quan tâm đến mọi dữ liệu nhưng lại không đề nghị một giá trị đủ rõ ràng cho người sử dụng, cho dù nhà nghiên cứu trẻ Yves-Alexandre de Montjoye công nhận là việc giao quyền điều khiển cho người sử dụng là phức tạp, không phải do chuyển giao công nghệ, mà do tính cách ergonomie, tính đơn giản tiếp nhận những giãi pháp kiểm soát dữ liệu của họ.

Việc còn lại là cho dù người sử dụng có thể truy cập dữ liệu không có nghĩa là nhà thu thập dữ liệu nguyên thuỷ hoặc nhà cung cấp dữ liệu sẽ không còn truy cập dữ liệu hoặc giảm thu thập dữ liệu. . . Câu trã lời công nghệ mà kỹ sư MIT đưa ra hình như xoá bỏ tất cả các câu trã lời khác. Không chắc là câu trã lời tự mình đã đủ. Ta cần phãi có những câu trã lời mang tính xã hội, thực dụng, và có tính pháp lý. . . "Ta không thể nào tạo ra một ecosystem khác cho người sử dụng mà không có kiểm soát" nhà nghiên cứu đã nhận định. Giao quyền kiểm soát cho người sử dụng là một cách thức làm cho vấn đề cởi mở hơn, dễ hiểu hơn, "cũng như open data cho phép người dân hiểu rõ hơn hệ thống chính trị". "Cho phép truy cập các dữ liệu cá nhân là một giãi pháp đơn giản, khã dĩ truy cập được về mặt kỹ thuật và sẽ cho phép chuyển động các sự việc".

Vấn đề còn lại là, cho dù có trong tay những dữ liệu của mình, người sử dụng vẫn không bình đẵng so với các cơ quan dịch vụ sử dụng các dữ liệu này, lý do đơn giản là các cơ quan dịch vụ biết xữ lý dữ liệu, còn bạn là dân ngu khu đen thì lại không biết. Thí dụ, truy cập được dữ liệu dtdd cũng chưa cho phép bạn dân ngu khu đen suy ra profil BFI của mình (nghĩa là có thể biết được hành vi mua sắm của mình), trong khi nhân viên ở tổng đài dtdd thì có thể... Tuy nhiên, nhà nghiên cứu Yves-Alexandre de Montjoye nghĩ rằng: "nhưng người ta hy vọng là các nhà nghiên cứu sẽ phát triễn ra những giãi thuật tương ứng với những gì có trên thị trường, như là cộng đồng mã nguồn mở đã làm ra những phần mềm tương ứng, có thể là trội hơn những gì đã có trên thị trường"

Nói một cách khác, ngày mai chắc chắn là ta sẽ cần đến những công cụ cho phép ta xữ lý dữ liệu, những công cụ mà hiện nay nếu là chuyên gia mới có thể sử dụng được. Như vậy, mỗi người trong chúng ta sẽ có khả năng "nói chuyện" với dữ liệu. Thí dụ, chỉ cần một tweet đơn giản, ta có thể thâm nhập vào thông tin của ai đó phát ra, dựa theo những tiêu chí cá nhân. Một vài người nào đó sẽ quan tâm đến tỉ trọng sáng tạo của bạn, một số người khác lại chú ý đến khả năng mua sắm của bạn, một số khác lại muốn biết đến tương quan của bạn đối với những lý tưởng riêng của họ... Như vậy sẽ vẽ ra một thế giới theo đấy ta có khả năng rút tĩa ra được cái gì đó, và thế giới này sẽ cân bằng hơn. Tuy nhiên sẽ không chắc hiện ra một thế giới yên tâm hơn. 

Không có nhận xét nào:

Đăng nhận xét