Tổng số lượt xem trang

Thứ Tư, 5 tháng 2, 2014

VỀ MỘT THẾ GIỚI MỚI CÁC DỮ LIỆU


Về một Thế giới mới các dữ liệu
Hubert Guillaud
Chúng ta đã đi từ một mạng lưới thông tin và hiểu biết qua một mạng lưới dữ liệu. “Các dữ liệu giờ đây là nguồn nhiên liệu mới cho nền kinh tế” như nhà tư vấn Clive Humby đã giải thích. Chúng ta sẽ không thoát khỏi việc khai thác tối đa sức mạnh của dữ liệu qua việc phân tích, tổng hợp, biểu diễn, nghiên cứu và xử lý dữ liệu…
Mạng web là một hệ sinh thái các căn cứ dữ liệu được kết nối với nhau. Dữ liệu nằm khắp mọi nơi dưới dạng những danh mục dữ liệu đồ sộ tự sản sinh ra những dữ liệu riêng cho mình, vì ngay việc ta truy vấn những dữ liệu này tự thân cũng đã là nguồn dữ liệu.
Tất cả đều là thông tin. Tất cả đều là dữ liệu. Nhưng trước tiên là cả một thế giới thực, được biểu diễn ngay liền lập tức. Dữ liệu không ngừng tích lũy, nhưng dữ liệu nào mới nhất bao giờ cũng là quan trọng nhất, vì chính chúng cho phép hiểu thế giới ngày hôm nay và tiên đoán thế giới ngày mai. “90% toàn bộ dữ liệu của thế giới đều được tạo cách đây 2 năm”, như Stephen Gold thuộc công ty IBM đã ước tính không lâu. Chúng ta đang sống trong một “trận lụt dữ liệu”: thực chất dữ liệu mà chúng ta sẽ sử dụng trong 2 năm tới sẽ không dính dáng gì với dữ liệu mà ta đang sử dụng ngày hôm nay. Dữ liệu là nguồn nhiên liệu mới bất tận, nhưng chúng ta cũng đang đốt cháy chúng rất nhanh chóng như trước đây.
Mạng web trở thành “căn cứ dữ liệu của những ý đồ của chúng ta” như xác nhận của John Battelle năm 2003. Chỉ vài cú nhấp chuột là ta có thể xây dựng căn cứ dữ liệu này. Khi ta lướt web, hoặc khi ta nhấp chuột trên các dữ liệu lịch sử, hoặc khi ta chờ đợi gì đó trên đường truyền thông tin, tất cả đều được ghi dấu, đo lường và ảnh hưởng lên những gì ta muốn truy cập. Một hành động nhỏ của ta trên internet là một dữ liệu, kể cả thời gian ta nhởn nhơ trên một trang web. Chính cách hành xử của chúng ta đã làm nên Internet.
Dữ liệu đầu tiên, dòng nhiên liệu chưa được lọc, chính là dữ liệu của những hành xử khi ta đang trên đường truyền, hằng tỉ cú nhấp chuột mà chúng ta thực hiện trên web mỗi nơi mỗi lúc. Tất cả những gì chúng ta đụng đến trở thành dữ liệu, trở thành vàng hoặc dầu thô. “Tin học tan biến trong cách hành xử của chúng ta” như đã được giải thích bởi Adam Greenfield vào năm 2007. Mạng web thường xuyên và vĩnh viễn lưu dấu chúng ta và ta không có quyền bị lưu dấu, như Alexis Madrigal đã nhấn mạnh.
Nhưng chúng ta chớ nên tự lừa dối. Không phải những dữ liệu công cộng cũng như dữ liệu mở (open data) là nhiên liệu duy nhất của nền kinh tế này. Trước tiên là những dữ liệu cá nhân: “Chính dữ liệu cá nhân đã trở thành nguồn nhiên liệu mới đối với internet và đồng tiền mới của thế giới số” như đã được nhấn mạnh vào năm 2009 bởi Meglena Kuneva, ủy viên EU về tiêu thụ. Chính dữ liệu cá nhân là thế hệ dữ liệu kế tiếp mà ta phải để ý đến.
Hầu như không có dữ liệu nào là cá nhân cả. Chắc mọi người còn nhớ những tập tin log của AOL (nghĩa là nhật ký sử dụng internet của hàng ngàn người sử dụng). Chỉ cần quan sát những gì người sử dụng đang tìm kiếm trên mạng là ta có thể nhận diện vô số người sử dụng, cho dù các dữ liệu này không mang bất cứ thông tin nào được gắn tên. Các dữ liệu này cho phép nhận diện người sử dụng, đơn giản bằng việc quan sát những site mà họ tìm đến. Thí dụ, ngày nay, công ty khởi nghiệp Face.com cho phép phân tích bất cứ hình ảnh nào trên web, chẳng hạn cung cấp cho bạn những thông tin liên quan đến một khuôn mặt: cho biết đây là một người đàn ông, có cười hay không cũng như tuổi tác của người này. Công ty Face.com còn có khả năng nhận ra những người trên bức ảnh hoặc trên một video có mang tên với một độ chính xác kinh khủng, chẳng qua bằng cách lục lọi lên những ngân hàng hình ảnh đã được sưu liệu (theo đấy có kèm theo tên tuổi) đầy dẫy trên web – đây là thí dụ nhận diện các nhân vật của Star Trek. Ngày mai, khi bạn cho đăng tải một bức ảnh lên internet, thì mạng sẽ có khả năng không chỉ nhận diện những dữ liệu meta được gắn liền với bức ảnh (ngày chụp, máy chụp, v.v..) mà còn nhận ra ai đó trên ảnh, v.v.. Sự giao thoa giữa khả năng xử lý kinh khủng với những căn cứ dữ liệu khổng lồ đánh dấu sự chấm dứt những dữ liệu cá nhận.
Lẽ dĩ nhiên “tất cả các” dữ liệu không trở thành dữ liệu cá nhân (thí dụ giờ giấc các chuyến xe, dữ liệu của các bộ cảm biến môi trường, các tài liệu hành chính, v.v..) nhưng một khối lượng rất lớn dữ liệu ban đầu không phải thuộc cá nhân sẽ trở thành cá nhân. Lý do là vì mỗi ngày việc “xếp cặp” các dữ liệu càng trở nên dễ dàng, nên bất cứ lúc nào cũng có thể chuyển bật các dữ liệu “vô giá trị” thành dữ liệu mang tính cá nhân. “Các dữ liệu đã biến internet thành một nơi mà mọi người chỉ có tên là vô danh”. Và tên này không còn quan trọng nửa và cũng không còn là một bức tường ngăn cản việc cá nhân hóa dữ liệu.
Sau đây là một thí dụ mang tên SceneTAP, bằng cách cho cài đặt một camera trong một quán rượu. Ứng dụng này sẽ cho đếm số người hiện diện để tính ra tỉ lệ lấp đầy quán, hoặc có khả năng xác định tỉ lệ nam nử, tuổi trung bình theo giới tính, và trong tương lai có thể nhận diện những khách hiện diện trong quán. Phần mềm SceneTAP sẽ cho phép ta từ một chiếc điện thoại thông minh (smartphone) có thể thấy theo thời thực những quán rượu nào nhộn nhịp trong bán kính bao nhiêu, hoặc những khách trong quán có ai ta muốn tìm kiếm hay không.
Điểm lý thú trong thí dụ này, không phải là những dữ liệu mà hệ thống camera cung cấp, mà là quan sát việc các dữ liệu này hoạt động thế nào, chúng sinh sôi nẩy nở ra sao. Việc đặt một máy camera tự thân không có lợi ích gì (cho chủ quán rượu). Điểm lý thú là sự kết nối dữ liệu do máy camera đem lại với những căn cứ dữ liệu khác, chẳng hạn căn cứ dữ liệu của Face.com.
Người ta không chỉ đơn thuần tạo ra dữ liệu. Ta phải hiểu là, những dữ liệu này từ đây trở đi nằm trên mạng. Và vì dữ liệu nằm trên mạng, nên chúng bị chia nhỏ lại và tạo ra những dữ liệu mới. Dữ liệu sẽ không đóng gói nằm trong các kho chứa, và vì rằng chúng có thể tổ hợp lại với nhau, tự trao đổi với nhau, tạo ra một internet mới, cho nên hình thành một cấu trúc mới dựa trên việc trao đổi dữ liệu. Chính đây là một nền kinh tế các API (application program interface – giao diện các chương trình ứng dụng), những nghiền trộn (mashup) các dịch vụ, một trong những điểm mấu chốt của Thế Giới Mới các dữ liệu. Các hệ thống xã hội kỹ thuật của chúng ta đã truy cập vào vô số căn cứ dữ liệu cho phép tái cấu trúc dữ liệu rất nhanh, đem lại cho dữ liệu một ý nghĩa nào đó do sự giao thoa mà ra.
Trong Thế Giới Mới này, bất cứ hành động nhỏ nhặt nào của chúng ta đều tạo ra dữ liệu. Một thí dụ nhỏ trong muôn vàn thí dụ để minh họa điều này. Ashtmapolis bao gồm một máy thu GPS nhỏ có thể được gắn liền lên một ống hít thuốc ventoline dành cho những bệnh nhân hen suyển. Máy thu GPS được gắn liền này, không cần phải điền bất cứ giấy tờ gì, cho phép chỉ dẫn những vùng địa lý nào mà bệnh nhân hen suyển lên cơn đơn giản bằng cách sử dụng bộ hít ventoline này. Bộ Asthmapolis tạo ra một bản đồ địa lý cho phép bệnh nhân hen suyển sưu liệu thực địa cho nhiều bệnh nhân hen suyển giúp tránh những vùng nguy hiểm, những vùng có phấn hoa mà họ có thể tránh xa dễ dàng. Đây đúng là internet các đối tượng, internet những máy thu thông tin giúp sưu liệu thế giới thực của chúng ta. Chúng ta đang đi vào một thế giới theo đấy mọi hành động của chúng ta, cho dù nhỏ nhặt vô nghĩa nào đi nửa, cũng sẽ tạo ra một cách tiềm ẩn những dữ liệu, một cách tự nguyện, cũng như ta không hề biết đến.
Tất cả mọi việc đều có thể trở thành dữ liệu. Có một thí dụ khá thú vị là những chiếc kính mắt được triển khai bởi bà Rosalind Picard, giám đốc Nhóm Nghiên cứu Tin học Trìu mến tại đại học MIT (Mỹ), cho phép mỡ ra những chân trời mới để hiểu thấu sẽ đi đến đâu sự “biến thành dữ liệu” của thế giới. Đây là những chiếc kính mắt dùng đo lường mức độ tương tác thực sự của chúng ta đối với những người khác. Cặp kính này có chức năng giúp những ai đeo nó giải mã những cảm xúc của người đối diện mà ta đang tranh luận. Các cặp kính này được trang bị một camera nhỏ lo quan sát nhiều điểm trên mặt người đối diện cũng như sự chuyển động của những điểm này để giải mã. Những ánh đèn nhỏ màu đỏ, vàng và lục được đặt trên đường biên tầm nhìn cho phép dịch ra cảm nghĩ của người đối diện là tiêu cực, hoặc trung lập hoặc tích cực. Ý chính nằm sau dự án này là để xem những bộ phát hiện cảm xúc giúp ta hiểu nhau tường tận hơn thế nào. Phần lớn thời gian, ta không tài nào phát hiện những dấu hiệu liên lạc không thuộc lời nói có được qua những tương tác vật lý của chúng ta. Ngày mai, những dấu hiệu không thuộc lời nói sẽ được giải mã bởi những hệ thống kỹ thuật và sẽ giúp chúng ta hiểu người khác hơn, hoặc đo lường thời gian nói chuyện để cho thấy chẳng hạn ta không để người khác đủ thời gian biểu hiện cảm xúc khi tranh luận với chúng ta. Việc sản xuất ra dữ liệu đòi hỏi chen chân vào những tương tác xã hội thầm kín nhất.
Trong Thế Giới Mới Dữ liệu này, chúng ta cũng sẽ thấy những nhà sản xuất mới và những phương thức sản xuất dữ liệu mới. Tất cả mọi thứ và tất cả mọi người sẽ sản xuất ra dữ liệu. Đây không chỉ dành riêng cho những hệ thống kỹ thuật hoặc những định chế là nhà sản xuất chính các dữ liệu, mà việc sản xuất này sẽ được thực hiện ngày càng nhiều bởi những cá nhân. Dữ liệu sẽ được đồng sản xuất bởi những người sử dụng và những máy thu thập thông tin ngày càng nhiều, bao giờ cũng trong tầm tay (và khắp nơi) thông qua internet mobile. Nếu người ta nói đến một giảm tốc các dữ liệu, thì cũng phải nói đến chuyện biến đổi những phương thức xử lý, những “giải thuật này đã điều khiển chúng ta”. Thường người ta quan sát việc xuất hiện khối lượng lớn dữ liệu, như là nguyên liệu chính của sự hiểu biết, cách biểu diễn, tranh luận, quyết định, sản xuất và đánh giá. Nhưng người ta đặt rất ít câu hỏi về vai trò của thu thập dữ liệu và xử lý dữ liệu. Tuy nhiên. Tuy nhiên, ngày càng nhiều ta phải đối đầu với một sự đan dệt phức tạp đi từ rời rạc hóa dữ liệu (nghĩa là cách dữ liệu được tạo ra và được thu thập) qua khả năng lập trình dữ liệu (nghĩa là cách dữ liệu sẽ được xử lý, lập trình và giải thuật hóa thế nào).
Chúng ta tất cả đều là những nhà sản xuất dữ liệu. Nhưng liệu có nên giao toàn bộ hạ tầng căn cứ và kiến trúc, cách mà dữ liệu được sử dụng, cho những chuyên gia và những lập trình viên hay không, những người mà trước mặt họ ta cảm thấy bất lực, bị lột trần. Có lẽ thực chất là nên nhìn vào những nơi quyền lực của các hệ thống kỹ thuật và trong tương lai làm thế nào đoạn mã, giải thuật có thể được truy cập bởi tất cả mọi người. Trước cơn lụt dữ liệu, ta cũng phải quan tâm đến những hình thái xử lý mà dữ liệu phải được qua. Chỗ đứng của người sử dụng trong những vụ xử lý mà ta phải tùy thuộc là ở đâu?. Cũng như những ai chủ sở hữu một site internet cũng lệ thuộc vào những thay đổi giải thuật của cỗ máy truy tìm Google (Google Dance) có thể sắp xếp hạng người sử dụng từ tốt qua rất xấu, đơn giản vì giải thuật sắp xếp đã thay đổi. Trong Thế Giới Mới Dữ liệu này, chúng ta phải hỏi những xử lý được xây dựng bởi những nhà thống kê, các nhà vật lý, các nhà toán học, kỹ sư và chuyên gia mạng, xem chỗ đứng của người sử dụng trong những xử lý là ở đâu. Làm thế nào một thế giới bao trùm bởi dữ liệu trở thành một thế giới trao quyền lực cho người sử dụng thay vì tước mất quyền của họ. Nếu ta biết những qui định về việc thu thập dữ liệu, nhưng ta lại ít biết đến những qui định bao quanh những phương thức xử lý dữ liệu, đặc biệt là những qui định xảy ra từ lâu trong những nghiền trộn của các dịch vụ, trong những trao đổi giữa API mà chúng tôi đã đề cập đến trước đây.
Chính toàn bộ những dữ liệu này được nhân với các dữ liệu trên mạng, những phương thức sản xuất mới, những loại nhà sản xuất mới và những phương thức xử lý mới đã tạo ra một Thế Giới Mới Dữ liệu. Đây là thế giới của những #bigdata. Một thế giới được thúc đẫy bởi dữ liệu (data driven) mà ta phải hiểu mục đích, những cá cược, những mục tiêu. Dữ liệu này giúp ích gì? Ai sẽ xử lý chúng? Thế nào?
Thế Giới Mới này không sản xuất dữ liệu vì dữ liệu. Mục đích của Thế Giới Mới này không phải để sản xuất những tập tin Excels. Bạn thử nhìn chiếc xe không người lái mang tên Google Car (vừa được phép lái tại sa mạc Nevada – Mỹ) hoạt động thế nào. “Một chiếc xe tự chủ cho phép phân tích và tiên đoán thế giới 20 lần trong một giây”. Đây là một chiếc xe thuần túy dữ liệu (đầy mình với những bộ thu thập thông tin), chỉ hoạt động nhờ dữ liệu mà nó thu thập trong môi trường xung quanh nó, kèm theo dữ liệu riêng khác chẳng hạn cấu hình các con đường mà dự án Google Maps cung cấp cũng như những dữ liệu định vị địa lý.
Thế Giới Mới này phân tích thế giới thực liên tục với mục đích cung cấp tính tiên đoán, nghĩa là làm cho có thể tiên đoán tương lai của thế giới. Chúng ta sẽ đương đầu với một tương lai theo đấy mọi sự có thể tiên đoán được bởi những người khác, thông qua một đám mây tin học và cách thức mà chúng ta được nối liền thông qua internet
Thế Giới Mới này tìm cách cho phép ta thường xuyên đưa cách hành xử của chúng ta vào đúng trung tâm xã hội, thông qua khối lượng đồ sộ dữ liệu được xử lý bởi những giải thuật tiên đoán trước. Sau những sản phẩm của dữ liệu, rõ ràng là sự cảm nhận của chúng ta đối với chúng ta bị thay đổi, vì rằng chúng ta hiện đang ở trung tâm của thế giới dữ liệu này. Và như thế ta phải học tồn tại.
Chúng ta cần có những công cụ cho ta khả năng trở nên vô danh hoặc làm như thế. Ta cần có những công cụ có khả năng giúp ta nói dối tùy theo những người nào ta đang làm việc, những hệ thống cho phép kết nối vào dữ liệu của chúng ta hoặc vào dữ liệu mà những người ta khác thu thập liên quan đến chúng ta. Hơn bao giờ hết, chúng ta cần có những nét nhận diện tích cực, nghĩa là không những làm chủ những dữ liệu mà ta giải phóng, nhưng nhất là làm thế nào những hậu quả của dữ liệu phải minh bạch đối với chúng ta.
Làm thế nào bảo đảm là những thông tin mà chúng ta phát ra hoặc những thông tin đi ngang qua ta và qua các đối tượng của ta là không thể cho phép nhận diện hình thức hoặc suy diễn thoát khỏi tầm kiểm soát của ta?. Làm thế nào tách rời “ta là ai” khỏi “ta đang ở đâu”. Tại sao lại có quá nhiều hệ thống ghi nhận những dữ liệu mà chúng không cần phải lưu trữ lại? Ngoài ra, đây chính là việc tranh cãi liên quan đến tính bảo mật của nơi lui tới của chúng ta, ta đang lo lắng liệu xem chúng ta có thể đi đây đi đó mà mọi di chuyển của ta không bị bí mật theo dõi và ghi nhận bởi một ai đó dùng về sau, như ta đã thấy với những điện thoại di động “chó săn”.
“Trước tiên là phải xây dựng những hệ thống không thu thập dữ liệu ” như đã được khuyến cáo với lý do là con đường dễ dàng nhất. Muốn thế, các hệ thống xử lý phải được thiết kế cho bao gồm vô số chính sách liên quan đến bảo mật riêng tư. “Phải xây dựng những hệ thống định vị không biết chúng ta đang ở đâu”, nghĩa là thí dụ những thẻ vận tải không ghi nhận nơi chúng ta đang đứng, hoặc những module định vị vô danh, với những bộ phận nhận diện động không cho phép rút ra một tương quan giữa một người với một vị trí.
Những kỹ thuật mật mã hóa phải được khai thác một cách có hệ thống để, thí dụ, một dịch vụ nào đó biết định vị ai đó, hoặc nhận diện người này có một tài khoản tại dịch vụ, nhưng không được cho biết là ai. Một lớp thông tin khác cho phép người này, nếu muốn, tranh luận hoặc định vị các bạn bè của họ. Miễn là tất cả mọi việc không được truy cập rõ ràng bởi mỗi dịch vụ được sử dụng đến, như phần lớn trường hợp hiện hành. Các nghi thức mật mã hóa cần thiết là hiện hữu. Chắc chắn chúng tượng trưng cho một thách thức kỹ thuật cần được đầu tư, nhưng chúng chỉ có thể cho phép ta thoát khỏi sự minh bạch liên quan đến những di chuyển của chúng ta nhưng vẫn hưởng những lợi ích của những dịch vụ định vị.
Có một cá cược trong việc làm cho dễ dàng việc khai thác các dữ liệu cũng như làm cho ít đi những thông tin mà dữ liệu mang đến. Sự đối nghịch này gây ra một điểm căng thẳng khó tìm ra một điểm cân bằng. Nhưng nếu người ta muốn khuyến cáo một quyền được quên đi, một quyền có sai lầm, một quyền truy cập dữ liệu đi xuyên qua chúng ta: thì không những phải làm dễ dàng việc khai thác dữ liệu mà còn phải làm dễ dàng việc truy cập dữ liệu cũng việc quản lý dữ liệu. Ngày mai hơn là ngày hôm nay, các vùng điền lên các biểu mẫu sẽ không phải bị bắt buộc.
Chúng ta cần có một truy cập tốt hơn liên quan đến việc thu thập dữ liệu, những bảo đảm tốt hơn liên quan đến những qui tắc áp đặt lên các qui trình (để chúng không thể bị thay thế một cách đơn phương chẳng hạn) và những bảo đảm và bảo vệ tốt hơn liên quan đến việc phát tán dữ liệu.
Trong Thế Giới Mới này, ta cần có những điểm quy chiếu mới. Chúng ta phải được sở hữu những dữ liệu mà ta cho ra để hiểu thấu các dữ liệu này sản sinh ra cái gì. Ta cần có những công cụ, những thể nghiệm, và những phương pháp luận. Chúng ta cần có những chỗ, những không gian vật lý hoặc ảo, những nguồn lực được tổ chức để trao đổi và hiểu biết Thế Giới Mới này. Chính đây là nơi dùng làm những Info Labs (phòng thí nghiệm thông tin), một khái niệm về một không gian mở mà ta được mời tới làm rõ và trao đổi với chúng ta. Chúng ta cần tổ chức tập thể những hình thức sở hữu văn hóa của Thế Giới Mới này mà chúng ta đang bước vào. Hơn bao giờ hết, chúng ta cần khoảng không gian để hiểu toàn bộ Thế Giới Mới này.

Không có nhận xét nào:

Đăng nhận xét