Logo Pinterest

Sách này chia sẻ mục đích hỗ trợ người đọc cá nhân chưa có điều kiện mua sách giấy, hoàn toàn miễn phí và phi lợi nhuận. Sách được sưu tầm nhiều nguồn khác nhau mọi bản quyền thuộc về Tác Giả & Nhà Xuất Bản!

Giới thiệu & trích đoạn ebook

Hãy để cho dữ liệu nói

Thật dễ nhận thấy những thành quả của xã hội thông tin, với một điện thoại di động và một máy tính bỏ túi mỗi người, cùng các hệ thống công nghệ thông tin lớn trong văn phòng khắp mọi nơi. Nhưng điều người ta ít thấy rõ hơn là chính thông tin.

Một nửa thế kỷ sau khi máy tính bước vào xã hội chính thống, dữ liệu bắt đầu được tích lũy nhiều tới mức mà một điều gì đó mới mẻ và đặc biệt sắp xảy ra. Không những thế giới tràn ngập thông tin nhiều hơn bao giờ hết, mà thông tin còn tăng nhanh hơn. Sự thay đổi về quy mô đã dẫn đến một sự thay đổi về trạng thái. Thay đổi về lượng đã dẫn tới thay đổi về chất. Các khoa học như thiên văn, gen, mới được trải nghiệm sự bùng nổ trong những năm 2000, đã đưa ra thuật ngữ “dữ liệu lớn”, khái niệm mà nay đã di trú vào tất cả các lĩnh vực của đời sống con người.

Không có một định nghĩa chính xác cho dữ liệu lớn. Ban đầu ý tưởng là dung lượng thông tin đã tăng quá lớn tới mức số lượng cần khảo sát không còn vừa vào bộ nhớ các máy tính dùng để xử lý, do vậy các kỹ sư cần cải tạo các công cụ họ dùng để có thể phân tích được tất cả thông tin. Đó là xuất xứ của các công nghệ xử lý mới như MapReduce của Google và nguồn mở tương đương của nó, Hadoop, khởi đầu từ Yahoo. Những công nghệ này cho phép ta quản lý những khối lượng dữ liệu lớn hơn nhiều so với trước đây, và quan trọng là không cần đưa dữ liệu vào các hàng ngăn nắp hoặc các bảng cơ sở dữ liệu cổ điển. Các công nghệ nghiền dữ liệu khác, bỏ qua các cấu trúc phân cấp và đồng nhất cứng nhắc cổ điển, cũng ở trong tầm ngắm. Đồng thời, do các công ty Internet có thể thu thập được vô số dữ liệu quý giá và có động cơ kinh tế lớn để khai thác chúng, nên các công ty này trở thành người sử dụng hàng đầu của các công nghệ xử lý hiện đại nhất, vượt qua các công ty truyền thống, đôi khi có tới hàng chục năm kinh nghiệm nhiều hơn.

Một cách để suy nghĩ về vấn đề ngày hôm nay – và cũng là cách chúng tôi thực hiện trong cuốn sách này – là: dữ liệu lớn đề cập tới những thứ người ta có thể làm với một quy mô lớn mà không thể làm với một quy mô nhỏ hơn, để trích xuất những hiểu biết mới hoặc tạo ra những dạng giá trị mới, theo những cách thức có thể làm thay đổi các thị trường, các tổ chức, mối quan hệ giữa các công dân và các chính phủ, và hơn thế nữa.

Nhưng đó chỉ là bước khởi đầu. Thời đại của dữ liệu lớn thách thức cách chúng ta sống và tương tác với thế giới. Nổi bật nhất, xã hội sẽ phải cắt giảm một số nỗi ám ảnh của nó về quan hệ nhân quả để đổi lấy mối tương quan đơn giản, không biết tại sao mà chỉ biết cái gì. Điều đó làm đổ vỡ hàng thế kỷ các tập quán đã được thiết lập và thách thức hiểu biết cơ bản nhất của chúng ta về việc làm thế nào để đưa ra được quyết định và hiểu được thực tế.

Dữ liệu lớn đánh dấu bước khởi đầu của một biến đổi lớn. Giống như nhiều công nghệ mới, dữ liệu lớn chắc chắn sẽ trở thành nạn nhân của chu kỳ thổi phồng khét tiếng của Thung Lũng Silicon: sau khi được tiếp đón trên trang đầu của các tạp chí và tại các hội nghị công nghiệp, xu hướng này sẽ bị ruồng bỏ và rất nhiều công ty khởi động say mê dữ liệu sẽ bị lúng túng. Nhưng cả thái độ say mê và nguyền rủa đều hiểu lầm một cách khá sâu tầm quan trọng của những gì đang xảy ra. Đúng như kính thiên văn tạo điều kiện cho chúng ta hiểu biết được vũ trụ và kính hiển vi cho phép chúng ta hiểu biết được vi trùng, các kỹ thuật mới để thu thập và phân tích những tập hợp lớn dữ liệu sẽ giúp chúng ta tìm ra ý nghĩa của thế giới theo những cách thức mà chúng ta mới chỉ vừa bắt đầu ưa thích. Trong cuốn sách này, chúng tôi không hẳn là những kẻ truyền giáo của dữ liệu lớn mà chỉ là những người đưa tin. Và, một lần nữa xin nhấn mạnh, cuộc cách mạng thật sự không phải ở những chiếc máy tính toán dữ liệu mà ở chính dữ liệu và cách ta sử dụng chúng.

Để đánh giá mức độ một cuộc cách mạng thông tin đã tiến triển tới đâu, ta hãy xem xét các xu hướng xuyên suốt các lĩnh vực của xã hội. Lấy ví dụ thiên văn học. Khi Sloan Digital Sky Survey (SDSS – Trạm quan sát bầu trời bằng kỹ thuật số Sloan) bắt đầu hoạt động vào năm 2000, kính thiên văn của nó tại New Mexico trong mấy tuần đầu tiên đã thu thập nhiều dữ liệu hơn những gì được thu thập trong toàn bộ lịch sử của ngành thiên văn. Đến năm 2010, lưu trữ của trạm đã bạt ngàn với con số khổng lồ 140 tera (10 mũ 12) byte thông tin. Nhưng kẻ kế nhiệm, kính thiên văn của Large Synoptic Survey (LSST) ở Chile, dự kiến vận hành vào năm 2016, cứ mỗi năm ngày sẽ thu thập được lượng dữ liệu tương đương như thế.

Những số lượng vô cùng to lớn như vậy cũng có thể được tìm thấy ngay xung quanh chúng ta. Khi các nhà khoa học lần đầu giải mã gen người vào năm 2003, họ đã mất một thập kỷ làm việc miệt mài để xác định trình tự cho ba tỷ cặp cơ sở. Bây giờ, sau một thập kỷ, một thiết bị đơn lẻ cũng có thể xác định trình tự cho số lượng DNA như vậy chỉ trong một ngày. Trong ngành tài chính, khoảng 7 tỷ cổ phiếu được mua bán mỗi ngày trên các thị trường chứng khoán Mỹ, trong số đó khoảng hai phần ba được giao dịch bằng các thuật toán máy tính dựa trên các mô hình toán học xử lý hàng núi dữ liệu để dự đoán lợi nhuận trong khi cố gắng giảm thiểu rủi ro.

Phùng Ngọc Trác

Dữ Liệu Lớn – Đọc sách online ebook pdf

Giới thiệu & trích đoạn ebook

Sách liên quan

Luận Án: Giải Pháp Điều Khiển Tắc Nghẽn Trong Mạng IoT Với Giao Thức CoAP

Xác Suất Thống Kê Và Ứng Dụng

Vật Lý Đại Cương – Các Nguyên Lý Và Ứng Dụng Tập 3 – Quang Học Và Vật Lý Lượng Tử

Tuyển Tập Địa Bạ Thăng Long Hà Nội – Địa Bạ Huyện Thanh Trì Tập 2

Tuyển Tập Địa Bạ Thăng Long Hà Nội – Địa Bạ Huyện Thanh Trì Tập 1

Tuyển Tập 36 Đề Trắc Nghiệm Môn Hóa Học

Donate Ủng hộ chúng tớ 1 ly cafe