Big Data là gì? Tất tần tật những điều bạn nên biết về Big Data

Big Data ra đời như một sự tất yếu của thị trường khi internet và công nghệ 4.0 đang phát triển và giúp ích rất nhiều cho các marketer. Vậy Big Data là gì? Nó có những năng lực nào giúp thương hiệu thu hút khách hàng. Cùng MarketingAI tìm hiểu qua bài viết dưới đây.

Big Data là gì?

Khái niệm

Big Data là thuật ngữ mô tả khối lượng dữ liệu lớn – cả cấu trúc và không có cấu trúc. Dữ liệu này cung cấp thông tin cho một doanh nghiệp trên cơ sở hàng ngày. Big Data có thể được phân tích để có thông tin chi tiết dẫn đến các quyết định tốt hơn và các động thái kinh doanh chiến lược. Những bộ dữ liệu này lớn đến nỗi phần mềm xử lý dữ liệu truyền thống không thể quản lý chúng. Nhưng những khối lượng dữ liệu khổng lồ này có thể được sử dụng để giải quyết các vấn đề kinh doanh mà doanh nghiệp không thể giải quyết được trước đây.

Nguồn gốc và sự phát triển

Đối với nhiều người, Big Data là một thuật ngữ còn khá mới mẻ. Nhưng thực ra, nguồn gốc của Big Data đã bắt đầu từ những năm 1960 và 1970. Đó là thời điểm mà thế giới dữ liệu chỉ mới bắt đầu với các trung tâm dữ liệu đầu tiên cùng với sự phát triển của cơ sở dữ liệu SQL.

định nghĩa big data là gì

Định nghĩa về Big Data
Nguồn: Eduardo Magrani

Năm 1984, Tập đoàn Teradata đã cho ra thị trường hệ thống xử lý dữ liệu song song DBC 1012. Đây chính là hệ thống đầu tiên phân tích và lưu trữ tới 1 terabyte dữ liệu. Đến năm 2017, có hàng chục cơ sở dữ liệu dựa trên hệ thống của Teradata với dung lượng lên đến hàng petabyte. Trong đó, dữ liệu lớn nhất đã vượt qua ngưỡng 50 pentabytes.

Năm 2000, Seisint Inc. (nay là Tập đoàn LexisNexis) đã phát triển thành công khung chia sẻ dữ liệu dựa theo cấu trúc C++ để truy vấn và lưu trữ dữ liệu. Năm 2004, Google cho ra bài báo về quá trình có tên gọi MapReduce, sử dụng kiến ​​trúc tương tự. MapReduce cung cấp mô hình xử lý song song, cho ra những ứng dụng liên quan để có thể xử lý nhanh lượng dữ liệu khổng lồ. Google triển khai mẫu MapReduce thông qua mã nguồn mở Apache Hadoop.

Năm 2005, con người bắt đầu nhận ra rằng số lượng người dùng được tạo ra thông qua YouTube, Facebook và các dịch vụ trực tuyến khác là cực kỳ lớn. Cùng năm đó, Hadoop (một framework open source được tạo riêng với nhiệm vụ lưu trữ và phân tích Big Data) đã được phát triển. Cũng trong khoảng thời gian này, NoSQL cũng bắt đầu trở nên phổ biến. Sự phát triển của các framework, ví dụ như Hadoop (hoặc gần đây là Spark) là cần thiết cho sự phát triển của Big Data. Lý do là vì chúng khiến cho Big Data hoạt động dễ dàng hơn và lưu trữ rẻ hơn.

Sự có mặt của IoT đã tạo ra nhiều dữ liệu hơn.

Hiện nay, khối lượng Big Data đã tăng một cách nhanh chóng, những người sử dụng vẫn đang hàng ngày tạo ra một lượng dữ liệu vô cùng lớn. Tuy nhiên, có một điều thú vị là lượng dữ liệu đó không chỉ của con người mà còn do máy móc tạo ra, thậm chí còn là chủ yếu. Với sự ra đời của IoT (Internet of Things), nhiều thiết bị và đối tượng được kết nối với internet, từ đó thu thập dữ liệu về mô hình sử dụng của người dùng và hiệu suất của sản phẩm. Chính sự có mặt của IoT đã tạo ra nhiều dữ liệu hơn.

Đặc trưng của Big Data

Những đặc trưng của dữ liệu lớn bao gồm:

  • Volume (Khối lượng dữ liệu): Với Big Data, bạn sẽ phải xử lý khối lượng lớn dữ liệu có mật độ thấp, không có cấu trúc. Đây có thể là dữ liệu của giá trị không xác định, chẳng hạn như nguồn cấp dữ liệu Twitter, nhấp chuột trên trang web hoặc ứng dụng dành cho thiết bị di động hoặc thiết bị hỗ trợ cảm biến. Đối với một số tổ chức, điều này có thể là hàng chục terabyte dữ liệu. Đối với những người khác, nó có thể chỉ là hàng trăm petabyte.
  • Velocity (Vận tốc mà dữ liệu cần xử lý được và phân tích): Đó là tốc độ dữ liệu được nhận và (có thể) hành động. Thông thường, tốc độ của luồng dữ liệu trực tiếp vào bộ nhớ cao hơn so với được ghi vào đĩa. Một số sản phẩm thông minh hỗ trợ internet hoạt động trong thời gian thực hoặc gần thời gian thực sẽ yêu cầu đánh giá và hành động theo thời gian thực.
  • Variety (Nhiều loại dữ liệu đa dạng): Các kiểu dữ liệu truyền thống được cấu trúc và phù hợp với một cơ sở dữ liệu. Các kiểu dữ liệu phi cấu trúc và bán cấu trúc, chẳng hạn như văn bản, âm thanh và video yêu cầu xử lý bổ sung để lấy được ý nghĩa và siêu dữ liệu hỗ trợ.

Các đặc trưng của big data

Big Data 3V là đặc trung rõ nhất
Nguồn: Digital Ready

Các kho dữ liệu lớn được tạo thành từ những dữ liệu. Dữ liệu có thể đến từ các nguồn như ứng dụng trên thiết bị di động, ứng dụng dành cho máy tính để bàn, mạng xã hội, trang web, thí nghiệm khoa học, thiết bị cảm biến và các thiết bị khác trong internet (IoT).

Big Data khi đi kèm cùng với các thành phần có liên quan cho phép các tổ chức đưa dữ liệu vào sử dụng thực tế và giải quyết một số các vấn đề trong kinh doanh. Các vấn đề đó gồm có:

  • Các phân tích áp dụng với các dữ liệu
  • Cơ sở hạ tầng IT cần thiết để có thể hỗ trợ cho Big Data
  • Các công nghệ cần thiết cho những dự án Big Data các bộ kỹ năng có liên quan
  • Những trường hợp thực tế có ý nghĩa đối với Big Data

Phân tích dữ liệu mới là giá trị thực sự được mang lại từ các tổ chức dữ liệu lớn. Nếu không có sự phân tích thì đây chỉ là những dữ liệu được sử dụng vô cùng hạn chế trong kinh doanh. Với việc phân tích những dữ liệu lớn, các công ty có thể thu về cho mình những lợi ích như dịch vụ khách hàng được cải thiện, từ đó mang lại hiệu quả cao hơn, tăng doanh thu và tăng khả năng cạnh tranh.

Big Data là gì? Big data và analytics

Big Data và Analytics

Việc phân tích dữ liệu có liên quan đến việc kiểm tra những bộ dữ liệu để thu thập thông tin chi tiết hoặc rút ra kết luận về những nội dung chúng chứa, ví dụ như xu hướng và dự đoán về hoạt động trong tương lai. Bằng việc phân tích dữ liệu, các tổ chức có thể đưa ra quyết định kinh doanh tốt hơn. Ví dụ các tổ chức có thể quyết định xem khi nào và ở đâu thì nên chạy chiến dịch tiếp thị hoặc giới thiệu sản phẩm, dịch vụ mới. Sự phân tích có thể được tham khảo từ các ứng dụng kinh doanh tiên tiến, thông minh hơn. Các tổ chức khoa học sử dụng phép phân tích dự đoán như một ứng dụng.

Data Mining là loại phân tích dữ liệu cao cấp nhất, là nơi mà các nhà phân tích đánh giá các bộ dữ liệu lớn để xác định mối quan hệ, mô hình và xu hướng. Phân tích dữ liệu có thể bao gồm phân tích dữ liệu thăm dò và phân tích dữ liệu xác nhận. Có một mảng khác chính là phân tích những dữ liệu định lượng (hoặc phân tích dữ liệu số có các biến có thể so sánh theo thống kê) so với phân tích dữ liệu định tính (tập trung vào các dữ liệu không phải dữ liệu cá nhân như văn bản, hình ảnh, video).

Cơ sở hạ tầng IT cần thiết để hỗ trợ Big Data

Đối với khái niệm Big Data để có thể làm việc, các tổ chức cần phải xây dựng được cơ sở hạ tầng để thu thập và chứa dữ liệu, cung cấp quyền truy cập và đảm bảo thông tin trong khi chuyển tiếp và lưu trữ. Cấp độ cao hơn, bao gồm hệ thống lưu trữ và máy chủ được thiết kế cho Big Data, tích hợp dữ liệu và phần mềm quản lý, phần mềm phân tích dữ liệu, thông tin kinh doanh và các ứng dụng Big Data.

Phần lớn các cơ sở hạ tầng này sẽ tập trung tại một chỗ vì các công ty muốn tiếp tục tận dụng những khoản đầu tư vào trung tâm dữ liệu của mình. Tuy nhiên, ngày càng có nhiều tổ chức dựa vào các dịch vụ điện toán đám mây để xử lý nhiều yêu cầu Big Data của họ.

Những cơ sở hạ tầng IT cần thiết để hỗ trợ Big Data

Ở Việt Nam, cơ sở hạ tầng IT cần thiết để hỗ trợ Big Data là gì?

Thu thập dữ liệu đòi hỏi bắt buộc phải có nguồn. Một số ứng dụng như các ứng dụng web, ứng dụng di động, các kênh truyền thông xã hội và lưu trữ email đã được cài đặt sẵn. Tuy nhiên, khi IoT trở nên phổ biến, các công ty có thể cần phải triển khai cảm biến trên tất cả các loại thiết bị, sản phẩm và phương tiện để có thể thu thập dữ liệu, cũng như những ứng dụng mới tạo ra dữ liệu người dùng. Tất nhiên, phân tích dữ liệu theo định hướng IoT có những kỹ thuật và công cụ chuyên biệt của riêng nó. Để lưu giữ được tất cả những dữ liệu trên, các tổ chức bắt buộc phải có đủ dung lượng lưu trữ tại chỗ. Những tuỳ chọn lưu trữ bao gồm kho dữ liệu truyền thống, lưu giữ trên đám mây và Data Lakes (một kho lưu trữ tập trung cho phép bạn lưu trữ tất cả dữ liệu có cấu trúc và không cấu trúc ở bất kỳ quy mô nào).

Những công cụ cơ sở hạ tầng bảo mật bao gồm việc mã hoá dữ liệu, hệ thống giám sát, tường lửa, xác thực người dùng và những điều khiển truy cập khác, quản lý di động của doanh nghiệp và các sản phẩm khác để có thể bảo vệ được hệ thống và dữ liệu.

Các công nghệ dữ liệu đặc biệt dành cho Big Data

Dưới đây là một số công nghệ cụ thể được dành cho Big Data mà cơ sở hạ tầng IT của bạn nên hỗ trợ.

Hệ sinh thái Hadoop

Hadoop là một trong những công nghệ được coi là phổ biến và liên quan mật thiết nhất với Big Data. Apache Hadoop là dự án phát triển phần mềm mã nguồn mở cho máy tính, có khả năng mở rộng, phân tán.

Hệ sinh thái Hadoop

Hadoop, Big Data là gì? Có mối liên quan như thế nào?

Thư viện phần mềm Hadoop là một khuôn mẫu cho phép xử lý phân tán những bộ dữ liệu lớn trên các nhóm máy tính mà sử dụng các mô hình lập trình đơn giản. Nó được thiết kế để mở rộng từ một máy chủ duy nhất sang hàng ngàn máy khác, mỗi máy lưu trữ cục bộ và cung cấp tính toán. Dự án này bao gồm nhiều phần:

  • Những tiện ích phổ biến hỗ trợ các phần Hadoop khác: Hadoop Common
  • Cung cấp các khả năng truy cập những dữ liệu ứng dụng cao: Hadoop Distributed File System
  • Là một khuôn mẫu cho việc lên kế hoạch làm việc và quản lý các tài nguyên cụm: Hadoop YARN
  • Là một hệ thống dựa trên YARN để xử lý song song các tập dữ liệu lớn: Hadoop MapReduce

Data Lakes

Data Lakes được coi là kho lưu trữ, nó chứa một khối lượng dữ liệu thô khổng lồ ở định dạng gốc cho đến khi những người dùng doanh nghiệp cần dữ liệu. Các yếu tố giúp Data Lakes tăng trưởng là sự phát triển của IoT và phong trào kỹ thuật số. Các Data Lakes được thiết kế sao cho người dùng có thể dễ dàng truy cập vào một lượng lớn dữ liệu bất cứ khi nào có nhu cầu.

Kho lưu trữ Data lakes

Kho lưu trữ Data Lakes dành cho Big Data là gì?

Apache Spark

Apache Spark là một phần của hệ sinh thái Hadoop, một khuôn mẫu tính toán cụm nguồn mở được sử dụng để làm công cụ xử lý Big Data trong Hadoop. Spark hiện nay đã trở thành một trong những khuôn mẫu xử lý Big Data quan trọng, và nó hoàn toàn có thể triển khai theo rất nhiều cách khác nhau. Nó cung cấp những phương thức hỗ trợ đối với Scala, Python (đặc biệt là Anaconda Python Distro), Java, ngôn ngữ lập trình R (R đặc biệt phù hợp với Big Data) và hỗ trợ SQL, streaming data, machine learning và xử lý đồ thị.

In-memory databases

IMDB (cơ sở dữ liệu trong bộ nhớ) là một hệ thống quản lý cơ sở dữ liệu chủ yếu dựa vào Ram thay vì HDD để lưu trữ dữ liệu. Các cơ sở dữ liệu được tối ưu hoá trong đĩa không thể nào nhanh bằng cơ sở dữ liệu trong bộ nhớ. Đó là một điểm quan trọng để sử dụng phân tích Big Data và tạo ra các kho dữ liệu, các siêu dữ liệu.

Chuyên gia big data là gì

IMDB sử dụng phân tích Big Data và tạo ra các kho dữ liệu, các siêu dữ liệu

NoSQL Databases

Những cơ sở dữ liệu SQL thông thường sẽ được thiết kế cho các truy vấn ngẫu nhiên và các transaction đáng tin cậy. Tuy nhiên, chúng vẫn có những hạn chế như giản đồ cứng nhắc, không phù hợp với một số loại ứng dụng. Cơ sở dữ liệu NoSQL đã nêu ra được những hạn chế, lưu trữ và quản lý dữ liệu theo những cách cho phép tốc độ hoạt động cao và có được sự linh hoạt tuyệt vời.

Rất nhiều các cơ sở dữ liệu đã được phát triển bởi các doanh nghiệp để tìm ra cách lưu trữ nội dung tốt hơn hoặc xử lý dữ liệu cho các trang web lớn. Khác với cơ sở dữ liệu SQL. Nhiều cơ sở dữ liệu NoSQL có thể được mở rộng theo chiều ngang trên hàng ngàn máy chủ.

Các kỹ năng Big Data

Big Data và phân tích Big Data yêu cầu những kỹ năng cụ thể, dù đó là từ bên trong tổ chức hay thông qua các chuyên gia bên ngoài. Rất nhiều kỹ năng có liên quan đến các thành phần công nghệ dữ liệu quan trọng như Hadoop, NoSQL, Spark, phần mềm phân tích và các cơ sở dữ liệu trong bộ nhớ. Ngoài ra, trong từng lĩnh vực cụ thể lại yêu cầu các nguyên tắc khác nhau, như phân tích thống kê và định lượng, hình dung dữ liệu... Đặc biệt cũng cần có kỹ năng quản lý tổng thể để quản lý tiến độ của các dự án Big Data. Với sự phổ biến của các dự án phân tích dữ liệu và sự thiếu hụt nhân lực có những kỹ năng trên như hiện nay, việc tìm kiếm các chuyên gia có kinh nghiệm đang là một bài toán khó với rất nhiều tổ chức.

Các kĩ năng Big data

Các kỹ năng Big Data là gì?

Các trường hợp sử dụng Big Data

Big Data và phân tích Big Data có thể áp dụng được rất nhiều trong kinh doanh. Dưới đây là một vài ví dụ:

  • Tối ưu hoá giá cả: Các doanh nghiệp có thể sử dụng dữ liệu phân tích từ Big Data để tối ưu hoá giá cả đặt cho dịch vụ và sản phẩm, từ đó tăng doanh thu.
  • Phòng chống gian lận: Việc phân tích dữ liệu có thể giúp các tổ chức xác định được các hoạt động khả nghi, các hành vi gian lận từ đó giảm thiểu rủi ro.
  • Phân tích hoạt động: Phân tích Big Data có thể giúp doanh nghiệp nâng cao hiệu quả hoạt động, cải thiện hiệu suất.
  • Phân tích khách hàng: Các doanh nghiệp có thể xem dữ liệu khách hàng để từ đó nâng cao trải nghiệm khách hàng, cải thiện tỷ lệ chuyển đổi cũng như giữ chân khách hàng tốt hơn.

Những “siêu năng lực” mà công nghệ Big Data đem đến cho doanh nghiệp

Hiểu và nhắm đúng mục tiêu khách hàng

Đây được coi là lợi ích đầu tiên và thấy rõ nhất của Big Data trong Marketing. Việc hiểu được Big Data là gì sẽ mang lại lợi ích lớn cho doanh nghiệp trong việc nhắm đúng khách hàng. Hơn thế nữa, Big Data được sử dụng để hiểu rõ hơn về khách hàng cũng như hành vi và sở thích của họ. Các công ty muốn mở rộng bộ dữ liệu truyền thống với dữ liệu truyền thông xã hội, nhật ký trình duyệt cũng như phân tích văn bản và dữ liệu cảm biến để có bức tranh hoàn chỉnh hơn về khách hàng.

Sử dụng dữ liệu lớn, các công ty viễn thông có thể dự đoán tốt hơn việc “khuấy động” khách hàng và nắm được xu hướng tiêu dùng của họ. Ví dụ như WalMart có thể dự đoán sản phẩm nào sẽ bán và các công ty bảo hiểm xe hơi hiểu khách hàng của họ thực sự lái tốt đến mức nào. Ngay cả các chiến dịch bầu cử của chính phủ có thể được tối ưu hoá bằng cách sử dụng phân tích nhờ vào Big Data.

Ứng dụng của analytics Big data

Nhắm mục tiêu khách hàng chính xác là điều mà Big Data đem lại cho các doanh nghiệp
Nguồn: Contexti

Ứng dụng của Big Data trong việc định lượng và tối ưu hoá hiệu suất cá nhân

Big Data không chỉ dành cho các công ty và chính phủ mà còn dành riêng cho tất cả chúng ta. Giờ đây, chúng ta có thể hưởng lợi từ dữ liệu được tạo từ thiết bị có thể đeo như đồng hồ thông minh hoặc vòng đeo tay thông minh. Trong trường hợp của Jawbone, công ty hiện thu thập dữ liệu giấc ngủ mỗi đêm, việc phân tích khối lượng dữ liệu đó sẽ mang lại những hiểu biết hoàn toàn mới về sức khoẻ và có thể cung cấp cho từng người dùng.

Những dữ liệu từ người dùng có thể cho doanh nghiệp cái nhìn rõ nét về xu hướng cũng như hành vi của khách hàng để tạo ra được một hướng đi cụ thể, chiến lược đúng đắn. Đây là điều hoàn toàn hợp lý và có lợi đối với mọi doanh nghiệp từ dữ liệu của cá nhân và trong trường hợp của Jawbone thì các doanh nghiệp liên quan đến sức khoẻ là những người được hưởng lợi hơn cả.

Phòng chống an ninh giúp doanh nghiệp giảm thiểu rủi ro

Big Data được áp dụng rất nhiều trong việc cải thiện bảo mật và cho phép thực thi pháp luật. Cơ quan An ninh Quốc gia (NSA) ở Hoa Kỳ sử dụng các phân tích dữ liệu lớn để chặn các mảnh đất khủng bố (và có thể do thám). Những người khác sử dụng các kỹ thuật dữ liệu lớn để phát hiện và ngăn chặn các cuộc tấn công trên mạng, các công ty thẻ tín dụng sử dụng dữ liệu lớn để phát hiện các giao dịch gian lận.

Muốn làm được như vậy thì doanh nghiệp cần nắm rõ Big Data. Trong môi trường cạnh tranh khốc liệt hiện nay, không chỉ những tổ chức chính phủ mà các doanh nghiệp cũng cần vận dụng Big Data để bảo mật quyền lợi của thương hiệu, giảm thiểu tối đa rủi ro từ tác động của môi trường bên ngoài. Phân tích dữ liệu có thể giúp các tổ chức doanh nghiệp xác định hoạt động khả nghi và các mẫu có thể chỉ ra hành vi gian lận, giúp giảm thiểu rủi ro.

Kiếm tiền từ big data

Big Data bảo vệ doanh nghiệp khỏi những rủi ro
Nguồn: phintraco

Tối ưu hoá giá cả

Tất nhiên việc sử dụng Big Data vào mục đích kinh doanh như định giá là vô cùng quan trọng. Đối với một doanh nghiệp thì Big Data cũng tham gia vào hoạt động định giá sản phẩm, dịch vụ của doanh nghiệp đó. Không phải muốn đặt giá bao nhiêu thì đặt, mà các doanh nghiệp cần phải nghiên cứu cũng như giá của các đối thủ cùng ngành và xu hướng của khách hàng. Từ đó giảm thiểu tối đa thời gian đi phân tích mà vẫn có được kết quả như mong muốn từ dữ liệu lớn mà doanh nghiệp có được. Đây được coi là một lợi ích giúp doanh nghiệp định giá đúng, gia tăng được lợi nhuận cho doanh nghiệp sau này.

Nắm bắt được các giao dịch tài chính

Lợi ích tiếp theo của Big Data có thể kể đến là về giao dịch tài chính. Giao dịch tần số cao (HFT) là một khu vực mà dữ liệu lớn tìm thấy rất nhiều ngày nay. Ở đây, các thuật toán dữ liệu lớn được sử dụng để đưa ra quyết định giao dịch. Ngày nay, phần lớn giao dịch cổ phiếu diễn ra thông qua các thuật toán dữ liệu đến từ mạng truyền thông xã hội và các trang web tin tức. Các thanh toán và giao dịch điện tử ngày nay rất phổ biến và tại Việt Nam không phải ngoại lệ, rất nhiều thương hiệu đã tập trung vào các giao dịch để phân tích dữ liệu người dùng. Đặc biệt là các công ty hoạt động về ngành thương mại điện tử, Big Data sẽ giúp ích khá lớn cho các thương hiệu ở lĩnh vực này.

Ứng dụng của big data

Những giao dịch tài chính cũng được Big Data cung cấp cho khách hàng
Nguồn: gaaaccounting

Thách thức đến từ Big Data

Mặc dù có nhiều lợi ích, nhưng Big Data cũng mang đến nhiều thách thức. Đầu tiên, dữ liệu lớn là... rất lớn. Mặc dù các công nghệ mới đã được phát triển để lưu trữ dữ liệu, khối lượng dữ liệu được tăng gấp đôi về kích thước khoảng 2 năm một lần. Các tổ chức vẫn đấu tranh để bắt kịp với dữ liệu của họ và tìm cách để lưu trữ hiệu quả. Nhưng trên thực tế là không đủ để lưu trữ dữ liệu. Các nhà khoa học dữ liệu dành 50-80% thời gian quản lý và chuẩn bị dữ liệu trước khi nó thực sự có thể được sử dụng.

Công nghệ dữ liệu lớn đang thay đổi với tốc độ nhanh đến chóng mặt. Một vài năm trước, Apache Hadoop là công nghệ phổ biến được sử dụng để xử lý dữ liệu lớn. Sau đó, Apache Spark được giới thiệu vào năm 2014 và nó tạo ra được cú hích lớn trên thị trường vào thời điểm đó. Hiện nay dữ liệu lớn đang cực kỳ phổ biến và việc bắt kịp với công nghệ dữ liệu lớn là một thách thức chung với cả các công ty cung cấp và công ty sử dụng Big Data.

Chỉ trích đối với Big Data

Trên cộng đồng hiện nay đang tồn tại 2 luồng ý kiến chỉ trích Big Data, đó là chỉ trích về cách sử dụng Big Data và chỉ trích về việc lấy thông tin từ Big Data.

Chỉ trích về cách sử dụng Big Data

Chỉ trích đối với Big Data là gì?

Chỉ trích về cách sử dụng Big Data

Nhà khởi nghiệp cũng là người viết sách Chris Anderson cho rằng việc sử dụng Big Data luôn cần phải giữ được ngữ cảnh hoá trong các bối cảnh về chính trị, xã hội và kinh tế. Chẳng hạn, ngay cả khi các doanh nghiệp đã đầu tử hàng tỉ USD vào Big Data và lấy được thông tin về nhiều thứ nhưng chỉ có ít hơn 40% nhân viên thật sự có thể hiểu và tận dụng được những thông tin này. Chính vì thế hiệu quả của Big Data đã bị giảm đi rất nhiều so với lúc ban đầu, dẫn đến việc lãng phí tài nguyên.

Ngoài ra, còn có những chỉ trích cho rằng Big Data chỉ có thể miêu tả được thế giới trong quá khứ hoặc tốt lắm thì chỉ miêu tả được trong hiện thực mà thôi. Lý do đưa ra là Big Data dựa trên các dữ liệu đã sinh ra được từ trước. Về việc nói về tương lai thì ngoài việc sử dụng Big Data còn phải kết hợp thêm các mô hình, mô phỏng hay nghiên cứu về sự chuyển dộng của thế giới mới đưa ra được dự đoán chính xác được.

Ngoài ra, hiện nay con người còn có một nỗi lo khác, chính là vấn đề riêng tư của những người sử dụng. Thông tin có khả năng định dạng người sử dụng có thể thu thập khi mà thu thập Big Data và điều này hoàn toàn không được sự cho phép của họ. Điều này tại một số quốc gia là vi phạm luật. Rất nhiều những chuyên gia từ các lĩnh vực khác nhau đang cố gắng thúc đẩy việc bảo vệ quyền riêng tư khi sử dụng Big Data.

Chỉ trích về việc lấy thông tin từ Big Data

Danah Boyd – một nhà nghiên cứu đã bày tỏ sự quan ngại của mình rằng việc sử dụng Big Data trong việc chọn mẫu thống kê có thể gây ra sự chủ quan, điều đó dù ít hay nhiều cũng có thể sẽ ảnh hướng đến kết quả cuối cùng. Việc khai thác dữ liệu sẽ lấy từ một số nguồn Big Data, trong khi những nguồn khác không phải là từ Big Data thì cũng sẽ đặt ra thách thức trong việc phân tích dữ liệu.

Chỉ trích về việc lấy thông tin từ Big Data

Chỉ trích về việc lấy thông tin từ Big Data là gì?

Ví dụ một vài ứng dụng của Big Data

Ứng dụng về dữ liệu được tạo ra cho Big Data có rất nhiều, trong đó có:

  • Dữ liệu từ các trang mạng xã hội, các ứng dụng như Instagram, Facebook
  • Mua sắm, đặt vé trực tuyến
  • Chi tiết về nhân viên của một công ty đa quốc gia nào đó

Phân tích Big Data cũng được coi như là một phiên bản nâng cấp hơn của việc phân tích dữ liệu. Việc phân tích Big Data sẽ có một số ứng dụng như:

  • Các thông tin về dự báo thời tiết
  • Tiếp thị chứng khoán
  • Thực hiện những nhiệm vụ không gian, trong đó mỗi một thông tin đều rất quan trọng
  • Ứng dụng trong lĩnh vực y tế, nơi mà tình trạng sức khoẻ bệnh nhân cụ thể có thể sẽ được theo dõi

Công nghệ Big Data sẽ được chia thành 4 lĩnh vực: lưu trữ dữ liệu, khai thác dữ liệu, phân tích dữ liệu, trực quan hoá dữ liệu.

Một số câu hỏi liên quan đến Big Data

Ứng dụng của big data trong cuộc sống

Ứng dụng của Big Data trong cuộc sống

Điểm khác biệt giữa Data truyền thống và Big Data là gì?

Điểm khác biệt lớn nhất giữa Data truyền thống và Big Data là quy mô và tốc độ. Ngoài ra, thuật ngữ Big Data còn mang đến một sự “thời thượng” khi mà có những dữ liệu ở quy mô bình thường vẫn được nhiều người gọi là Big Data.

Big Data có thực sự cần thiết không?

Không những cần thiết mà hiện nay, Big Data đã trở thành “xương sống” của công nghệ. Các công ty truyền thống dùng Big Data để phục vụ cho marketing, chăm sóc khách hàng... Hoặc ví dụ thực tế nhất là mỗi sản phẩm đang có trên các website thương mại điện tử hiện nay đều là Big Data.

Học Big Data cần gì?

Muốn học được Big Data thì ít nhất phải nắm được 3 bước cơ bản, đó là: học một ngôn ngữ lập trình, tìm hiểu những kỹ thuật cơ bản Big Data, sơ lược về mô hình lập trình MapReduce.

Học một ngôn ngữ lập trình

Trước tiên, nếu muốn giải quyết các bài toán Big Data thì bạn phải biết những ngôn ngữ lập trình, Python/Java. Sau khi học được ngôn ngữ lập trình, tiếp theo bạn hãy tìm hiểu các công nghệ sử dụng cho Big Data. Hadoop, Spark là một số công nghệ dữ liệu lớn. Hadoop sẽ là một sự lựa chọn tối ưu nhất khi nó cung cấp cho bạn nhiều nền tảng hơn về mô hình lập trình MapReduce.

Học Big data hết bao lâu

Thuyết trình về Big Data là gì? Học Big Data hết bao lâu?

Tìm hiểu những kỹ thuật cơ bản Big Data là gì?

Thuật toán MapReduce là một kỹ thuật xử lý và mô hình chương trình cho tính toán phân tán dựa trên ngôn ngữ lập trình Java.

Hai nhiệm vụ quan trọng của thuật toán MapReduce là:

  • Map tức là bản đồ
  • Reduce tức là giảm

Map sẽ lấy một tập hợp dữ liệu và chuyển đổi tập dữ liệu đó thành một tập hợp dữ liệu khác, trong đó các phần tử riêng lẻ sẽ được chia thành các bộ dữ liệu (cặp khoá/ giá trị). Giảm tác vụ, đó là lấy đầu ra từ bản đồ làm đầu vào và kết hợp các bộ dữ liệu đó thành một bộ dữ liệu nhỏ hơn. Điều đó cho thấy công việc bản đồ luôn được thực hiện trước tác vụ rút gọn. MapReduce có một số ưu điểm chính như là có thể dễ dàng mở rộng được quy mô xử lý dữ liệu trên nhiều nút tính toán. Các nguyên hàm xử lý dữ liệu được gọi là trình khử và trình ánh xạ theo mô hình MapReduce. Với khả năng mở rộng này, mô hình MapReduce là điều đã thu hút nhiều lập trình viên sử dụng.

Sơ lược về mô hình lập trình MapReduce

Giai đoạn bản đồ (Map), giai đoạn xáo trộn (Shuffle) và giai đoạn giảm (Reduce) là 3 giai đoạn được thực thi trong chương trình MapReduce.

  • Giai đoạn Map: là giai đoạn ánh xạ hay xử lý những dữ liệu đầu vào. Dữ liệu đầu vào ở dạng thư mục hoặc dạng tệp và chúng được lưu trữ trong hệ thống tệp Hadoop. Các tệp tin đầu vào sẽ được chuyển đến dòng chức năng phản xạ theo dòng. Trình ánh xạ sẽ xử lý dữ liệu vào ra một số lượng nhỏ dữ liệu.
  • Giai đoạn Reduce: là giai đoạn kết hợp giữa giai đoạn Shuffle và giai đoạn Reduce. Xử lý dữ liệu xuất phát từ trình ánh xạ là công việc Reduce sườn. Sau khi xử lý sẽ tạo ra một bộ đầu ra mới, được lữu trữ trong hệ thống tệp Hadoop.

Mô hình lập trình MapReduce trong big data

Mô hình lập trình MapReduce trong Big Data

Hadoop gửi Map và giảm các tác vụ đến các máy chủ phù hợp trong cụm trong công việc MapReduce. Khung quản lý tất cả những chi tiết truyền dữ liệu, ví dụ như phát hành tác vụ, xác minh hoàn thành nhiệm vụ và sao chép những dữ liệu xung quanh cụm giữa các nút. Để giảm lưu lượng mạng, hầu hết các tính toán sẽ diễn ra trên các nút có dữ liệu trên các đĩa cục bộ. Hoàn thành những nhiệm vụ nhất định, cụm thu thập và giảm dữ liệu sẽ tạo ra một kết quả phù hợp, từ đó gửi lại cho máy chủ Hadoop.

Có thể thấy rõ những tiện ích mà Big Data đem lại là không hề nhỏ, nó có thể “thao túng” được khách hàng. Thay vì phân tích thủ công, dưới sự phát triển của công nghệ, Big Data sinh ra như một lẽ đương nhiên giúp các doanh nghiệp tạo ra giá trị, thu lại lợi nhuận. Vì vậy hiểu được Big Data là gì và có được cái nhỉn rõ nét về Big Data, doanh nghiệp “gặt” được “trái ngọt”.

* Nguồn: marketingai