08.6274.6263

Impact-Site-Verification: 90a0cf65-a656-4d84-af72-6251e0edf426

Big data là gì Dữ liệu lớn là gì

bigdata
Spread the love

Big data là gì Dữ liệu lớn là gì

Big Data là dữ liệu data có kích thước khổng lồ. Big Data được sử dụng để mô tải tập hợp dữ liệu khổng lồ và tăng nhanh theo hàm mũ với thời gian. Trong thời gian ngắn, dữ liệu rất lớn và phức tạp mà không một công cụ quản lý truyền thống nào có thể lưu trư và xử lý hiệu quả.

tìm hiểu big data
tìm hiểu big data

Big Data (“dữ liệu lớn”) có là tập hợp dữ liệu có dung lượng vượt mức đảm đương của những ứng dụng và công cụ truyền thống. Kích cỡ của Big Data đang từng ngày tăng lên,

Ngay từ bây giờ hãy  tìm hiểu big data

Công nghệ dùng trong Big Data

Big Data là nhu cầu đang tăng trưởng lớn đến nỗi Software AG, Oracle, IBM, Microsoft, SAP, EMC, HP và Dell đã chi hơn 15 tỉ USD cho các công ty chuyên về quản lí và phân tích dữ liệu. Năm 2010, ngành công nghiệp Big Data có giá trị hơn 100 tỉ USD và đang tăng nhanh với tốc độ 10% mỗi năm, nhanh gấp đôi so với tổng ngành phần mềm nói chung.

Như đã nói ở trên, Big Data cần đến các kĩ thuật khai thác thông tin rất đặc biệt do tính chất khổng lồ và phức tạp của nó. Năm 2011, tập đoàn phân tích McKinsey đề xuất những công nghệ có thể dùng với Big Data bao gồm crowsourcing (tận dụng nguồn lực từ nhiều thiết bị điện toán trên toàn cầu để cùng nhau xử lí dữ liệu), các thuật toán về gen và di truyền, những biện pháp machine learning (ý chỉ các hệ thống có khả năng học hỏi từ dữ liệu, một nhánh của trí tuệ nhân tạo), xử lí ngôn ngữ tự nhiên (giống như Siri hay Google Voice Search, nhưng cao cấp hơn), xử lí tín hiệu, mô phỏng, phân tích chuỗi thời gian, mô hình hóa, kết hợp các server mạnh lại với nhau…. Những kĩ thuật này rất phức tạp nên chúng ta không đi sâu nói về chúng.

Ngoài ra, các cơ sở dữ liệu hỗ trợ xử lí dữ liệu song song, ứng dụng hoạt động dựa trên hoạt động tìm kiếm, file system dạng rời rạc, các hệ thống điện toán đám mây (bao gồm ứng dụng, nguồn lực tính toán cũng như không gian lưu trữ) và bản thân Internet cũng là những công cụ đắc lực phục vụ cho công tác nghiên cứu và trích xuất thông tin từ “dữ liệu lớn”. Hiện nay cũng có vài cơ sở dữ liệu theo dạng quan hệ (bảng) có khả năng chứa hàng petabyte dữ liệu, chúng cũng có thể tải, quản lí, sao lưu và tối ưu hóa cách sử dụng Big Data nữa.

Những người làm việc với Big Data thường cảm tháy khó chịu với các hệ thống lưu trữ dữ liệu vì tốc độ chậm, do đó họ thích những loại ổ lưu trữ nào có thể gắn trực tiếp vào máy tính (cũng như ổ cứng gắn trong máy tính của chúng ta vậy). Ổ đó có thể là SSD cho đến các đĩa SATA nằm trong một lưới lưu trữ cỡ lớn. Những người này nhìn vào ổ NAS hay hệ thống lưu trữ mạng SAN với góc nhìn rằng những thứ này quá phức tạp, đắt và chậm. Những tính chất nói trên không phù hợp cho hệ thống dùng để phân tích Big Data vốn nhắm đến hiệu năng cao, tận dụng hạ tầng thông dụng và chi phí thấp. Ngoài ra, việc phân tích Big Data cũng cần phải được áp dụng theo thời gian thực hoặc cận thời gian thực, thế nên độ trễ cần phải được loại bỏ bất kì khi nào và bất kì nơi nào có thể.

Tương lai của Bigdata

Trong tương lai, chúng ta sẽ còn tiếp tục chứng kiến sự tăng trưởng của Big Data. Hiện nay có thể bạn cũng đã nghe đến khái niệm Internet of Things, tức là mang Internet đến với mọi thứ trong đời sống hằng ngày. Dữ liệu từ Internet of Things thực chất cũng là được thu thập từ một mạng lưới rất nhiều các cảm biến và thiết bị điện tử, và nó cũng là một trong những nguồn của Big Data. Lượng dữ liệu khổng lồ này có thể cho các nhà nghiên cứu biết được hành vi tiêu dùng của khách hàng, từ đó tinh chỉnh những thiết bị Internet of Things cho phù hợp hơn, bắt chúng phục vụ đời sống hằng ngày của chúng ta một cách hiệu quả hơn. Nó cũng có thể được dùng cho việc sản xuất, từ đó giảm sự liên quan của con người. Như lời của Daniel Kaufman dự đoán thì “con người sẽ làm ít hơn” nhờ Big Data.

Vậy những thông tin về thói quen, sở thích này có được từ đâu? Chính là từ lượng dữ liệu khổng lồ mà các doanh nghiệp thu thập trong lúc khách hàng ghé thăm và tương tác với trang web của mình. Chỉ cần doanh nghiệp biết khai thác một cách có hiệu quả Big Data thì nó không chỉ giúp tăng lợi nhuận cho chính họ mà còn tăng trải nghiệm mua sắm của người dùng, chúng ta có thể tiết kiệm thời gian hơn nhờ những lời gợi ý so với việc phải tự mình tìm kiếm.

Nhân sự  Big Data – Nghề của thế kỉ 21

Có thể nói chưa bao giờ các doanh nghiệp lại “khát” nhân lực về “Big Data” như hiện nay do ngày càng có nhiều công ty nhận ra được lợi ích to lớn từ việc khai thác và phân tích dữ liệu đối với hoạt động kinh doanh của họ. Đảo qua thị trường việc làm, sẽ không khó để bạn nhìn ra những mức lương hậu hĩnh cùng hàng tá những phụ cấp hấp dẫn khác cho công việc như “data scientist” (tạm dịch: chuyên gia dữ liệu) hay “data analyst” (phân tích dữ liệu)

Big Data là từ khoá được tìm kiếm nhiều nhất trên mạng xã hội LinkedIn, và tất nhiên những ai đang đi đầu trong lĩnh vực này hẳn sẽ được các headhunter (chuyên gia săn đầu người) săn đón thường xuyên. Do nhu cầu tăng vọt là vậy, nên nếu bạn là người có đầu óc phân tích và khả năng xử lý dữ liệu, việc bước chân vào ngành này sớm bao nhiêu thì cơ hội thăng tiến của bạn . Tin tốt là trong vài năm qua xuất hiện nhiều chương trình đào tạo (dưới nhiều hình thức khác nhau) đáp ứng nhu cầu chuyên gia về dữ liệu lớn. Tuy nhiên, các đơn vị đào tạo hầu hết là các trường đại học ở nước ngoài, ví dụ như các chương trình khoa học dữ liệu chuyên sâu hay phân tích nâng cao tại Viện Nghiên cứu Khoa học và Kỹ thuật Dữ liệu Columbia, Đại học Berkeley, Đại học Carnegie Mellon, Viện Công nghệ Illinois, Đại học Imperial, Đại học North Carolina, Đại học Syracuse và Đại học Tennessee…

 Riêng tại Việt Nam, Robusta là học viện đào tạo Công nghệ thông tin đã kí kết hợp tác với EMC – đơn vị cung cấp hệ các giải pháp hàng đầu thế giới về Cloud Computing, Big Data, Storage – để mang các khoá đào tạo Big Data về Việt Nam. Big Data đã trở thành xu hướng trong ngành Công nghệ thông tin, vậy bạn đã chuẩn bị gì cho xu hướng này?  

Bigdata giúp gì được cho doanh nghiệp

Người dùng cuối như mình và các bạn sẽ được hưởng lợi cũng từ việc tối ưu hóa như thế, chứ bản thân chúng ta thì khó mà tự mình phát triển hay mua các giải pháp để khai thác Big Data bởi giá thành của chúng quá đắt, có thể đến cả trăm nghìn đô. Ngoài ra, lượng dữ liệu mà chúng ta có được cũng khó có thể xem là “Big” nếu chỉ có vài Terabyte sinh ra trong một thời gian dài.

Xa hơi một chút, ứng dụng được Big Data có thể giúp các tổ chức, chính phủ dự đoán được tỉ lệ thất nghiệp, xu hướng nghề nghiệp của tương lai để đầu tư cho những hạng mục đó, hoặc cắt giảm chi tiêu, kích thích tăng trưởng kinh tế, v/v… thậm chí là ra phương án phòng ngừa trước một dịch bệnh nào đó, giống như trong phim World War Z, nước Israel đã biết trước có dịch zombie nên đã nhanh chóng xây tường thành ngăn cách với thế giới bên ngoài.

Các công cụ sử dụng trong bigdata

làm chủ Big Data phụ thuộc rất nhiều vào năng lực của nguồn nhân sự trong doanh nghiệp, cơ sở hạ tầng của lưu trữ – xử lý – phân tích và các kỹ năng phân tích dữ liệu.

các công cụ (mã nguồn mở, như Hadoop, Casandra, Apache Spark, Kafka, …) lưu trữ, xử lý, và phân tích dữ liệu lớn

Những nguồn chính tạo ra BigData:

  1. Hộp đen dữ liệu: đây là dữ liệu được tạo ra bởi máy bay, bao gồm máy bay phản lực và trực thăng. Hộp đen dữ liệu này bao gồm thông tin tạo ra bởi giọng nói của phi hành đoàn, các bản thu âm và thông tin về chuyến bay.
  2. Dữ liệu từ các kênh truyền thông xã hội: Đây là dữ liệu được tạo ra và phát triển bởi như các trang web truyền thông xã hội như Twitter, Facebook, Instagram, Pinterest và Google+.
  3. Dữ liệu giao dịch chứng khoán: Đây là số liệu từ thị trường chứng khoán đối với quyết định mua và bán cổ phiếu được thực hiện bởi khách hàng.
  4. Dữ liệu điện lực: đây là dữ liệu tạo ra bởi điện lực. Nó bao gồm các thông tin cụ thể từ các điểm giao nhau của các nút thông tin sử dụng.
  5. Dữ liệu giao thông: dữ liệu này bao gồm sức chưa và các mẫu phương tiện giao thông, độ sẵn sàng và khoảng cách đã đi được của từng phương tiện giao thông.
  6. Dữ liệu các thiết bị tìm kiếm: đây là dữ liệu được tạo ra từ các công cụ tìm kiếm và đây cũng là nguồn dữ liệu lớn nhất của Big Data. Công cụ tìm kiếm có cơ sở dữ liệu cực kỳ rộng lớn, nơi họ có thể tìm thấy dữ liệu họ cần.

Thêm vào đó, Bernard Marr, chuyên gia về Big Data và phân tích Big Data, đã đưa ra danh sách 20 nguồn Big Data uy tín mà mọi người có thể truy cập miễn phí trên trang web. Dưới đây là một số ví dụ:

  1. Data.gov – nơi mà mọi người được phép tự do truy cập tất cả các dữ liệu của Chính phủ Mỹ bao gồm các thông tin khác nhau, từ khí hậu đến tội phạm đang giam giữ.
  2. Data.gov.uk – nơi tương tự của Chính phủ Anh. Tại đây, mọi người có thể tập hợp được siêu dữ liệu trên tất cả các sách và các ấn phẩm của Anh kể từ năm 1950.
  3. Ngoài ra còn có Cục Điều tra Dân số Mỹ – bao gồm các thông tin có giá trị như dân số, địa lý và dữ liệu khác. Tương tự là kho dữ liệu mở Liên minh châu Âu, bao gồm các dữ liệu điều tra dân số của các tổ chức Liên minh châu Âu.
  4. Và một thứ yêu thích của chúng ta đó là Facebook. Những biểu đồ của FB cung cấp cho chúng ta các thông tin và giao diện các ứng dụng, sau khi truy cập các thông tin công khai được cung cấp bởi người sử dụng.
  5. Trong lĩnh vực y tế, đó là Healthdata.gov của Mỹ và Trung tâm Thông tin chăm sóc Y tế và xã hội NHS, từ Anh.

Bộ dữ liệu công cộng Google Trends, Google Finance, Amazon Web Services, là những ví dụ tương tự.

Big Data là thách thức đặt ra cho các tổ chức, doanh nghiệp trong thời đại số hiện nay. Một khi làm chủ được dữ liệu lớn thì họ sẽ có cơ hội thành công lớn hơn trong bối cảnh cạnh tranh ngày nay, thế giới thì sẽ được hưởng lợi hơn từ việc trích xuất thông tin một cách chính xác hơn, hữu ích hơn với chi phí thấp hơn. Vẫn còn đó những chỉ trích xoay quanh Big Data, tuy nhiên lĩnh vực này vẫn còn rất mới và chúng ta hãy chờ xem trong tương lai Big Data sẽ tiến hóa như thế nào.

[seriesposts sid=508 title=”Xem thêm”]


allNET Global Team Support Service, Email : info@Allnet.vn, info@shop.allnet.vn Hotline 0916.33.99.80.

Website : http://allNET.vn, Zalo 0916.33.99.80, Product shop http://shop.allnet.vn

No 3 home, 20/26/10 My Dinh Road, My Dinh 2, Nam Tu Liem, Ha Noi

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Website này sử dụng Akismet để hạn chế spam. Tìm hiểu bình luận của bạn được duyệt như thế nào.

error: Content is protected !!
Contact Me on Zalo