From the blog

Data Lake là gì? Phân biệt Data Warehouse và Data Lake

Hệ thống Data Warehouse (kho dữ liệu) vốn là công nghệ quen thuộc được sử dụng bởi các doanh nghiệp, giúp họ tận dụng tiềm năng rộng lớn của Big Data. Tuy nhiên, một công nghệ lưu trữ dữ liệu mới – Data lake – đang tạo ra thay đổi trong cách doanh nghiệp tiếp cận và sử dụng dữ liệu.

Để tránh nhầm lẫn và phân biệt hai khái niệm trên, trước tiên chúng ta cần định nghĩa cả hai công nghệ.

Data lake là gì?

Data lake

Data lake là một kho lưu trữ trung tâm chứa một lượng lớn dữ liệu thô được giữ để sử dụng khi cần thiết. Vì dữ liệu được giữ nguyên gốc nên doanh nghiệp không cần phải đầu tư cho việc biến đổi, phân loại và lưu trữ dữ liệu đến khi có nhu cầu sử dụng.

Data warehouse

Một data warehouse cũng là một kho lưu trữ dữ liệu cho các doanh nghiệp, với mục đích chính là cung cấp báo cáo và phân tích dữ liệu. Các dữ liệu được lưu trữ đôi khi phải trải qua quá trình trích xuất, chuyển đổi và xử lý qua quy trình ETL (Extract – Transform – Load) trước khi nhập vào kho lưu trữ.

Data lake va Data warehouse

Sự khác biệt giữa Data lake và Data warehouse

Một cách đơn giản thì Data warehouse biến đổi và phân loại dữ liệu từ các nguồn khác nhau của doanh nghiệp. Dữ liệu này sẽ sẵn sàng để phục vụ cho các mục đích khác, đặc biệt là báo cáo và phân tích.

Data lake lưu trữ dữ liệu chưa qua phân tích và giữ trong trạng thái thô. Những dữ liệu này cần được xử lý thêm khi có nhu cầu sử dụng.

Mỗi công nghệ đều có phương pháp xử lý dữ liệu riêng và cung cấp kết quả khác nhau.

1. Các loại dữ liệu

Như đã đề cập, Data warehouse gồm các dữ liệu được trích từ hệ thống giao dịch và các số liệu định lượng để hỗ trợ quá trình phân tích hiệu suất và tình trạng kinh doanh. Data warehouse cần một mô hình dữ liệu có cấu trúc rõ ràng giúp xác định các dữ liệu được lưu vào cũng như loại bỏ các dữ liệu không cần thiết.

Trong Data lake, tất cả các loại dữ liệu từ các nguồn của hệ thống đều được lưu trữ. Bao gồm các nguồn dữ liệu có thể bị từ chối lưu trữ trong Data warehouse, chẳng hạn như nhật ký web server, dữ liệu cảm biến, hoạt động trên mạng xã hội, văn bản và hình ảnh, v.v.

Data lake thậm chí có thể lưu trữ các dữ liệu hiện không được sử dụng nhưng lại có thể cần thiết trong tương lai. Điều này được hiện thực hóa bởi các giải pháp lưu trữ chi phí thấp như Hadoop.

2. Hình thức Schema

Data warehouse áp dụng phương pháp “Schema on Write”, nghĩa là mô hình được thiết kế cho mục đích chính là cung cấp báo cáo. Quá trình này đòi hỏi đầu tư thời gian đáng kể để phân tích các nguồn dữ liệu, thấu hiểu các quy trình nghiệp vụ, phân loại dữ liệu, và hình thành một hệ thống xác định để lưu trữ dữ liệu.

Data lake giữ dữ liệu ở trạng thái nguyên bản; khi có nhu cầu sử dụng dữ liệu để giải quyết các vấn đề kinh doanh, chỉ có những dữ liệu liên quan được chọn lọc và phân tích để đưa ra đáp án. Cách tiếp cận này được gọi là “Schema on Read”, giúp tiết kiệm thời gian và chi phí cho doanh nghiệp.

3. Tính linh hoạt

Vì một Data warehouse là một kho dữ liệu có cấu trúc chặt chẽ nên việc thay đổi cấu trúc theo nhu cầu của công ty rất tốn kém. Quá trình thay đổi đòi hỏi nhiều quy trình phức tạp, mất thời gian và tốn kém.

Mặt khác, Data lake lại tận dụng tính linh hoạt của dữ liệu, bởi vì dữ liệu được lưu trữ ở dạng thô và luôn dễ dàng để truy cập, cho phép tái cấu trúc mà không có trở ngại nào.

4. Người dùng

Data warehouse vốn quen thuộc với các doanh nghiệp và người dùng, dễ dàng đáp ứng nhu cầu như lập báo cáo hiệu suất, số liệu, cũng như các thống kê dữ liệu. Với cấu trúc chặt chẽ, dễ sử dụng và chủ yếu dùng để trả lời các truy vấn của người dùng, Data warehouse đáp ứng tốt nhu cầu trong quá trình hoạt động của doanh nghiệp.

Data lake phù hợp hơn với những người dùng thực hiện phân tích chuyên sâu như các data scientists. Với nhiều loại dữ liệu đa dạng trong data lake, họ có khả năng kết hợp nhiều loại dữ liệu khác nhau và đưa ra các câu hỏi hoàn toàn mới cần được giải đáp.

Data lake dành cho những đối tượng nào?

Dựa trên tính chất và khả năng của từng loại, Data warehouse dường như là sự lựa chọn tốt hơn cho các doanh nghiệp muốn tận dụng dữ liệu. Trong khi đó, Data lake cho phép người dùng khai thác tối đa các khả năng mà dữ liệu có thể mang lại, tuy nhiên, đây có thể là một nhiệm vụ khó khăn cho các người dùng thông thường với kỹ năng không đủ chuyên sâu.

Chắc chắn là cả hai công nghệ lưu trữ dữ liệu này sẽ tiếp tục phát triển. Cũng như khả năng để các nhà cung cấp phát triển một giải pháp kết hợp nhằm mục đích giúp việc sử dụng dữ liệu trở nên nhanh hơn, linh hoạt hơn và đáng tin cậy hơn.

Những bài viết liên quan

30 tuổi có phải là quá già cho Developer?

Tuổi nghề lập trình viên (Developer) là thắc mắc chung của những bạn có mong muốn dấn thân vào thế giới của “phù thủy mạng”. Có hai sự thật cần thừa nhận trong giới công nghệ: 1. Developer trẻ học […]