Home Kiến Thức Kinh Tế Học Data Warehousing là gì?

Data Warehousing là gì?

0

Kho dữ liệu là gì?

Kho dữ liệu là việc lưu trữ thông tin điện tử an toàn của một doanh nghiệp hoặc tổ chức khác. Mục tiêu của lưu trữ dữ liệu là tạo ra một kho dữ liệu lịch sử có thể được truy xuất và phân tích để cung cấp thông tin chi tiết hữu ích về hoạt động của tổ chức.

Kho dữ liệu là một thành phần quan trọng của trí tuệ kinh doanh. Thuật ngữ rộng hơn đó bao gồm cơ sở hạ tầng thông tin mà các doanh nghiệp hiện đại sử dụng để theo dõi những thành công và thất bại trong quá khứ và thông báo các quyết định của họ cho tương lai.

  • Kho dữ liệu là việc lưu trữ thông tin theo thời gian của một doanh nghiệp hoặc tổ chức khác.
  • Dữ liệu mới được bổ sung định kỳ bởi những người trong các bộ phận chính khác nhau như tiếp thị và bán hàng.
  • Nhà kho trở thành một thư viện dữ liệu lịch sử có thể được truy xuất và phân tích để cung cấp thông tin cho việc ra quyết định trong kinh doanh.
  • Các yếu tố quan trọng trong việc xây dựng một kho dữ liệu hiệu quả bao gồm việc xác định thông tin quan trọng đối với tổ chức và xác định các nguồn của thông tin.
  • Cơ sở dữ liệu được thiết kế để cung cấp thông tin thời gian thực. Kho dữ liệu được thiết kế như một kho lưu trữ thông tin lịch sử.

Cách hoạt động của kho dữ liệu

Nhu cầu lưu trữ dữ liệu đã phát triển khi các doanh nghiệp bắt đầu dựa vào hệ thống máy tính để tạo, lưu trữ và truy xuất các tài liệu kinh doanh quan trọng. Các nhà nghiên cứu Barry Devlin và Paul Murphy của IBM đã đưa ra khái niệm về kho dữ liệu vào năm 1988.

Kho dữ liệu được thiết kế để cho phép phân tích dữ liệu lịch sử. So sánh dữ liệu được tổng hợp từ nhiều nguồn không đồng nhất có thể cung cấp thông tin chi tiết về hiệu quả hoạt động của công ty. Kho dữ liệu được thiết kế để cho phép người dùng chạy các truy vấn và phân tích trên dữ liệu lịch sử lấy từ các nguồn giao dịch.

Dữ liệu được thêm vào kho không thay đổi và không thể thay đổi. Kho là nguồn được sử dụng để chạy phân tích về các sự kiện trong quá khứ, tập trung vào các thay đổi theo thời gian. Dữ liệu nhập kho phải được lưu trữ một cách an toàn, đáng tin cậy, dễ truy xuất và dễ quản lý.

Duy trì Kho dữ liệu

Có một số bước nhất định được thực hiện để duy trì kho dữ liệu. Một bước là trích xuất dữ liệu, bao gồm việc thu thập một lượng lớn dữ liệu từ nhiều điểm nguồn. Sau khi một tập hợp dữ liệu đã được biên dịch, nó sẽ trải qua quá trình làm sạch dữ liệu, quá trình xử lý các lỗi và sửa chữa hoặc loại trừ bất kỳ dữ liệu nào được tìm thấy.

Dữ liệu được làm sạch sau đó sẽ được chuyển đổi từ định dạng cơ sở dữ liệu sang định dạng kho. Sau khi được lưu trữ trong kho, dữ liệu sẽ được phân loại, tổng hợp và tổng hợp, do đó sẽ dễ sử dụng hơn. Theo thời gian, nhiều dữ liệu hơn được thêm vào kho khi các nguồn dữ liệu khác nhau được cập nhật.

Một cuốn sách quan trọng về lưu trữ dữ liệu là “Xây dựng kho dữ liệu” của WH Inmon, một hướng dẫn thực hành được xuất bản lần đầu tiên vào năm 1990 và đã được tái bản nhiều lần.

Ngày nay, các doanh nghiệp có thể đầu tư vào các dịch vụ phần mềm kho dữ liệu dựa trên đám mây của các công ty bao gồm Microsoft, Google, Amazon và Oracle, cùng nhiều công ty khác.

1:17

Khai thác dữ liệu là gì?

Khai thác dữ liệu

Các doanh nghiệp lưu trữ dữ liệu chủ yếu để khai thác dữ liệu. Điều đó liên quan đến việc tìm kiếm các mẫu thông tin sẽ giúp họ cải thiện quy trình kinh doanh của mình.

Một hệ thống lưu trữ dữ liệu tốt giúp các phòng ban khác nhau trong công ty truy cập dữ liệu của nhau dễ dàng hơn. Ví dụ: nhóm tiếp thị có thể đánh giá dữ liệu của nhóm bán hàng để đưa ra quyết định về cách điều chỉnh các chiến dịch bán hàng của họ.

5 bước khai thác dữ liệu

Quá trình khai thác dữ liệu được chia thành năm bước:

  1. Một tổ chức thu thập dữ liệu và tải nó vào kho dữ liệu.
  2. Sau đó, dữ liệu được lưu trữ và quản lý, trên các máy chủ nội bộ hoặc trong một dịch vụ đám mây.
  3. Các nhà phân tích kinh doanh, nhóm quản lý và chuyên gia công nghệ thông tin truy cập và tổ chức dữ liệu.
  4. Phần mềm ứng dụng sắp xếp dữ liệu.
  5. Người dùng cuối trình bày dữ liệu ở định dạng dễ chia sẻ, chẳng hạn như biểu đồ hoặc bảng.

Hai nhà nghiên cứu của IBM đã đưa ra khái niệm về kho dữ liệu vào năm 1988.

Kho dữ liệu so với Cơ sở dữ liệu

Kho dữ liệu không giống với cơ sở dữ liệu:

  • Cơ sở dữ liệu là một hệ thống giao dịch theo dõi và cập nhật dữ liệu thời gian thực để chỉ có sẵn dữ liệu mới nhất.
  • Kho dữ liệu được lập trình để tổng hợp dữ liệu có cấu trúc theo thời gian.

Ví dụ: cơ sở dữ liệu có thể chỉ có địa chỉ gần đây nhất của khách hàng, trong khi kho dữ liệu có thể có tất cả địa chỉ của khách hàng trong 10 năm qua.

Khai thác dữ liệu dựa vào kho dữ liệu. Dữ liệu trong kho được sàng lọc để hiểu rõ hơn về doanh nghiệp theo thời gian.

Ưu điểm và nhược điểm của Kho dữ liệu

Kho dữ liệu nhằm mang lại lợi thế cạnh tranh cho công ty. Nó tạo ra một nguồn thông tin thích hợp có thể được theo dõi theo thời gian và phân tích để giúp một doanh nghiệp đưa ra các quyết định sáng suốt hơn.

Nó cũng có thể làm tiêu hao nguồn lực của công ty và tạo gánh nặng cho đội ngũ nhân viên hiện tại của công ty với các nhiệm vụ thường xuyên nhằm cung cấp cho máy kho.

Viện Tài chính Doanh nghiệp xác định những nhược điểm tiềm ẩn này của việc duy trì kho dữ liệu:

  • Cần nhiều thời gian và công sức để tạo và duy trì nhà kho.
  • Các khoảng trống trong thông tin, do lỗi của con người, có thể mất nhiều năm để xuất hiện, làm hỏng tính toàn vẹn và hữu ích của thông tin.
  • Khi nhiều nguồn được sử dụng, sự không nhất quán giữa chúng có thể gây ra tổn thất thông tin ..
Thuận lợi

  • Cung cấp phân tích dựa trên thực tế về hiệu quả hoạt động của công ty trong quá khứ để cung cấp thông tin cho việc ra quyết định.

  • Phục vụ như một kho lưu trữ lịch sử của dữ liệu có liên quan.

  • Có thể được chia sẻ giữa các phòng ban quan trọng để đạt được sự hữu ích tối đa.

Nhược điểm

  • Việc tạo và duy trì kho chứa rất nhiều tài nguyên.

  • Lỗi đầu vào có thể làm hỏng tính toàn vẹn của thông tin được lưu trữ.

  • Việc sử dụng nhiều nguồn có thể gây ra sự mâu thuẫn trong dữ liệu.

Câu hỏi thường gặp về Kho dữ liệu

Dưới đây là câu trả lời cho một số câu hỏi thường gặp về kho dữ liệu.

Kho dữ liệu là gì và nó được sử dụng để làm gì?

Kho dữ liệu là một hệ thống lưu trữ thông tin cho dữ liệu lịch sử có thể được phân tích theo nhiều cách. Các công ty và các tổ chức khác dựa trên kho dữ liệu để có được cái nhìn sâu sắc về hiệu suất trong quá khứ và lập kế hoạch cải tiến hoạt động của họ.

Ví dụ về kho dữ liệu là gì?

Xem xét một công ty sản xuất thiết bị tập thể dục. Sản phẩm bán chạy nhất của hãng là xe đạp cố định và hãng đang xem xét mở rộng dòng sản phẩm và tung ra chiến dịch tiếp thị mới để hỗ trợ.

Nó đi đến kho dữ liệu của mình để hiểu khách hàng hiện tại của mình tốt hơn. Nó có thể tìm hiểu xem khách hàng chủ yếu là phụ nữ trên 50 tuổi hay nam giới dưới 35. Nó có thể tìm hiểu thêm về các nhà bán lẻ thành công nhất trong việc bán xe đạp của họ và vị trí của họ. Nó có thể truy cập kết quả khảo sát nội bộ và tìm hiểu những gì khách hàng trước đây của họ thích và không thích về sản phẩm của họ.

Tất cả thông tin này giúp công ty quyết định loại xe đạp mẫu mới mà họ muốn chế tạo và cách họ tiếp thị và quảng cáo chúng. Đó là thông tin khó hơn là việc đưa ra quyết định.

Các giai đoạn của Kho dữ liệu là gì?

Theo ITPro Today, một ấn phẩm trong ngành có ít nhất bảy giai đoạn để tạo ra một kho dữ liệu. Chúng bao gồm:

  • Xác định các mục tiêu kinh doanh và các chỉ số hoạt động chính của nó.
  • Thu thập và phân tích thông tin thích hợp.
  • Xác định các quy trình kinh doanh cốt lõi đóng góp dữ liệu quan trọng.
  • Xây dựng mô hình dữ liệu khái niệm cho biết cách dữ liệu được hiển thị cho người dùng cuối.
  • Định vị các nguồn dữ liệu và thiết lập quy trình cung cấp dữ liệu vào kho.
  • Thiết lập thời lượng theo dõi. Kho dữ liệu có thể trở nên khó sử dụng. Nhiều trang được xây dựng với các cấp độ lưu trữ, do đó thông tin cũ được lưu giữ ít chi tiết hơn.
  • Thực hiện kế hoạch.

SQL có phải là một kho dữ liệu không?

SQL, hoặc Ngôn ngữ truy vấn có cấu trúc, là một ngôn ngữ máy tính được sử dụng để tương tác với cơ sở dữ liệu theo cách mà nó có thể hiểu và phản hồi. Nó chứa một số lệnh như “select”, “insert” và “update”. Nó là ngôn ngữ tiêu chuẩn cho các hệ quản trị cơ sở dữ liệu quan hệ.

Cơ sở dữ liệu không giống như một kho dữ liệu, mặc dù cả hai đều là kho lưu trữ thông tin. Cơ sở dữ liệu là một tập hợp thông tin có tổ chức. Kho dữ liệu là một kho lưu trữ thông tin được xây dựng liên tục từ nhiều nguồn.

Điểm mấu chốt

Kho dữ liệu là kho lưu trữ thông tin của công ty về hoạt động kinh doanh của công ty và hoạt động kinh doanh của công ty đó như thế nào theo thời gian. Được tạo ra với ý kiến đóng góp từ các nhân viên trong mỗi bộ phận quan trọng của công ty, đây là nguồn để phân tích tiết lộ những thành công và thất bại trong quá khứ của công ty và thông báo cho việc ra quyết định của công ty.

Nguồn tham khảo: investmentopedia