Tích hợp dữ liệu (Data Integration) bao gồm việc kết hợp dữ liệu không đồng nhất trong các nguồn khác nhau vào một lược đồ duy nhất và có thể truy vấn, cung cấp cho người dùng một cái nhìn thống nhất về chúng.
Tích hợp dữ liệu được sử dụng với tần số ngày càng nhiều khi mà khối lượng và nhu cầu chia sẻ dữ liệu hiện nay rất lớn. Để đảm bảo việc trao đổi dữ liệu trong hệ thống được hiệu quả hoặc xử lý các công việc tiếp theo theo các luồng công việc định trước như: phân tích, so sánh, thống kê, báo cáo,…
Các phương pháp tích hợp dữ liệu: Có hai phương pháp chủ yếu để tích hợp dữ liệu:
- Ghép nối chặt chẽ (Tight Coupling): kho dữ liệu
Phương pháp ghép nối chặt chẽ thường được thực hiện thông qua kho dữ liệu, dữ liệu được lấy từ nhiều nguồn khác nhau đưa vào một vị trí vật lý duy nhất thông qua quá trình ETL (Extraction, Transformation, Loading). Lớp ETL giúp ánh xạ dữ liệu từ các nguồn để cung cấp một kho dữ liệu thống nhất. Vị trí vật lý, cung cấp một giao diện đồng nhất để truy vấn dữ liệu.
Cách tiếp cận này được gọi là ghép nối chặt chẽ vì trong cách tiếp cận này dữ liệu được kết hợp chặt chẽ với kho lưu trữ vật lý tại thời điểm truy vấn.
- Ghép nối lỏng lẻo (Loose Coupling): lược đồ trung gian ảo
Ở đây một lược đồ trung gian ảo cung cấp một giao diện nhận truy vấn từ người dùng, biến đổi nó theo cách mà cơ sở dữ liệu nguồn có thể hiểu và gửi truy vấn trực tiếp tới cơ sở dữ liệu nguồn để thu được kết quả. Trong phương pháp này, dữ liệu chỉ nằm trong cơ sở dữ liệu nguồn thực tế. Mô hình của phương pháp ghép nối lỏng lẻo được mô phỏng như hình dưới.
Lược đồ trung gian chứa một số “bộ điều hợp” hoặc “trình bao bọc” có thể kết nối lại với hệ thống nguồn để mang dữ liệu đến giao diện người dùng.
So sánh ưu nhược điểm của 2 phương pháp: ghép nối chặt chẽ và ghép nối lỏng lẻo được thể hiện chi tiết trong sau:
Ghép nối chặt chẽ | Ghép nối lỏng lẻo | |
Ưu điểm | – Độc lập (phụ thuộc ít hơn vào hệ thống nguồn vì dữ liệu được sao chép về mặt vật lý) -Xử lý truy vấn nhanh hơn -Xử lý truy vấn phức tạp -Tóm tắt dữ liệu nâng cao và có thể lưu trữ – Xử lý dữ liệu lớn | – Làm mới dữ liệu (độ trễ thấp – gần như thời gian thực) – Nhanh nhẹn hơn (khi có hệ thống nguồn mới hoặc hệ thống nguồn hiện tại thay đổi thì chỉ bộ điều hợp tương ứng mới được tạo hoặc thay đổi, phần lớn không ảnh hưởng đến các phần khác của hệ thống) – Chi phí thấp |
Nhược điểm | – Độ trễ (vì dữ liệu cần được tải bằng ETL) – Chi phí cao | – Phản hồi truy vấn chậm hơn (do vấn đề về mạng / băng thông, tải dữ liệu trên hệ thống nguồn,…) – Phụ thuộc vào các nguồn dữ liệu |
Bảng so sánh ưu nhược điểm của 2 phương pháp tích hợp dữ liệu
Tích hợp dữ liệu cũng là một kiến thức rất quan trọng trong chuỗi các bài viết về kiến thức lập trình mà GocNhinSo.Com sẽ chia sẻ trong thời gian sắp tới! Mong các bạn chú ý theo dõi!