Huy Bui
3,517
06-06-2023
Data modeling là gì? Bài viết dưới đây sẽ giúp bạn khám phá cách data modeling sử dụng tính trừu tượng để thể hiện và hiểu rõ hơn về bản chất của luồng dữ liệu trong hệ thống thông tin doanh nghiệp.
Data modeling là quá trình tạo ra một diễn họa trực quan của toàn bộ hệ thống thông tin hoặc các bộ phận của nó để truyền đạt các kết nối giữa các điểm dữ liệu và cấu trúc. Mục đích là để minh họa các loại dữ liệu được sử dụng và lưu trữ trong hệ thống, mối quan hệ giữa các loại dữ liệu này, cách các dữ liệu được nhóm lại và tổ chức, cũng như các định dạng và thuộc tính của nó.
Data models – các mô hình dữ liệu – được xây dựng xung quanh nhu cầu kinh doanh. Các quy tắc và yêu cầu được xác định trước thông qua phản hồi từ các bên liên quan trong doanh nghiệp để chúng có thể được tích hợp vào thiết kế của một hệ thống mới hoặc được điều chỉnh trong lần lặp lại của một hệ thống hiện có.
Dữ liệu có thể được mô hình hóa ở các mức độ trừu tượng khác nhau. Quá trình bắt đầu bằng cách thu thập thông tin về các yêu cầu kinh doanh từ các bên liên quan và người dùng cuối. Các quy tắc kinh doanh này sau đó được dịch thành cấu trúc dữ liệu để tạo thành một thiết kế cơ sở dữ liệu cụ thể. Một mô hình dữ liệu có thể được so sánh với một lộ trình, bản thiết kế của kiến trúc sư hoặc bất kỳ sơ đồ chính thức nào khác giúp hiểu sâu hơn về những gì đang được thiết kế.
Mô hình hóa dữ liệu sử dụng các lược đồ được tiêu chuẩn hóa và các kỹ thuật chính thức. Điều này cung cấp một cách trung lập, nhất quán và có thể dự đoán được để xác định và quản lý tài nguyên dữ liệu trong một tổ chức hoặc thậm chí xa hơn nữa.
Hiểu theo cách lý tưởng nhất, các data models là các tài liệu thực phát triển cùng với việc thay đổi nhu cầu kinh doanh. Chúng đóng một vai trò quan trọng trong việc hỗ trợ các quy trình kinh doanh, lập kế hoạch kiến trúc và chiến lược CNTT. Các data models có thể được chia sẻ với các nhà cung cấp, đối tác và/hoặc các đồng nghiệp trong ngành.
Physical data models hay còn được hiểu đơn giản là mô hình dữ liệu vật lý giúp cung cấp một lược đồ về cách dữ liệu sẽ được lưu trữ vật lý trong cơ sở dữ liệu. Mô hình này cung cấp một thiết kế hoàn thiện có thể được triển khai dưới dạng cơ sở dữ liệu quan hệ, bao gồm các bảng kết hợp minh họa mối quan hệ giữa các thực thể và sử dụng khóa chính và khóa ngoại để duy trì các mối quan hệ đó.
Các mô hình dữ liệu vật lý có thể bao gồm các thuộc tính dành riêng cho hệ thống quản lý cơ sở dữ liệu (DBMS), bao gồm điều chỉnh hiệu suất.
Data modeling là quá trình tạo ra mô hình dữ liệu giúp bạn có cơ hội hiểu dữ liệu của mình và đưa ra các lựa chọn công nghệ phù hợp để lưu trữ và quản lý dữ liệu này, đây là 1 trong những kĩ năng quan trọng trong khóa học data analyst. Cũng giống như cách kiến trúc sư thiết kế bản thiết kế trước khi xây dựng một ngôi nhà, các bên liên quan trong doanh nghiệp thiết kế mô hình dữ liệu trước khi thiết kế các giải pháp cơ sở dữ liệu cho tổ chức của mình.
Data modeling giúp:
Giống như bất kỳ quy trình thiết kế nào, thiết kế hệ thống thông tin và cơ sở dữ liệu bắt đầu ở mức độ trừu tượng cao và ngày càng trở nên cụ thể và cụ thể hơn. Các Data models nói chung có thể được chia thành ba loại, khác nhau tùy theo mức độ trừu tượng của chúng. Quá trình sẽ bắt đầu với một mô hình khái niệm, tiến tới một mô hình logic và kết thúc bằng một mô hình vật lý. Mỗi loại mô hình dữ liệu sẽ được diễn giải cụ thể hơn dưới đây:
Mô hình dữ liệu khái niệm còn được gọi là các mô hình miền và cung cấp một cái nhìn toàn cảnh về những gì hệ thống sẽ chứa, cách thức tổ chức và những quy tắc kinh doanh nào có liên quan. Các mô hình khái niệm thường được tạo ra như một phần của quá trình thu thập các yêu cầu ban đầu của dự án. Thông thường, chúng bao gồm các lớp thực thể (xác định các loại đối tượng quan trọng đối với doanh nghiệp để thể hiện trong mô hình dữ liệu), các đặc điểm và ràng buộc của chúng, mối quan hệ giữa chúng và các yêu cầu về tính toàn vẹn dữ liệu và bảo mật có liên quan. Mọi ký hiệu của loại mô hình này đều khá đơn giản.
Mô hình dữ liệu logic ít trừu tượng hơn và cung cấp chi tiết hơn về các khái niệm và mối quan hệ trong lĩnh vực đang được xem xét. Một trong một số hệ thống ký hiệu mô hình hóa dữ liệu chính thức được tuân theo. Chúng cho biết các thuộc tính dữ liệu, chẳng hạn như kiểu dữ liệu và độ dài tương ứng của chúng, đồng thời hiển thị mối quan hệ giữa các thực thể. Các mô hình dữ liệu logic không chỉ định bất kỳ yêu cầu hệ thống kỹ thuật nào. Giai đoạn này thường bị bỏ qua trong các phương pháp Agile hoặc DevOps. Các mô hình dữ liệu logic có thể hữu ích trong các môi trường triển khai có tính thủ tục cao hoặc cho các dự án có bản chất định hướng dữ liệu, chẳng hạn như thiết kế kho dữ liệu hoặc phát triển hệ thống báo cáo.
Mô hình dữ liệu vật lý cung cấp một lược đồ về cách dữ liệu sẽ được lưu trữ vật lý trong cơ sở dữ liệu. Như vậy, đây sẽ là phần ít trừu tượng nhất trong tất cả. Chúng cung cấp một thiết kế hoàn thiện có thể được triển khai dưới dạng cơ sở dữ liệu quan hệ, bao gồm các bảng kết hợp minh họa mối quan hệ giữa các thực thể cũng như khóa chính và khóa ngoại sẽ được sử dụng để duy trì các mối quan hệ đó. Các mô hình dữ liệu vật lý có thể bao gồm các thuộc tính dành riêng cho hệ thống quản lý cơ sở dữ liệu (DBMS), bao gồm điều chỉnh hiệu suất.
Data modeling đã phát triển cùng với các hệ thống quản lý cơ sở dữ liệu, các loại mô hình ngày càng phức tạp khi nhu cầu lưu trữ dữ liệu của doanh nghiệp tăng lên. Dưới đây là một số loại mô hình phổ biến:
Mô hình dữ liệu phân cấp biểu thị mối quan hệ đơn nhất-chi tiết ở định dạng dạng cây. Trong loại mô hình này, mỗi bản ghi có một gốc hoặc cha mẹ kết nối tới một hoặc nhiều bảng con. Mô hình này được triển khai trong Hệ thống quản lý thông tin IBM (IMS), được giới thiệu vào năm 1966 và nhanh chóng được sử dụng rộng rãi, đặc biệt là trong ngân hàng. Mặc dù cách tiếp cận này kém hiệu quả hơn so với các mô hình cơ sở dữ liệu được phát triển gần đây nhưng nó vẫn được sử dụng trong các hệ thống Extensible Markup Language (XML) và hệ thống thông tin địa lý (GIS).
Các mô hình dữ liệu quan hệ ban đầu được đề xuất bởi nhà nghiên cứu IBM E.F. Codd vào năm 1970. Ngày nay chúng vẫn được triển khai trong nhiều cơ sở dữ liệu quan hệ khác nhau thường được sử dụng trong điện toán doanh nghiệp. Mô hình hóa dữ liệu quan hệ không yêu cầu hiểu biết chi tiết về các thuộc tính vật lý của bộ lưu trữ dữ liệu đang được sử dụng. Trong đó, các phân đoạn dữ liệu được nối một cách rõ ràng thông qua việc sử dụng các bảng, làm giảm độ phức tạp của cơ sở dữ liệu.
Relational databases thường sử dụng ngôn ngữ truy vấn có cấu trúc (SQL) để quản lý dữ liệu. Các cơ sở dữ liệu này hoạt động tốt để duy trì tính toàn vẹn của dữ liệu và giảm thiểu sự dư thừa. Chúng thường được sử dụng trong các hệ thống điểm bán hàng, cũng như cho các loại xử lý giao dịch khác.
Hai mô hình dimensional data models phổ biến là lược đồ hình sao, trong đó dữ liệu được tổ chức thành các sự kiện (mục có thể đo lường) và kích thước (thông tin tham chiếu), trong đó mỗi sự kiện được bao quanh bởi các kích thước liên kết theo mô hình giống như ngôi sao. Cái còn lại là lược đồ bông tuyết, tương tự như lược đồ hình sao nhưng bao gồm các lớp bổ sung có kích thước liên quan, làm cho mô hình phân nhánh phức tạp hơn.
Hy vọng với bài viết trên đây, bạn đã có cái nhìn tổng quan về data modeling cũng như tầm quan trọng của quá trình mô trình hóa dữ liệu.
>> Tìm hiểu thêm về xây dựng data model power bi