Các loại dữ liệu thường sử dụng trong doanh nghiệp (P2) – dữ liệu phi cấu trúc cấu trúc!

admin
5,342
11-09-2021

Ở phần 1 bạn đã được đọc về dữ liệu có cấu trúc, phần này bạn sẽ khám phá tiếp các dữ liệu phi cấu trúc (hay nói cách khác là dữ liệu không có cấu trúc – NoSQL).

Dữ liệu phi cấu trúc là thuật ngữ dùng để chỉ bất kỳ dữ liệu nào không phù hợp với các định dạng hoặc cơ sở dữ liệu có cấu trúc truyền thống – ví dụ như các trao đổi thông qua e-mail, văn bản trang web, các bài viết trên phương tiện truyền thông xã hội, nội dung video, hình ảnh và bản ghi âm. Như bạn có thể biết, chúng thường dưới dạng văn bản khối lượng lớn, nhưng cũng có thể là những dữ liệu ở dạng ngày và số, hoặc các loại dữ liệu khác như hình ảnh. Cho đến thời gian gần đây, mọi thứ không phù hợp với cơ sở dữ liệu hoặc bảng tính thường bị loại bỏ hoặc lưu trữ trên giấy, vi phim, hoặc tập tin được scan mà không thể dễ dàng phân tích. Bây giờ, nhờ vào sự gia tăng vượt trội trong khả năng lưu trữ, khả năng gắn thẻ và phân loại dữ liệu phi cấu trúc, chưa kể đến những tiến bộ trong các công cụ phân tích dữ liệu, cuối cùng chúng ta đã có thể sử dụng dữ liệu này.

Dữ liệu bán cấu trúc là đường giao thoa giữa dữ liệu phi cấu trúc và có cấu trúc. Đây là dữ liệu có một số cấu trúc có thể được sử dụng để phân tích (như các thẻ hoặc các dạng đánh dấu khác) nhưng thiếu cấu trúc nghiêm ngặt, cái mà chúng ta thường thấy trong cơ sở dữ liệu hoặc bảng tính. Ví dụ, một dòng tweet có thể được phân loại theo tác giả, ngày tháng, thời gian, độ dài và thậm chí cả cảm xúc ẩn chứa đằng sau nó, nhưng bản thân nội dung thường không có cấu trúc. Hiện nay, người ta có thể tự động phân tích văn bản trong dòng tweet đó, nhưng không phải là sử dụng các phương pháp phân tích truyền thống, mà sẽ cần đến một công cụ phân tích văn bản chuyên nghiệp.

Nhược điểm của dữ liệu phi cấu trúc

Bạn có thể đoán được rằng nhược điểm chính của việc làm việc với những dữ liệu lộn xộn và phi cấu trúc là chúng khá phức tạp, thường đòi hỏi phần mềm và hệ thống được thiết kế đặc biệt. Kết quả là, chi phí có thể tăng lên. Điều này không phải là không hợp lý; dữ liệu phi cấu trúc có xu hướng lớn hơn nhiều so với dữ liệu có cấu trúc, điều đó có nghĩa là bạn cần phải có dung lượng lớn hơn, tốt hơn, và việc tổ chức cũng như trích xuất những hiểu biết sâu sắc trở nên phức tạp hơn, dẫn đến việc đòi hỏi các hệ thống chuyên biệt. Tất cả điều này không có nghĩa là bạn không nên sử dụng dữ liệu phi cấu trúc. Điều quan trọng là bạn cần làm rõ những gì bạn muốn đạt được và dữ liệu nào bạn cần để thực hiện điều đó – nó là cách chắc chắn nhất để tránh việc “leo thang” và giữ cho chi phí được kiểm soát.

bạn không nên sử dụng dữ liệu phi cấu trúc. Điều quan trọng là bạn cần làm rõ những gì bạn muốn đạt được và dữ liệu nào bạn cần để thực hiện điều đó – nó là cách chắc chắn nhất để tránh việc “leo thang” và giữ cho chi phí được kiểm soát.

Dữ liệu phi cấu trúc và bán cấu trúc có lợi thế lớn là chúng rất nhiều. 80% dữ liệu liên quan đến kinh doanh bắt nguồn từ dữ liệu phi cấu trúc hoặc bán cấu trúc, do đó nó lớn hơn rất nhiều so với dữ liệu có cấu trúc về khối lượng tuyệt đối. Và một lợi thế quan trọng khác là nó có xu hướng cung cấp một bức tranh phong phú hơn so với dữ liệu có cấu trúc truyền thống. Hãy suy nghĩ theo hướng dữ liệu có cấu trúc cho bạn biết ai, cái gì, ở đâu khi nào, trong khi dữ liệu phi cấu trúc giúp bạn hiểu lý do tại sao.

Dưới đây là ví dụ đơn giản về cách chúng ta có thể làm việc dễ dàng hơn với dữ liệu phi cấu trúc. Hãy xem xét đoạn video một con mèo chơi với quả bóng bện bằng dây. Một vài năm trước, để video đó được phân loại (ví dụ như để cho nó có thể xuất hiện trong kết quả tìm kiếm), người ta sẽ phải xem và gắn thẻ theo một số từ khóa nhất định (mèo, dễ thương, quả bóng, vui nhộn,…) để cho những người tìm kiếm video mèo vui nhộn hoặc dễ thương có thể tìm thấy video này một cách dễ dàng hơn. Giờ đây, video có thể được tự động phân loại bằng thuật toán, nghĩa là máy tính có thể xem video, tự động phát hiện nội dung bên trong (thậm chí có thể là ai trong đó, nhờ phần mềm nhận diện khuôn mặt) và tự động tạo ra các thẻ riêng cho chúng. Các thương hiệu đang bắt đầu sử dụng công nghệ này như là một phần trong hoạt động marketing hàng ngày của họ. Một người bạn của tôi kiếm sống bằng việc tổ chức các buổi hội nghị, và một trong những hội nghị mà anh tổ chức là cho một công ty sản xuất thiết bị điện tử nổi tiếng. Ngay trước khi hội nghị bắt đầu, anh ấy đã chia sẻ một bức ảnh của sân khấu chính trên Twitter, đã sẵn sàng cho diễn giả đầu tiên. Bức ảnh có tên và logo của nhà sản xuất, được đặt trên một tấm biển phía sau sân khấu, nhưng anh đã không đề cập rõ ràng đến công ty bằng cách sử dụng hashtag hoặc gắn địa chỉ Twitter của họ một cách rõ ràng. Và tiếp theo thì sao, một tuần sau hội nghị, liệu anh ấy có còn tiếp tục nhìn thấy những quảng cáo trực tuyến được nhắm mục tiêu cho thương hiệu cụ thể đó không? Bởi vì công ty biết anh ta đang nói về họ; phần mềm phân tích có thể khai thác dữ liệu phi cấu trúc cho bất kỳ điều gì có liên quan đến công ty và sản phẩm của họ.

Theo sách chiến lược dữ liệu – Chương 6

Nâng cấp kỹ năng ứng dụng chuyển đổi số cho người đi làm cùng chúng tôi ngay hôm nay.
Tư vấn miễn phí