Cole.edu.vn
Cole Logo
Trang chủ Cộng đồng
Kiến thức
  • Data Engineer
  • AI Engineer
  • IT Business Analyst
  • Data Science & BI
  • Product Manager
Ebook Chứng chỉ
DX & AI Hub
DX & AI Hub

Các loại dữ liệu thường sử dụng trong doanh nghiệp (P2) – dữ liệu phi cấu trúc cấu trúc!

Quốc Huy
CEO Cole.vn

Ở phần 1 bạn đã được đọc về dữ liệu có cấu trúc, phần này bạn sẽ khám phá tiếp các dữ liệu phi cấu trúc (hay nói cách khác là dữ liệu không có cấu trúc – NoSQL).

Dữ liệu phi cấu trúc là thuật ngữ dùng để chỉ bất kỳ dữ liệu nào không phù hợp với các định dạng hoặc cơ sở dữ liệu có cấu trúc truyền thống – ví dụ như các trao đổi thông qua e-mail, văn bản trang web, các bài viết trên phương tiện truyền thông xã hội, nội dung video, hình ảnh và bản ghi âm. Như bạn có thể biết, chúng thường dưới dạng văn bản khối lượng lớn, nhưng cũng có thể là những dữ liệu ở dạng ngày và số, hoặc các loại dữ liệu khác như hình ảnh. Cho đến thời gian gần đây, mọi thứ không phù hợp với cơ sở dữ liệu hoặc bảng tính thường bị loại bỏ hoặc lưu trữ trên giấy, vi phim, hoặc tập tin được scan mà không thể dễ dàng phân tích. Bây giờ, nhờ vào sự gia tăng vượt trội trong khả năng lưu trữ, khả năng gắn thẻ và phân loại dữ liệu phi cấu trúc, chưa kể đến những tiến bộ trong các công cụ phân tích dữ liệu, cuối cùng chúng ta đã có thể sử dụng dữ liệu này.

Dữ liệu bán cấu trúc là đường giao thoa giữa dữ liệu phi cấu trúc và có cấu trúc. Đây là dữ liệu có một số cấu trúc có thể được sử dụng để phân tích (như các thẻ hoặc các dạng đánh dấu khác) nhưng thiếu cấu trúc nghiêm ngặt, cái mà chúng ta thường thấy trong cơ sở dữ liệu hoặc bảng tính. Ví dụ, một dòng tweet có thể được phân loại theo tác giả, ngày tháng, thời gian, độ dài và thậm chí cả cảm xúc ẩn chứa đằng sau nó, nhưng bản thân nội dung thường không có cấu trúc. Hiện nay, người ta có thể tự động phân tích văn bản trong dòng tweet đó, nhưng không phải là sử dụng các phương pháp phân tích truyền thống, mà sẽ cần đến một công cụ phân tích văn bản chuyên nghiệp.

Nhược điểm của dữ liệu phi cấu trúc

Bạn có thể đoán được rằng nhược điểm chính của việc làm việc với những dữ liệu lộn xộn và phi cấu trúc là chúng khá phức tạp, thường đòi hỏi phần mềm và hệ thống được thiết kế đặc biệt. Kết quả là, chi phí có thể tăng lên. Điều này không phải là không hợp lý; dữ liệu phi cấu trúc có xu hướng lớn hơn nhiều so với dữ liệu có cấu trúc, điều đó có nghĩa là bạn cần phải có dung lượng lớn hơn, tốt hơn, và việc tổ chức cũng như trích xuất những hiểu biết sâu sắc trở nên phức tạp hơn, dẫn đến việc đòi hỏi các hệ thống chuyên biệt. Tất cả điều này không có nghĩa là bạn không nên sử dụng dữ liệu phi cấu trúc. Điều quan trọng là bạn cần làm rõ những gì bạn muốn đạt được và dữ liệu nào bạn cần để thực hiện điều đó – nó là cách chắc chắn nhất để tránh việc “leo thang” và giữ cho chi phí được kiểm soát.

bạn không nên sử dụng dữ liệu phi cấu trúc. Điều quan trọng là bạn cần làm rõ những gì bạn muốn đạt được và dữ liệu nào bạn cần để thực hiện điều đó – nó là cách chắc chắn nhất để tránh việc “leo thang” và giữ cho chi phí được kiểm soát.

Dữ liệu phi cấu trúc và bán cấu trúc có lợi thế lớn là chúng rất nhiều. 80% dữ liệu liên quan đến kinh doanh bắt nguồn từ dữ liệu phi cấu trúc hoặc bán cấu trúc, do đó nó lớn hơn rất nhiều so với dữ liệu có cấu trúc về khối lượng tuyệt đối. Và một lợi thế quan trọng khác là nó có xu hướng cung cấp một bức tranh phong phú hơn so với dữ liệu có cấu trúc truyền thống. Hãy suy nghĩ theo hướng dữ liệu có cấu trúc cho bạn biết ai, cái gì, ở đâu và khi nào, trong khi dữ liệu phi cấu trúc giúp bạn hiểu lý do tại sao.

Dưới đây là ví dụ đơn giản về cách chúng ta có thể làm việc dễ dàng hơn với dữ liệu phi cấu trúc. Hãy xem xét đoạn video một con mèo chơi với quả bóng bện bằng dây. Một vài năm trước, để video đó được phân loại (ví dụ như để cho nó có thể xuất hiện trong kết quả tìm kiếm), người ta sẽ phải xem và gắn thẻ theo một số từ khóa nhất định (mèo, dễ thương, quả bóng, vui nhộn,…) để cho những người tìm kiếm video mèo vui nhộn hoặc dễ thương có thể tìm thấy video này một cách dễ dàng hơn. Giờ đây, video có thể được tự động phân loại bằng thuật toán, nghĩa là máy tính có thể xem video, tự động phát hiện nội dung bên trong (thậm chí có thể là ai trong đó, nhờ phần mềm nhận diện khuôn mặt) và tự động tạo ra các thẻ riêng cho chúng. Các thương hiệu đang bắt đầu sử dụng công nghệ này như là một phần trong hoạt động marketing hàng ngày của họ. Một người bạn của tôi kiếm sống bằng việc tổ chức các buổi hội nghị, và một trong những hội nghị mà anh tổ chức là cho một công ty sản xuất thiết bị điện tử nổi tiếng. Ngay trước khi hội nghị bắt đầu, anh ấy đã chia sẻ một bức ảnh của sân khấu chính trên Twitter, đã sẵn sàng cho diễn giả đầu tiên. Bức ảnh có tên và logo của nhà sản xuất, được đặt trên một tấm biển phía sau sân khấu, nhưng anh đã không đề cập rõ ràng đến công ty bằng cách sử dụng hashtag hoặc gắn địa chỉ Twitter của họ một cách rõ ràng. Và tiếp theo thì sao, một tuần sau hội nghị, liệu anh ấy có còn tiếp tục nhìn thấy những quảng cáo trực tuyến được nhắm mục tiêu cho thương hiệu cụ thể đó không? Bởi vì công ty biết anh ta đang nói về họ; phần mềm phân tích có thể khai thác dữ liệu phi cấu trúc cho bất kỳ điều gì có liên quan đến công ty và sản phẩm của họ.

Xem thêm: Các loại dữ liệu thường sử dụng trong doanh nghiệp (P3) – dữ liệu nội bộ!

Theo sách chiến lược dữ liệu – Chương 6

Bài liên quan

Lãnh đạo doanh nghiệp
Các loại dữ liệu thường sử dụng trong doanh nghiệp (P3) – dữ liệu nội bộ!
Lãnh đạo doanh nghiệp
Các loại dữ liệu có cấu trúc thường sử dụng trong doanh nghiệp (P1)
// tiến độ đọc
Tiến độ đọc
0%

// Mục Lục

// Chia sẻ
Facebook
Twitter
LinkedIn
Reddit
Threads
WhatsApp
Email
// Khóa học Liên quan
Khóa học
Khóa Học Python for Data Analysis – Hướng Dẫn Cho Người Mới
Khóa học
Khóa học Data Analyst SQL – Hành Trang Cho Sự Nghiệp Dữ Liệu
Khóa học
Khóa Học Phân Tích Dữ Liệu với R – Từ Cơ Bản Đến Nâng Cao
Khóa học
Khóa Học Business Intelligence – Làm Chủ Dữ Liệu Và Báo Cáo
Khóa học
Khóa Học Chuyển Đổi Số – Giải Pháp Cho CEO Tái Cấu Trúc
Khóa học
Khóa Học Quantitative Trading – Làm Chủ Dữ Liệu Tài Chính AI
Khóa học
Khóa Học AI Ứng Dụng Và No Code – Cho Người Đi Làm Thời 4.0
Khóa học
Khóa học Master Data Governance – Nâng tầm Quản Trị Dữ Liệu
Footer Cole.vn
Cole Logo

Nền tảng đào tạo công nghệ ứng dụng thực chiến cho người đi làm tại Việt Nam.

Công ty TNHH Edtech Cole
Tầng 3, số 8 Phan Văn Trường, Cầu Giấy, Hà Nội
VPĐD: Imperia 203 Nguyễn Huy Tưởng, Thanh Xuân
ĐKKD: 0109007268 (29/11/2019)
GP đào tạo: 1760 - QĐ/SGDĐT Hà Nội

Hotline: 0869 810 635 - 0862 085 989
( Giờ hỗ trợ: sáng 8h30 - 12h, chiều: 1h30 - 6h)

Email: contact@cole.vn
Trang tin chính thức: https://cole.vn

  • Khóa học

  • Data Engineer
  • AI Engineer
  • IT Business Analyst
  • Data Science / ML
  • Auto Trading
  • AI Automation & n8n
  • Product Software Engineer
  • Về Cole

  • Giới thiệu
  • Chính sách & điều khoản
  • Đào tạo doanh nghiệp
  • Hợp tác tuyển dụng

© 2019 - 2026 Cole.vn

Bản quyền thuộc về Công ty TNHH Edtech Cole, giấy phép ĐKKD số 0109007268 - Do SKHĐT TPHN cấp ngày 29/11/2019.

Giấy phép đào tạo số 1760 - QĐ/SGDĐT Thành Phố Hà Nội