Dữ liệu được sinh ra từ hàng tỷ điện thoại thông minh, thiết bị cảm biến kết nối vạn vật và hoạt động của con người trên môi trường mạng. Mỗi một ngày dữ liệu sinh ra có thể lên đến tương đương dữ liệu lưu trữ trong một tỷ đĩa DVD trước đây. Nếu công nghệ trước kia cần một thời gian rất dài để xử lý dữ liệu như vậy thì công nghệ số hiện nay cho phép xử lý, phân tích trong khoảng thời gian ngắn hơn rất nhiều để trích rút ra thông tin, tri thức hoặc đưa ra quyết định một cách phù hợp. Nếu công nghệ trước kia xử lý dữ liệu có cấu trúc thì công nghệ số hiện nay chủ yếu xử lý và phân tích dữ liệu phi cấu trúc. Dữ liệu phi cấu trúc chiếm tới 70-80%, do vậy, chứa nhiều thông tin hơn dữ liệu có cấu trúc.
Có thể ví dữ liệu lớn như bộ não của con người.