Entropy thông tin mô tả mức độ hỗn loạn trong một tín hiệu lấy từ một sự kiện ngẫu nhiên. Nói cách khác, entropy cũng chỉ ra có bao nhiêu thông tin trong tín hiệu, với thông tin là các phần không hỗn loạn ngẫu nhiên của tín hiệu.
Ví dụ, nhìn vào một dòng chữ tiếng Việt, được mã hóa bởi các chữ cái, khoảng cách, và dấu câu, tổng quát là các ký tự. Dòng chữ có ý nghĩa sẽ không hiện ra một cách hoàn toàn hỗn loạn ngẫu nhiên; ví dụ như tần số xuất hiện của chữ cái x sẽ không giống với tần số xuất hiện của chữ cái phổ biến hơn là t.
Đồng thời, nếu dòng chữ vẫn đang được viết hay đang được truyền tải,
khó có thể đoán trước được ký tự tiếp theo sẽ là gì, do đó nó có mức độ
ngẫu nhiên nhất định. Entropy thông tin là một thang đo mức độ ngẫu
nhiên này.
Có thể nói trong viễn thông đây là cơ sở của các thuật toán nén. Ví dụ nếu random ngẫu nhiên 1 dòng toàn tiếng anh và dấu cách chẳng hạn thì trong mỗi ký tự có thể là 1 trong 27 trạng thái (26 ký tự và ký tự cách) vậy sẽ tương ứng với log2(27) = 4.755 bit để biểu thị. Tuy nhiên đấy là các ký tự hoàn toàn ngẫu nhiên và , nhưng thực tế thì thường các ký tự lại có quy luật có thể dự đoán, bằng giải thuật này hay giải thuật khác người ta rút được số bit trên mỗi ký tự xuống dưới số bit trên => entropy giảm vì tính chất ngẫu nhiên giảm dự đoán được , cái này càng có quy luật thì entropy càng giảm, các bạn có thể chạy 1 vòng lặp in ra 1 file text có giá trị abcdef 1 triệu lần rồi dùng winrar , 7-zip nén lại mà xem, đảm bảo sẽ cho ra các file nén với tỉ số siêu nén, do tính chất tuần hoàn quá quy luật nên số bit cần lưu trữ 1 thông tin cực nhỏ (nhỏ hơn 1 nhiều), entropy nhỏ.
0 nhận xét:
Đăng nhận xét