Tìm kiếm nhanh và chính xác hơn với google tùy chỉnh

Thứ Sáu, 10 tháng 2, 2012

Mã hóa văn bản, giọng nói, hình ảnh, và tín hiệu Video (phần 1)

Các thông tin được trao đổi giữa hai thực thể (người hoặc máy móc) trong một hệ thống truyền thông có thể là một trong các định dạng sau: Văn bản, Giọng nói, Hình ảnh, Video

Trong hệ thống truyền thông, thông tin này đầu tiên được chuyển đổi thành tín hiệu . Ví dụ, một micro là bộ chuyển đổi có thể chuyển đổi giọng nói của con người thành tín hiệu analog. Tương tự, máy quay video chuyển đổi các cảnh trong thực tế cuộc sống thành tín hiệu analog. Trong một hệ thống truyền thông kỹ thuật số, bước đầu tiên là chuyển đổi tín hiệu analog sang định dạng kỹ thuật số bằng cách sử dụng kỹ thuật chuyển đổi analog-to-digital. Điều này biểu diễn tín hiệu số cho các loại hình thông tin. Tín hiệu số này biểu diễn cho các loại hình thông tin là chủ đề của chương này.

Tin nhắn văn bản

Tin nhắn văn bản được biểu diễn chung bởi bảng mã ASCII (American Standard Code for Information Interchange), trong đó 7 bit mã được sử dụng để biểu diễn một ký tự. Một dạng mã khác được gọi là EBCDIC (Extended Binary Coded Decimal Interchange Code) cũng được sử dụng để truyền các tin nhắn văn bản. Đầu tiên văn bản được chuyển sang các dạng mã này và sau đó dòng bit sẽ được chuyển thành tín hiệu điện.
Sử dụng bảng mã ASCII, số lượng ký tự có thể được biểu diễn giới hạn đến 128 bởi vì chỉ có 7-bit mã được sử dụng. Bảng mã ASCII cũng được dùng biểu diễn cho nhiều ngôn ngữ châu Âu. Để biểu diễn cho các ngôn ngữ Ấn Độ, một tiêu chuẩn được biết đến như Indian Standard Code for Information Interchange (ISCII)(bảng mã tiêu chuẩn để trao đổi thông tin ) đã được phát triển. ISCII có 7-bit và cả 8-bit.
ASCII là chương trình mã hóa được sử dụng rộng rãi nhất cho biểu diễn cho văn bản trong máy tính . ISCII được sử dụng để thể hiện cho văn bản của các ngôn ngữ Ấn Độ.
Chú ý, trong ASCII mở rộng, mỗi ký tự được biểu diễn bằng 8 bit. Sử dụng 8 bit, một ký tự đồ họa và các ký tự điều khiển mới có thể được thể hiện.
Unicode đã được phát triển để thể hiện cho tất cả các ngôn ngữ trên thế giới. Unicode sử dụng 16 bit để đại diện cho mỗi ký tự  và có thể được sử dụng để mã hóa các ký tự của bất kỳ ngôn ngữ nào được công nhận trên thế giới. ngôn ngữ lập trình hiện đại như Java và các ngôn ngữ có dấu như là XML hỗ trợ Unicode.
Unicode được sử dụng để biểu diễn cho bất kỳ ngôn ngữ trên thế giới trong máy tính. Unicode sử dụng 16 bit để biểu diễn cho mỗi ký tự. Java và XML hỗ trợ Unicode. Điều quan trọng cần lưu ý là cơ chế mã hóa ASCII / Unicode không phải là cách tốt nhất, theo Shannon. Nếu chúng ta xem xét các tần số xuất hiện của các ký tự của một ngôn ngữ và sử dụng từ mã nhỏ cho các ký tự thường xuyên xuất hiện, các mã hóa sẽ có hiệu quả hơn. Tuy nhiên, nhiều xử lý sẽ được đòi hỏi, và nhiều hơn nữa sẽ gây ra chậm trễ.
Các cơ chế mã hóa tốt nhất cho các tin nhắn văn bản được phát triển bởi Morse. Mã Morse được sử dụng rộng rãi cho giao tiếp trong thời gian trước. Nhiều tàu đã sử dụng mã Morse cho đến khi tháng 5 năm 2000. Trong mã Morse, ký tự được biểu diễn bằng dấu chấm và dấu gạch ngang. mã Morse không còn được sử dụng trong các hệ thống truyền thông tiêu chuẩn.
Lưu ý : Mã Morse sử dụng dấu chấm và dấu gạch ngang để đại diện cho nhiều ký tự tiếng Anh. Nó là một mã hiệu quả bởi vì mã ngắn được sử dụng để biểu diễn cho ký tự có tần số suất hiện cao và mã dài được sử dụng để biểu diễn cho ký tự có tần số xuất hiện thấp. Ký tự E chỉ được biểu diễn bởi duy nhất một dấu chấm ( . ) và ký tự Q biểu diễn bởi dấu gạch gạch chấm gạch (- – . -).

Âm thanh


Bổ xung bài viết tí, các bạn có thể down bài viết Mã hóa tiếng nói và ứng dụng trong thông tin liên lạc di động (nếu link đứt thì search google nhé) thì sẽ có phân loại, mạng di động nào dùng loại mã hóa nào, tốc độ là bao nhiêu ...
Để truyền tiếng nói từ một nơi khác, các bài phát biểu (tín hiệu âm thanh) là đầu tiên chuyển đổi thành tín hiệu điện bằng cách sử dụng một bộ chuyển đổi, các microphone. Tín hiệu điện này là một tín hiệu analog . Các tín hiệu thoại tương ứng với câu nói “how are you” được thể hiện trong hình 4.1. Các đặc tính quan trọng của tín hiệu thoại được đưa ra ở đây:
·         Các tín hiệu thoại có băng tần 4kHz tức là, các thành phần tần số cao nhất trong các tín hiệu giọng nói là 4kHz. Mặc dù thành phần tần số cao hơn có mặt, chúng không đáng kể, do đó một bộ lọc được sử dụng để loại bỏ tất cả các thành phần tần số cao trên 4kHz. Trong các mạng điện thoại, băng thông được giới hạn chỉ 3.4kHz….
·         Cường độ thay đổi tùy theo mỗi người . Cường độ là tần số cơ bản trong các tín hiệu giọng nói. Giọng nam, cường độ  là trong khoảng 50-250 Hz. Giọng nữ, cường độ là trong khoảng 200-400 Hz.
·         Âm thanh của tiếng nói có thể được phân loại chung như là vô thanh và hữu thanh . Tín hiệu tương ứng với hữu thanh (chẳng hạn như các nguyên âm a, e, i, o, u) sẽ được các tín hiệu định kỳ và sẽ có biên độ cao. Tín hiệu tương ứng với vô thanh (như th, s, z, vv) sẽ giống như tín hiệu nhiễu và sẽ có biên độ thấp.
·         Tín hiệu thoại được xem là một tín hiệu bất tĩnh, nghĩa là, các đặc điểm của tín hiệu (như cường độ và năng lượng) khác nhau. Tuy nhiên, nếu chúng ta lấy phần nhỏ của các tín hiệu thoại với thời gian 20 miligiây, tín hiệu có thể được coi là không thay đổi. Nói cách khác, trong thời gian nhỏ, các đặc điểm của tín hiệu không thay đổi nhiều. Do đó, giá trị cường độ có thể được tính bằng cách sử dụng tín hiệu thoại của 20 mili giây. Tuy nhiên, nếu chúng ta lấy 20 mili giây tiếp theo, cường độ có thể khác nhau.
clip_image002

Hình 4.1: Dạng sóng âm của giọng nói
Các tín hiệu thoại chiếm một băng thông là 4KHz. Các tín hiệu thoại có thể được chia thành một tần số cơ bản và giai điệu của nó. Các tần số cơ bản hoặc cao độ là thấp đối với giọng nam và cao đối với giọng nữ.
Những đặc điểm này được sử dụng trong khi chuyển đổi các tín hiệu thoại analog sang dạng kỹ thuật số. Sự chuyển đổi Analog-to-digital của tín hiệu thoại có thể được thực hiện bằng cách sử dụng một trong hai kỹ thuật: mã hóa dạng sóng và vocoding .
Lưu ý : Các đặc tính của tín hiệu thoại được mô tả ở đây được sử dụng rộng rãi cho các ứng dụng xử lý lời nói như chuyển đổi  text–to-speech và nhận dạng giọng nói.
Tín hiệu âm nhạc có băng tần là 20kHz. Các kỹ thuật được sử dụng để chuyển đổi tín hiệu âm nhạc vào dạng kỹ thuật số cũng tương tự như đối với tín hiệu thoại.

Mã hóa dạng sóng

Mã hóa dạng sóng được thực hiện theo cách tín hiệu điện tương tự có thể được sao chép vào cuối nhận được với sự thay đổi tối thiểu. Hàng trăm kỹ thuật mã hóa dạng sóng đã được đề xuất bởi nhiều nhà nghiên cứu. Chúng ta sẽ nghiên cứu hai kỹ thuật mã hóa dạng sóng quan trọng là: điều chế xung mã (PCM) và điều chế mã xung vi sai thích ứng (ADPCM).

Điều chế mã xung

Điều chế mã xung (PCM) là đầu tiên và được sử dụng rộng rãi nhất trong hầu hết các kỹ thuật mã hóa dạng sóng các. Tổ chức ITU-T (International Telecommunication Union – Telecommunication Standardization Sector) đưa ra khuyến nghị G.711 quy định các thuật toán để mã hóa tiếng nói ở định dạng PCM.
PCM – kỹ thuật mã hóa dựa trên định lý Nyquist, định lý nói rằng nếu một tín hiệu được lấy mẫu thống nhất ít nhất là gấp đôi tần số cao nhất, nó có thể được tái tạo mà không có bất kỳ sự biến dạng nào. Tần số cao nhất trong tín hiệu thoại là 4kHz, vì vậy chúng ta cần phải mẫu dạng sóng là 8.000 mẫu / giây, mỗi 1/8000th của một giây (125 micro giây). Chúng tôi đã tìm ra biên độ của sóng cho mỗi 125 micro giây và truyền giá trị đó thay vì truyền tải những tín hiệu tương tự như nó có. Các giá trị vẫn còn giá trị mẫu tương tự, và chúng ta có thể "quantize" các giá trị này thành một số mức số cố định .Như trong hình 4.2, nếu số lượng lượng tử hóa là 256, chúng ta có thể đại diện cho mỗi mẫu bằng 8 bit. Vì vậy, 1 giây của tín hiệu thoại có thể được đại diện bởi 8000 × 8 bit, 64kbits. Do đó, để truyền giọng nói bằng cách sử dụng PCM, chúng tôi yêu cầu tốc độ dữ liệu là 64 kbps. Tuy nhiên, lưu ý rằng kể từ khi chúng ta xấp xỉ các giá trị mẫu thông qua lượng tử hóa, sẽ có một sự biến dạng trong các tín hiệu được xây dựng lại, biến dạng này được gọi là tiếng ồn lượng tử hóa.
clip_image004
Hình 4.2: Điều chế mã xung
ITU-T tiêu chuẩn G.711 quy định các cơ chế mã hóa của tín hiệu thoại. Tín hiệu tiếng nói có giới hạn băng thông là 4kHz, lấy 8.000 mẫu / giây, và mỗi mẫu được thể hiện bằng 8 bit. Do đó, bằng cách sử dụng PCM, tín hiệu thoại có thể được mã hoá là 64kbps.
Trong tiêu chuẩn kỹ thuật mã hóa PCM của ITU trong khuyến nghị G.711, các đặc tính phi tuyến của thính giác con người được khai thác – tai là nhạy cảm hơn với tiếng ồn lượng tử hóa trong biên độ tín hiệu thấp hơn so với tiếng ồn trong tín hiệu biên độ lớn. Trong G.711, một (phi tuyến) chức năng lượng hóa logarit được áp dụng cho các tín hiệu thoại, và vì vậy các tín hiệu nhỏ được lượng hóa với độ chính xác cao hơn. Hai chức năng lượng hóa, được gọi là quy tắc A và quy tắc M, đã được quy định tại G.711. Quy tắc M được sử dụng tại Mỹ và Nhật Bản. Quy tắc A được sử dụng ở châu Âu và các quốc gia theo tiêu chuẩn Châu Âu. Chất lượng lời nói được làm bằng kỹ thuật mã hóa PCM được gọi là âm sắc lời nói và được lấy làm tài liệu tham khảo để so sánh chất lượng của các kỹ thuật mã hóa tiếng nói khác.
Đối với chất lượng âm thanh CD, tỷ lệ lấy mẫu là 44.1kHz (một mẫu mỗi 23 micro giây), và mỗi mẫu được mã hoá với 16 bit. Đối với hai kênh truyền âm thanh stereo, tốc độ bit được đòi hỏi là 2 × 44,1 × 1000 × 16 = 1.41Mbps.
Lưu ý chất lượng của lời nói được sử dụng kỹ thuật mã hóa PCM được gọi là chất lượng  thực . Để so sánh chất lượng của các kỹ thuật mã hóa khác nhau, chất lượng thực lời nói được lấy ra để xem xét .

Điều chế mã xung vi sai thích ứng

Một cách đơn giản mà có thể được sửa đổi chế độ PCM là chúng ta có thể mã  hóa sự khác biệt giữa hai mẫu kế tiếp hay hơn là mã hóa các mẫu một cách trực tiếp. Kỹ thuật này được gọi là điều chế xung mã vi sai.
Một đặc tính của các tín hiệu thoại có thể được sử dụng là một giá trị mẫu có thể được dự đoán từ các giá trị mẫu quá khứ. Ở phía truyền, chúng ta dự đoán giá trị của mẫu và tìm thấy sự khác biệt giữa giá trị dự báo và giá trị thực tế và sau đó gửi các giá trị khác biệt. Kỹ thuật này được gọi là điều chế thích nghi xung mã vi sai (ADPCM). Sử dụng ADPCM, tín hiệu thoại có thể được mã hoá tại 32kbps mà không cần bất kỳ sự xuống cấp về chất lượng so với PCM.
ITU-T khuyến nghị G.721 quy định các thuật toán mã hóa. Trong ADPCM, giá trị của mẫu lời thoại không được truyền, nhưng sự khác biệt giữa giá trị dự báo và các mẫu giá trị thực tế được thì được truyền. Nói chung, các coder ADPCM lấy dữ liệu mã hoá tiếng nói PCM và chuyển đổi nó thành dữ liệu ADPCM.
Các sơ đồ khối của một bộ mã hóa ADPCM được thể hiện trong Hình 4.3 (a). 8-bit luật mẫu PCM được đặt vào bộ mã và được chuyển đổi sang dạng tuyến tính. Mỗi giá trị mẫu được dự đoán bằng cách sử dụng một thuật toán dự đoán, và sau đó giá trị dự đoán của các mẫu tuyến tính được trừ vào giá trị thực tế để tạo ra các tín hiệu khác biệt. Lượng  tử hóa thích nghi được thực hiện trên giá trị khác biệt này để tạo ra một mẫu giá trị ADPCM 4-bit, là cái được truyền đi. Thay vì đại diện cho mỗi mẫu bằng 8 bit, trong ADPCM chỉ có 4 bit được sử dụng. Ở đầu tiếp nhận, các bộ giải mã, thể hiện trong hình 4.3 (b), có được phiên bản dequantized (chuyển từ tín hiệu số sang tín hiệu tương tự) của tín hiệu kỹ thuật số. Giá trị này được thêm vào các giá trị được tạo ra bởi các yếu tố dự báo thích ứng để tạo ra các lời nói được mã hoá PCM tuyến tính, được điều chỉnh để tái tạo lại bằng quy tắc M dựa trên phương pháp mã hoá tiếng nói PCM .
clip_image005
Hình 4.3: (a) Bộ mã ADPCM

clip_image007

Hình 4.3: (b) Bộ giải mã ADPCM
Có rất nhiều kỹ thuật mã hóa dạng sóng chẳng hạn như điều chế Delta (delta modulation -DM) và điều chế biến đổi độ dốc liên tục (continuously variable slope delta modulation – CVSD). Sử dụng cách này, tốc độ mã hóa có thể được giảm đến 16kbps, 9.8kbps, và có thể giảm nữa. Khi tốc độ mã giảm, chất lượng của lời thoại cũng là đi xuống. Có những kỹ thuật mã hóa bằng cách sử dụng giọng nói chất lượng tốt ,có thể được mã hóa với tốc độ thấp. Kỹ thuật mã hóa PCM được sử dụng rộng rãi trong các mạng điện thoại. ADPCM được sử dụng trong các mạng điện thoại cũng như trong nhiều hệ thống phát thanh như công nghệ truyền thông không dây, kỹ thuật số cải tiến (DECT).
Trong ADPCM, mỗi mẫu được biểu diễn bằng 4 bit, và do đó tốc độ dữ liệu cần thiết là 32kbps. ADPCM được sử dụng trong các mạng điện thoại cũng như hệ thống phát thanh như DECT.
Lưu ý Trong 50 năm qua, hàng trăm kỹ thuật mã hóa dạng sóng đã được phát triển với tốc độ dữ liệu có thể được giảm xuống thấp 9.8kbps để có được tiếng nói chất lượng tốt.

Vocoding

Một phương pháp mã hóa tín hiệu thoại hoàn toàn khác nhau đã được đề xuất bởi H. Dudley vào năm 1939. Ông đặt tên là coder vocoder , một thuật ngữ bắt nguồn từ voice coder. Trong một vocoder, mô hình điện cho biến đổi lời thoại thể hiện trong Hình 4.4 được sử dụng. Mô hình này được gọi là mô hình nguồn lọc bởi vì cơ chế biến đổi lời thoại được xem là hai thực thể riêng biệt-một bộ lọc phát âm và các nguồn kích thích. Nguồn kích thích bao gồm một máy phát xung và bộ tạo tiếng ồn. Các bộ lọc được kích thích bởi các máy phát xung để tạo âm hữu thanh (nguyên âm) và tiếng ồn của máy phát điện để sản xuất âm vô thanh (phụ âm). Bộ lọc lọc các hệ số biến thiên theo thời gian . Bởi vì các đặc tính của tín hiệu thoại khác nhau từ từ theo thời gian, khoảng  20mili giây, các hệ số bộ lọc có thể được giả định là không đổi.

clip_image008

Hình 4.4: Mô hình điều chế giọng nói
Trong kỹ thuật vocoding, tại máy phát, tín hiệu thoại  được chia thành nhiều phần theo thời gian mỗi phần 20 mili giây . Mỗi phần chứa 160 mẫu. Mỗi phần được phân tích để kiểm tra xem nó là một phần hữu thanh hoặc vô thanh bởi bằng cách sử dụng các thông số như năng lượng, biên độ, vv… Đối với phần hữu thanh, cao độ được xác định. Đối với mỗi phần, các hệ số bộ lọc cũng được xác định. Các thông số này –vô thanh /hữu thanh, hệ số bộ lọc, và cao độ cho phần hữu thanh, được truyền tới người nhận. Ở đầu tiếp nhận, tín hiệu thoại được tái tạo bằng cách sử dụng các mô hình điều chế giọng nói . Sử dụng phương pháp này, tốc độ dữ liệu có thể được giảm thấp khoảng 1.2Kbps. Tuy nhiên, so với kỹ thuật mã hóa, chất lượng giọng nói sẽ không được quá tốt . Một số kỹ thuật được sử dụng để tính các hệ số bộ lọc. Dự báo tuyến tính được dùng hổ biến nhất trong những kỹ thuật này.
Trong kỹ thuật vocoding, mô hình điện cho biến đổi lời thoại được sử dụng. Trong mô hình này, vùng phát âm được thể hiện như một bộ lọc. Các bộ lọc được kích thích bởi một máy phát xung để tạo ra âm hữu thanh và bởi một máy phát tiếng ồn để tạo ra âm vô thanh.
Chú ý: Giọng nói được tạo ra bằng cách sử dụng các kỹ thuật vocoding âm thanh rất cơ học hoặc giống robot . Một giọng nói như vậy được gọi là giọng nói. tổng hợp Nhiều giọng nói tổng hợp, được tích hợp vào robot, máy ảnh, và nhiều nữa,đều sử dụng các kỹ thuật vocoding.

Dự đoán tuyến tính

Các khái niệm cơ bản của dự đoán tuyến tính là các mẫu của một tín hiệu thoại có thể gần giống với một sự kết hợp tuyến tính của các mẫu quá khứ của tín hiệu đó.
Nếu Sn là mẫu bài phát biểu thứ n, sau đó
            clip_image010
ak (k = 1, …, P) là các hệ số dự đoán tuyến tính, G là độ lợi của bộ lọc phát âm , và Un là kích thích cho các bộ lọc. hệ số dự báo tuyến tính (thông thường 8-12) đại diện cho các hệ số của bộ lọc. Tính toán hệ số dự đoán tuyến tính liên quan đến việc giải quyết P phương trình tuyến tính. Một trong những phương pháp được sử dụng rộng rãi nhất để giải quyết những phương trình này là bằng thuật toán Levinson- Durbin.
Mã hóa của tín hiệu thoại bằng cách sử dụng phương pháp phân tích dự đoán tuyến tính bao gồm các bước sau:
Khi truyền kết thúc, phân chia các tín hiệu thoại vào khung, mỗi khung có thời gian 20mili giây. Đối với mỗi khung, tính toán hệ số dự đoán tuyến tính và cao độ và tìm hiểu xem khung là hữu thanh hoặc vô thanh. Chuyển đổi các giá trị này thành các từ mã và gửi đến đầu nhận.
Tại máy thu, sử dụng các tham số và mô hình điều chế giọng nói, xây dựng lại các tín hiệu thoại.
Trong kỹ thuật dự đoán tuyến tính, một mẫu giọng nói là xấp xỉ như là một sự kết hợp tuyến tính của các mẫu n trước đó. Các hệ số dự đoán tuyến tính được tính toán mỗi 20 mili giây và gửi đến người nhận, và dựng lại các giọng nói bằng cách sử dụng các hệ số. Sử dụng phương pháp này, tín hiệu thoại có thể được nén thấp tới 1.2Kbps.
Sử dụng vocoder dự đoán tuyến tính, tín hiệu thoại có thể được nén thấp đến 1.2Kbps. Chất lượng của bài phát biểu sẽ rất tốt cho tốc độ dữ liệu xuống 9.6kbps, nhưng tiếng nói của âm thanh tổng hợp cho tốc độ dữ liệu thấp hơn nữa. Sự thay đổi ít của kỹ thuật này được sử dụng rộng rãi trong nhiều hệ thống thiết thực như hệ thống thông tin di động, tổng hợp giọng nói, vv…
Lưu ý các biến thể của LPC kỹ thuật được sử dụng trong nhiều hệ thống thương mại, chẳng hạn như các hệ thống thông tin di động và điện thoại Internet.

0 nhận xét:

:) , :D , :)) , =)) , :( , :(( , x-( , :-/ , :|

Đăng nhận xét

Twitter Delicious Facebook Digg Stumbleupon Favorites More

 
Design by NewWpThemes | Blogger Theme by Lasantha - Premium Blogger Themes | New Blogger Themes