Tìm kiếm nhanh và chính xác hơn với google tùy chỉnh

Thứ Sáu, 10 tháng 2, 2012

Mã hóa văn bản, giọng nói, hình ảnh, và tín hiệu Video (phần 2)

Bài trước bạn đã được tìm hiểu về kỹ thuật mã hóa thông tin cho Văn bản và Âm thanh. Nếu chưa hiểu bạn nên xem lại trước khi tiếp tục phần hai, tìm hiểu kỹ thuật mã hóa dành cho hình ảnh và video.

Hình ảnh

Để chuyển một hình ảnh, hình ảnh được chia thành lưới gọi là điểm ảnh (hoặc các phần tử hình ảnh). Số lượng các mạng lưới càng cao thì các độ phân giải càng cao. kích cỡ mạng lưới như 768 × 1024 và 400×  600 thường được sử dụng trong đồ họa máy tính. Đối với hình ảnh đen trắng, mỗi điểm ảnh được cho một giá trị màu xám. Nếu có 256 cấp độ màu xám, mỗi điểm ảnh được biểu diễn bằng 8 bit. Vì vậy, để đại diện cho một hình ảnh với kích thước mạng lưới là 400 × 600 điểm ảnh với mỗi điểm ảnh của 8 bit, bắt buộc dung lượng lưu trữ là 240kbytes. Đại diện cho màu sắc, các thang màu của ba màu cơ bản đỏ, xanh dương và xanh lá cây, được kết hợp với nhau. Các sắc thái của màu sắc sẽ cao hơn nếu mức độ mỗi màu được sử dụng nhiều hơn.
Trong mã hóa hình ảnh, hình ảnh được chia thành lưới nhỏ gọi là điểm ảnh, và mỗi điểm ảnh được lượng tử hóa. Số điểm ảnh càng cao thì chất lượng của hình ảnh được tái tạo càng cao.
Ví dụ, nếu một hình ảnh được mã hóa với độ phân giải 352 × 240 pixels và mỗi điểm ảnh được biểu diễn bằng 24 bit, kích thước của hình ảnh là 352 × 240 × 24 / 8 = 247,5 KB.
Để lưu trữ những hình ảnh cũng như để gửi thông tin qua một phương tiện truyền thông, hình ảnh cần phải được nén. Một hình ảnh nén chiếm ít không gian lưu trữ nếu được lưu trữ trên đĩa mềm như là hoặc đĩa CD-ROM. Nếu hình ảnh được gửi qua một phương tiện truyền thông, hình ảnh được nén có thể được truyền đi nhanh chóng.
Một trong những hình ảnh được sử dụng rộng rãi nhất là định dạng mã hóa định dạng JPEG. Liên hiệp các nhóm chuyên gia về hình ảnh (Joint Photograph Experts Group -JPEG) đề xuất tiêu chuẩn này để mã hóa các hình ảnh. Sơ đồ khối nén hình ảnh JPEG được thể hiện trong hình 4.5.

clip_image012_thumb[1]

Hình 4.5: Nén JPEG
Để nén hình ảnh bằng cách sử dụng kỹ thuật nén JPEG, hình ảnh được chia thành các khối 8 ×8 điểm ảnh và mỗi khối được xử lý bằng cách sử dụng các bước sau:
1.      Áp dụng biến đổi cosin rời rạc (DCT), trong đó có các ma trận 8 × 8 và tạo ra một ma trận 8 × 8 có chứa các hệ số tần số. Điều này cũng tương tự như Fast Fourier Transform (FFT) được sử dụng trong kỹ thuật số xử lý tín hiệu. Kết quả ma trận thể hiện cho hình ảnh trong miền không gian tần số.
2.      Lượng tử hóa các hệ số tần số thu được ở Bước 1. Đây chỉ là làm tròn các giá trị đến mức lượng tử gần nhất. Kết quả là, chất lượng của hình ảnh sẽ hơi suy giảm.
3.      Chuyển đổi các mức lượng tử hóa thành bit. Vì sẽ có ít thay đổi trong các hệ số tần số liên tiếp, sự khác biệt trong các hệ số tần số được mã hoá thay vì trực tiếp mã hóa các hệ số.
JPEG nén của một hình ảnh được thực hiện theo ba bước sau: (a) phân chia các hình ảnh thành 8 × 8 ma trận và áp dụng biến đổi cosin rời rạc (DCT) trên mỗi ma trận, (b) lượng tử hóa của các hệ số tần số thu được ở bước (a), và (c) chuyển đổi của các mức lượng tử hóa thành bit. Tỷ lệ nén của 30:1 có thể đạt được bằng cách sử dụng kỹ thuật này.
Tỷ lệ nén của 30:1 có thể đạt được bằng cách sử dụng nén JPEG. Nói cách khác, một hình ảnh 300kB có thể được giảm xuống còn khoảng 10kB.
 Lưu ý JPEG nén hình ảnh được sử dụng rộng rãi trong việc phát triển trang web. So với các tập tin ánh xạ bit (trong đó có một phần mở rộng bmp.), Những hình ảnh JPEG (trong đó có một phần mở rộng. Jpg) chiếm không gian ít hơn và do đó có thể được tải về nhanh chóng khi chúng ta truy cập một trang web.

VIDEO

Một tín hiệu video chiếm băng thông 5MHz. Sử dụng định lý lấy mẫu Nyquist, chúng ta cần phải lấy mẫu tín hiệu video là 10 mẫu / mili giây. Nếu chúng ta sử dụng PCM 8-bit, tín hiệu video đòi hỏi băng thông 80Mbps. Đây là một tốc độ dữ liệu rất cao, tỷ lệ, và mã hóa kỹ thuật này không thích hợp cho truyền dẫn video kỹ thuật số. Một số kỹ thuật mã hóa video đã được đề xuất để giảm tốc độ dữ liệu.
Đối với mã hóa video, đoạn video được xem xét một loạt các khung hình. Ít nhất là 16 khung hình / giây được yêu cầu để có được những nhận thức về chuyển động video. Mỗi khung được nén bằng cách sử dụng các kỹ thuật nén hình ảnh và truyền đi. Sử dụng kỹ thuật này, video có thể được nén đến 64kbps, mặc dù chất lượng sẽ không được tốt.
Mã hóa video là một phần mở rộng của mã hóa hình ảnh. Như hình 4.6, một loạt các hình ảnh hoặc khung hình, điển hình là 16-30 khung hình, được truyền đi mỗi giây. Do sự kiên trì của mắt, những hình ảnh rời rạc xuất hiện như thể nó là một đoạn video chuyển động. Theo đó, tốc độ dữ liệu để truyền video sẽ bằng số khung nhân với tỷ lệ dữ liệu cho một khung hình. Tốc độ dữ liệu được giảm xuống còn khoảng 64kbps trong các hệ thống hội nghị video nơi độ phân giải của hình ảnh và số khung được giảm đáng kể. Các kết quả video là thường được chấp nhận cho tiến hành cuộc họp kinh doanh trên Internet, mạng nội bộ công ty, nhưng không cho  truyền, cuộc hội thoại , các chương trình khiêu vũ, bởi vì các video sẽ bị giật nhiều.
.clip_image014_thumb

Hình 4.6: Mã hóa Video thông qua các khung hình và các điểm ảnh.
Nhóm chuyên gia hình ảnh động (Moving Picture Experts Group-MPEG) phát hành một số tiêu chuẩn cho video mã hóa. Các tiêu chuẩn sau đây được sử dụng hiện nay:
MPEG-2: Tiêu chuẩn này là dành cho phát sóng video kỹ thuật số. Các tốc độ dữ liệu là 3 và 7.5Mbps. Chất lượng hình ảnh sẽ tốt hơn nhiều so với truyền hình analog. Tiêu chuẩn này được sử dụng trong phát thanh truyền hình qua vệ tinh phát sóng trực tiếp.
Một loạt các tiêu chuẩn nén video đã được phát triển. Đáng chú ý trong số đó là MPEG-2, được sử dụng để phát sóng video. MPEG-4 được sử dụng trong các ứng dụng hội nghị truyền hình và phát sóng truyền hình HDTV độ nét cao.
MPEG-4: Tiêu chuẩn này được sử dụng rộng rãi để mã hóa, sáng tạo, và phân phối các nội dung nghe nhìn cho nhiều ứng dụng vì nó hỗ trợ một loạt các tốc độ dữ liệu. Các tiêu chuẩn MPEG-4 dựa theo các khía cạnh sau :
Đại diện cho nội dung nghe nhìn, được gọi là các đối tượng truyền thông. Mô tả thành phần của các đối tượng này để tạo ra hợp chất các đối tượng truyền thông.

Ghép kênh và đồng bộ hóa dữ liệu

Các đối tượng nguyên thủy có thể vẫn còn có hình ảnh, âm thanh, văn bản, đồ họa, video, hoặc bài phát biểu tổng hợp. Mã hóa Video khoảng giữa 5kbps và 10Mbps, mã hóa lời thoại từ 1.2Kbps đến 24kbps, audio (âm nhạc) mã hóa ở 128kbps, v.v…  là có thể. MP3 (MPEG Layer-3) là tiêu chuẩn để phân phối âm nhạc với tốc độ dữ liệu 128kbps, mà là một phần của chuẩn MPEG-4.
Đối với hội nghị truyền hình, 384kbps và 2.048Mbps tốc độ dữ liệu là rất thường được sử dụng để có được chất lượng tốt hơn so với 64kbps.Thiết bị cho hội nghị Video có hỗ trợ các tốc độ dữ liệu này rất có giá trị trong thương mại.
MPEG-4 được sử dụng trong các hệ thống thông tin di động hỗ trợ hội nghị truyền hình trong khi di chuyển. Nó cũng được sử dụng trong hội nghị truyền hình qua Internet.
Mặc dù có nhiều phát triển trong truyền thông kỹ thuật số, phát thanh truyền hình video còn là tín hiệu tương tự ở hầu hết các nước. Nhiều tiêu chuẩn đã được phát triển cho các ứng dụng video kỹ thuật số. Khi cáp quang được sử dụng rộng rãi như là môi trường truyền dẫn, có lẽ sau đó kỹ thuật số video sẽ được phổ biến. Định dạng video kỹ thuật số quan trọng ở Châu Âu  được đưa ra ở đây:
Multimedia CIF format (định dạng đa phương tiện CIF): chiều rộng 360 pixels ; chiều cao 288 pixels ; số khung hình / giây là 6,25-25; tốc độ truyền bit  không nén là 7,8-31 Mbps; có nén là 1-3 Mbps.
Video conferencing (định dạng QCIF): Chiều rộng là 180 pixels , chiều cao 144pixels; khung hình / giây là 6,25-25, tốc độ bit không nén 1,9-7,8 Mbps; có  nén 0,064-1 Mbps.
TV kỹ thuật số, định dạng ITU-R BT.601: Chiều rộng 720pixels, chiều cao 526pixel ; khung hình / giây 25; tốc độ bit không nén 166 Mbps; có nén 5-10 Mbps.
HDTV, định dạng ITU-R BT.109: chiều rộng  1920pixels, chiều cao 1250pixels; khung hình / giây 25; tốc độ bit  không nén 960 Mbps; có nén 20-40 Mbps.
Lưu ý thương mại hóa phát sóng video kỹ thuật số đã không xảy ra rất nhanh. Dự kiến nhu cầu sử dụng  HDTV sẽ cất cánh trong thập kỷ đầu của thế kỷ XXI.

Mã hóa văn bản, giọng nói, hình ảnh, và tín hiệu Video (phần 1)

Các thông tin được trao đổi giữa hai thực thể (người hoặc máy móc) trong một hệ thống truyền thông có thể là một trong các định dạng sau: Văn bản, Giọng nói, Hình ảnh, Video
Trong hệ thống truyền thông, thông tin này đầu tiên được chuyển đổi thành tín hiệu . Ví dụ, một micro là bộ chuyển đổi có thể chuyển đổi giọng nói của con người thành tín hiệu analog. Tương tự, máy quay video chuyển đổi các cảnh trong thực tế cuộc sống thành tín hiệu analog. Trong một hệ thống truyền thông kỹ thuật số, bước đầu tiên là chuyển đổi tín hiệu analog sang định dạng kỹ thuật số bằng cách sử dụng kỹ thuật chuyển đổi analog-to-digital. Điều này biểu diễn tín hiệu số cho các loại hình thông tin. Tín hiệu số này biểu diễn cho các loại hình thông tin là chủ đề của chương này.

Tin nhắn văn bản

Tin nhắn văn bản được biểu diễn chung bởi bảng mã ASCII (American Standard Code for Information Interchange), trong đó 7 bit mã được sử dụng để biểu diễn một ký tự. Một dạng mã khác được gọi là EBCDIC (Extended Binary Coded Decimal Interchange Code) cũng được sử dụng để truyền các tin nhắn văn bản. Đầu tiên văn bản được chuyển sang các dạng mã này và sau đó dòng bit sẽ được chuyển thành tín hiệu điện.
Sử dụng bảng mã ASCII, số lượng ký tự có thể được biểu diễn giới hạn đến 128 bởi vì chỉ có 7-bit mã được sử dụng. Bảng mã ASCII cũng được dùng biểu diễn cho nhiều ngôn ngữ châu Âu. Để biểu diễn cho các ngôn ngữ Ấn Độ, một tiêu chuẩn được biết đến như Indian Standard Code for Information Interchange (ISCII)(bảng mã tiêu chuẩn để trao đổi thông tin ) đã được phát triển. ISCII có 7-bit và cả 8-bit.
ASCII là chương trình mã hóa được sử dụng rộng rãi nhất cho biểu diễn cho văn bản trong máy tính . ISCII được sử dụng để thể hiện cho văn bản của các ngôn ngữ Ấn Độ.
Chú ý, trong ASCII mở rộng, mỗi ký tự được biểu diễn bằng 8 bit. Sử dụng 8 bit, một ký tự đồ họa và các ký tự điều khiển mới có thể được thể hiện.
Unicode đã được phát triển để thể hiện cho tất cả các ngôn ngữ trên thế giới. Unicode sử dụng 16 bit để đại diện cho mỗi ký tự  và có thể được sử dụng để mã hóa các ký tự của bất kỳ ngôn ngữ nào được công nhận trên thế giới. ngôn ngữ lập trình hiện đại như Java và các ngôn ngữ có dấu như là XML hỗ trợ Unicode.
Unicode được sử dụng để biểu diễn cho bất kỳ ngôn ngữ trên thế giới trong máy tính. Unicode sử dụng 16 bit để biểu diễn cho mỗi ký tự. Java và XML hỗ trợ Unicode. Điều quan trọng cần lưu ý là cơ chế mã hóa ASCII / Unicode không phải là cách tốt nhất, theo Shannon. Nếu chúng ta xem xét các tần số xuất hiện của các ký tự của một ngôn ngữ và sử dụng từ mã nhỏ cho các ký tự thường xuyên xuất hiện, các mã hóa sẽ có hiệu quả hơn. Tuy nhiên, nhiều xử lý sẽ được đòi hỏi, và nhiều hơn nữa sẽ gây ra chậm trễ.
Các cơ chế mã hóa tốt nhất cho các tin nhắn văn bản được phát triển bởi Morse. Mã Morse được sử dụng rộng rãi cho giao tiếp trong thời gian trước. Nhiều tàu đã sử dụng mã Morse cho đến khi tháng 5 năm 2000. Trong mã Morse, ký tự được biểu diễn bằng dấu chấm và dấu gạch ngang. mã Morse không còn được sử dụng trong các hệ thống truyền thông tiêu chuẩn.
Lưu ý : Mã Morse sử dụng dấu chấm và dấu gạch ngang để đại diện cho nhiều ký tự tiếng Anh. Nó là một mã hiệu quả bởi vì mã ngắn được sử dụng để biểu diễn cho ký tự có tần số suất hiện cao và mã dài được sử dụng để biểu diễn cho ký tự có tần số xuất hiện thấp. Ký tự E chỉ được biểu diễn bởi duy nhất một dấu chấm ( . ) và ký tự Q biểu diễn bởi dấu gạch gạch chấm gạch (- – . -).

Âm thanh


Bổ xung bài viết tí, các bạn có thể down bài viết Mã hóa tiếng nói và ứng dụng trong thông tin liên lạc di động (nếu link đứt thì search google nhé) thì sẽ có phân loại, mạng di động nào dùng loại mã hóa nào, tốc độ là bao nhiêu ...
Để truyền tiếng nói từ một nơi khác, các bài phát biểu (tín hiệu âm thanh) là đầu tiên chuyển đổi thành tín hiệu điện bằng cách sử dụng một bộ chuyển đổi, các microphone. Tín hiệu điện này là một tín hiệu analog . Các tín hiệu thoại tương ứng với câu nói “how are you” được thể hiện trong hình 4.1. Các đặc tính quan trọng của tín hiệu thoại được đưa ra ở đây:
·         Các tín hiệu thoại có băng tần 4kHz tức là, các thành phần tần số cao nhất trong các tín hiệu giọng nói là 4kHz. Mặc dù thành phần tần số cao hơn có mặt, chúng không đáng kể, do đó một bộ lọc được sử dụng để loại bỏ tất cả các thành phần tần số cao trên 4kHz. Trong các mạng điện thoại, băng thông được giới hạn chỉ 3.4kHz….
·         Cường độ thay đổi tùy theo mỗi người . Cường độ là tần số cơ bản trong các tín hiệu giọng nói. Giọng nam, cường độ  là trong khoảng 50-250 Hz. Giọng nữ, cường độ là trong khoảng 200-400 Hz.
·         Âm thanh của tiếng nói có thể được phân loại chung như là vô thanh và hữu thanh . Tín hiệu tương ứng với hữu thanh (chẳng hạn như các nguyên âm a, e, i, o, u) sẽ được các tín hiệu định kỳ và sẽ có biên độ cao. Tín hiệu tương ứng với vô thanh (như th, s, z, vv) sẽ giống như tín hiệu nhiễu và sẽ có biên độ thấp.
·         Tín hiệu thoại được xem là một tín hiệu bất tĩnh, nghĩa là, các đặc điểm của tín hiệu (như cường độ và năng lượng) khác nhau. Tuy nhiên, nếu chúng ta lấy phần nhỏ của các tín hiệu thoại với thời gian 20 miligiây, tín hiệu có thể được coi là không thay đổi. Nói cách khác, trong thời gian nhỏ, các đặc điểm của tín hiệu không thay đổi nhiều. Do đó, giá trị cường độ có thể được tính bằng cách sử dụng tín hiệu thoại của 20 mili giây. Tuy nhiên, nếu chúng ta lấy 20 mili giây tiếp theo, cường độ có thể khác nhau.
clip_image002

Hình 4.1: Dạng sóng âm của giọng nói
Các tín hiệu thoại chiếm một băng thông là 4KHz. Các tín hiệu thoại có thể được chia thành một tần số cơ bản và giai điệu của nó. Các tần số cơ bản hoặc cao độ là thấp đối với giọng nam và cao đối với giọng nữ.
Những đặc điểm này được sử dụng trong khi chuyển đổi các tín hiệu thoại analog sang dạng kỹ thuật số. Sự chuyển đổi Analog-to-digital của tín hiệu thoại có thể được thực hiện bằng cách sử dụng một trong hai kỹ thuật: mã hóa dạng sóng và vocoding .
Lưu ý : Các đặc tính của tín hiệu thoại được mô tả ở đây được sử dụng rộng rãi cho các ứng dụng xử lý lời nói như chuyển đổi  text–to-speech và nhận dạng giọng nói.
Tín hiệu âm nhạc có băng tần là 20kHz. Các kỹ thuật được sử dụng để chuyển đổi tín hiệu âm nhạc vào dạng kỹ thuật số cũng tương tự như đối với tín hiệu thoại.

Mã hóa dạng sóng

Mã hóa dạng sóng được thực hiện theo cách tín hiệu điện tương tự có thể được sao chép vào cuối nhận được với sự thay đổi tối thiểu. Hàng trăm kỹ thuật mã hóa dạng sóng đã được đề xuất bởi nhiều nhà nghiên cứu. Chúng ta sẽ nghiên cứu hai kỹ thuật mã hóa dạng sóng quan trọng là: điều chế xung mã (PCM) và điều chế mã xung vi sai thích ứng (ADPCM).

Điều chế mã xung

Điều chế mã xung (PCM) là đầu tiên và được sử dụng rộng rãi nhất trong hầu hết các kỹ thuật mã hóa dạng sóng các. Tổ chức ITU-T (International Telecommunication Union – Telecommunication Standardization Sector) đưa ra khuyến nghị G.711 quy định các thuật toán để mã hóa tiếng nói ở định dạng PCM.
PCM – kỹ thuật mã hóa dựa trên định lý Nyquist, định lý nói rằng nếu một tín hiệu được lấy mẫu thống nhất ít nhất là gấp đôi tần số cao nhất, nó có thể được tái tạo mà không có bất kỳ sự biến dạng nào. Tần số cao nhất trong tín hiệu thoại là 4kHz, vì vậy chúng ta cần phải mẫu dạng sóng là 8.000 mẫu / giây, mỗi 1/8000th của một giây (125 micro giây). Chúng tôi đã tìm ra biên độ của sóng cho mỗi 125 micro giây và truyền giá trị đó thay vì truyền tải những tín hiệu tương tự như nó có. Các giá trị vẫn còn giá trị mẫu tương tự, và chúng ta có thể "quantize" các giá trị này thành một số mức số cố định .Như trong hình 4.2, nếu số lượng lượng tử hóa là 256, chúng ta có thể đại diện cho mỗi mẫu bằng 8 bit. Vì vậy, 1 giây của tín hiệu thoại có thể được đại diện bởi 8000 × 8 bit, 64kbits. Do đó, để truyền giọng nói bằng cách sử dụng PCM, chúng tôi yêu cầu tốc độ dữ liệu là 64 kbps. Tuy nhiên, lưu ý rằng kể từ khi chúng ta xấp xỉ các giá trị mẫu thông qua lượng tử hóa, sẽ có một sự biến dạng trong các tín hiệu được xây dựng lại, biến dạng này được gọi là tiếng ồn lượng tử hóa.
clip_image004
Hình 4.2: Điều chế mã xung
ITU-T tiêu chuẩn G.711 quy định các cơ chế mã hóa của tín hiệu thoại. Tín hiệu tiếng nói có giới hạn băng thông là 4kHz, lấy 8.000 mẫu / giây, và mỗi mẫu được thể hiện bằng 8 bit. Do đó, bằng cách sử dụng PCM, tín hiệu thoại có thể được mã hoá là 64kbps.
Trong tiêu chuẩn kỹ thuật mã hóa PCM của ITU trong khuyến nghị G.711, các đặc tính phi tuyến của thính giác con người được khai thác – tai là nhạy cảm hơn với tiếng ồn lượng tử hóa trong biên độ tín hiệu thấp hơn so với tiếng ồn trong tín hiệu biên độ lớn. Trong G.711, một (phi tuyến) chức năng lượng hóa logarit được áp dụng cho các tín hiệu thoại, và vì vậy các tín hiệu nhỏ được lượng hóa với độ chính xác cao hơn. Hai chức năng lượng hóa, được gọi là quy tắc A và quy tắc M, đã được quy định tại G.711. Quy tắc M được sử dụng tại Mỹ và Nhật Bản. Quy tắc A được sử dụng ở châu Âu và các quốc gia theo tiêu chuẩn Châu Âu. Chất lượng lời nói được làm bằng kỹ thuật mã hóa PCM được gọi là âm sắc lời nói và được lấy làm tài liệu tham khảo để so sánh chất lượng của các kỹ thuật mã hóa tiếng nói khác.
Đối với chất lượng âm thanh CD, tỷ lệ lấy mẫu là 44.1kHz (một mẫu mỗi 23 micro giây), và mỗi mẫu được mã hoá với 16 bit. Đối với hai kênh truyền âm thanh stereo, tốc độ bit được đòi hỏi là 2 × 44,1 × 1000 × 16 = 1.41Mbps.
Lưu ý chất lượng của lời nói được sử dụng kỹ thuật mã hóa PCM được gọi là chất lượng  thực . Để so sánh chất lượng của các kỹ thuật mã hóa khác nhau, chất lượng thực lời nói được lấy ra để xem xét .

Điều chế mã xung vi sai thích ứng

Một cách đơn giản mà có thể được sửa đổi chế độ PCM là chúng ta có thể mã  hóa sự khác biệt giữa hai mẫu kế tiếp hay hơn là mã hóa các mẫu một cách trực tiếp. Kỹ thuật này được gọi là điều chế xung mã vi sai.
Một đặc tính của các tín hiệu thoại có thể được sử dụng là một giá trị mẫu có thể được dự đoán từ các giá trị mẫu quá khứ. Ở phía truyền, chúng ta dự đoán giá trị của mẫu và tìm thấy sự khác biệt giữa giá trị dự báo và giá trị thực tế và sau đó gửi các giá trị khác biệt. Kỹ thuật này được gọi là điều chế thích nghi xung mã vi sai (ADPCM). Sử dụng ADPCM, tín hiệu thoại có thể được mã hoá tại 32kbps mà không cần bất kỳ sự xuống cấp về chất lượng so với PCM.
ITU-T khuyến nghị G.721 quy định các thuật toán mã hóa. Trong ADPCM, giá trị của mẫu lời thoại không được truyền, nhưng sự khác biệt giữa giá trị dự báo và các mẫu giá trị thực tế được thì được truyền. Nói chung, các coder ADPCM lấy dữ liệu mã hoá tiếng nói PCM và chuyển đổi nó thành dữ liệu ADPCM.
Các sơ đồ khối của một bộ mã hóa ADPCM được thể hiện trong Hình 4.3 (a). 8-bit luật mẫu PCM được đặt vào bộ mã và được chuyển đổi sang dạng tuyến tính. Mỗi giá trị mẫu được dự đoán bằng cách sử dụng một thuật toán dự đoán, và sau đó giá trị dự đoán của các mẫu tuyến tính được trừ vào giá trị thực tế để tạo ra các tín hiệu khác biệt. Lượng  tử hóa thích nghi được thực hiện trên giá trị khác biệt này để tạo ra một mẫu giá trị ADPCM 4-bit, là cái được truyền đi. Thay vì đại diện cho mỗi mẫu bằng 8 bit, trong ADPCM chỉ có 4 bit được sử dụng. Ở đầu tiếp nhận, các bộ giải mã, thể hiện trong hình 4.3 (b), có được phiên bản dequantized (chuyển từ tín hiệu số sang tín hiệu tương tự) của tín hiệu kỹ thuật số. Giá trị này được thêm vào các giá trị được tạo ra bởi các yếu tố dự báo thích ứng để tạo ra các lời nói được mã hoá PCM tuyến tính, được điều chỉnh để tái tạo lại bằng quy tắc M dựa trên phương pháp mã hoá tiếng nói PCM .
clip_image005
Hình 4.3: (a) Bộ mã ADPCM

clip_image007

Hình 4.3: (b) Bộ giải mã ADPCM
Có rất nhiều kỹ thuật mã hóa dạng sóng chẳng hạn như điều chế Delta (delta modulation -DM) và điều chế biến đổi độ dốc liên tục (continuously variable slope delta modulation – CVSD). Sử dụng cách này, tốc độ mã hóa có thể được giảm đến 16kbps, 9.8kbps, và có thể giảm nữa. Khi tốc độ mã giảm, chất lượng của lời thoại cũng là đi xuống. Có những kỹ thuật mã hóa bằng cách sử dụng giọng nói chất lượng tốt ,có thể được mã hóa với tốc độ thấp. Kỹ thuật mã hóa PCM được sử dụng rộng rãi trong các mạng điện thoại. ADPCM được sử dụng trong các mạng điện thoại cũng như trong nhiều hệ thống phát thanh như công nghệ truyền thông không dây, kỹ thuật số cải tiến (DECT).
Trong ADPCM, mỗi mẫu được biểu diễn bằng 4 bit, và do đó tốc độ dữ liệu cần thiết là 32kbps. ADPCM được sử dụng trong các mạng điện thoại cũng như hệ thống phát thanh như DECT.
Lưu ý Trong 50 năm qua, hàng trăm kỹ thuật mã hóa dạng sóng đã được phát triển với tốc độ dữ liệu có thể được giảm xuống thấp 9.8kbps để có được tiếng nói chất lượng tốt.

Vocoding

Một phương pháp mã hóa tín hiệu thoại hoàn toàn khác nhau đã được đề xuất bởi H. Dudley vào năm 1939. Ông đặt tên là coder vocoder , một thuật ngữ bắt nguồn từ voice coder. Trong một vocoder, mô hình điện cho biến đổi lời thoại thể hiện trong Hình 4.4 được sử dụng. Mô hình này được gọi là mô hình nguồn lọc bởi vì cơ chế biến đổi lời thoại được xem là hai thực thể riêng biệt-một bộ lọc phát âm và các nguồn kích thích. Nguồn kích thích bao gồm một máy phát xung và bộ tạo tiếng ồn. Các bộ lọc được kích thích bởi các máy phát xung để tạo âm hữu thanh (nguyên âm) và tiếng ồn của máy phát điện để sản xuất âm vô thanh (phụ âm). Bộ lọc lọc các hệ số biến thiên theo thời gian . Bởi vì các đặc tính của tín hiệu thoại khác nhau từ từ theo thời gian, khoảng  20mili giây, các hệ số bộ lọc có thể được giả định là không đổi.

clip_image008

Hình 4.4: Mô hình điều chế giọng nói
Trong kỹ thuật vocoding, tại máy phát, tín hiệu thoại  được chia thành nhiều phần theo thời gian mỗi phần 20 mili giây . Mỗi phần chứa 160 mẫu. Mỗi phần được phân tích để kiểm tra xem nó là một phần hữu thanh hoặc vô thanh bởi bằng cách sử dụng các thông số như năng lượng, biên độ, vv… Đối với phần hữu thanh, cao độ được xác định. Đối với mỗi phần, các hệ số bộ lọc cũng được xác định. Các thông số này –vô thanh /hữu thanh, hệ số bộ lọc, và cao độ cho phần hữu thanh, được truyền tới người nhận. Ở đầu tiếp nhận, tín hiệu thoại được tái tạo bằng cách sử dụng các mô hình điều chế giọng nói . Sử dụng phương pháp này, tốc độ dữ liệu có thể được giảm thấp khoảng 1.2Kbps. Tuy nhiên, so với kỹ thuật mã hóa, chất lượng giọng nói sẽ không được quá tốt . Một số kỹ thuật được sử dụng để tính các hệ số bộ lọc. Dự báo tuyến tính được dùng hổ biến nhất trong những kỹ thuật này.
Trong kỹ thuật vocoding, mô hình điện cho biến đổi lời thoại được sử dụng. Trong mô hình này, vùng phát âm được thể hiện như một bộ lọc. Các bộ lọc được kích thích bởi một máy phát xung để tạo ra âm hữu thanh và bởi một máy phát tiếng ồn để tạo ra âm vô thanh.
Chú ý: Giọng nói được tạo ra bằng cách sử dụng các kỹ thuật vocoding âm thanh rất cơ học hoặc giống robot . Một giọng nói như vậy được gọi là giọng nói. tổng hợp Nhiều giọng nói tổng hợp, được tích hợp vào robot, máy ảnh, và nhiều nữa,đều sử dụng các kỹ thuật vocoding.

Dự đoán tuyến tính

Các khái niệm cơ bản của dự đoán tuyến tính là các mẫu của một tín hiệu thoại có thể gần giống với một sự kết hợp tuyến tính của các mẫu quá khứ của tín hiệu đó.
Nếu Sn là mẫu bài phát biểu thứ n, sau đó
            clip_image010
ak (k = 1, …, P) là các hệ số dự đoán tuyến tính, G là độ lợi của bộ lọc phát âm , và Un là kích thích cho các bộ lọc. hệ số dự báo tuyến tính (thông thường 8-12) đại diện cho các hệ số của bộ lọc. Tính toán hệ số dự đoán tuyến tính liên quan đến việc giải quyết P phương trình tuyến tính. Một trong những phương pháp được sử dụng rộng rãi nhất để giải quyết những phương trình này là bằng thuật toán Levinson- Durbin.
Mã hóa của tín hiệu thoại bằng cách sử dụng phương pháp phân tích dự đoán tuyến tính bao gồm các bước sau:
Khi truyền kết thúc, phân chia các tín hiệu thoại vào khung, mỗi khung có thời gian 20mili giây. Đối với mỗi khung, tính toán hệ số dự đoán tuyến tính và cao độ và tìm hiểu xem khung là hữu thanh hoặc vô thanh. Chuyển đổi các giá trị này thành các từ mã và gửi đến đầu nhận.
Tại máy thu, sử dụng các tham số và mô hình điều chế giọng nói, xây dựng lại các tín hiệu thoại.
Trong kỹ thuật dự đoán tuyến tính, một mẫu giọng nói là xấp xỉ như là một sự kết hợp tuyến tính của các mẫu n trước đó. Các hệ số dự đoán tuyến tính được tính toán mỗi 20 mili giây và gửi đến người nhận, và dựng lại các giọng nói bằng cách sử dụng các hệ số. Sử dụng phương pháp này, tín hiệu thoại có thể được nén thấp tới 1.2Kbps.
Sử dụng vocoder dự đoán tuyến tính, tín hiệu thoại có thể được nén thấp đến 1.2Kbps. Chất lượng của bài phát biểu sẽ rất tốt cho tốc độ dữ liệu xuống 9.6kbps, nhưng tiếng nói của âm thanh tổng hợp cho tốc độ dữ liệu thấp hơn nữa. Sự thay đổi ít của kỹ thuật này được sử dụng rộng rãi trong nhiều hệ thống thiết thực như hệ thống thông tin di động, tổng hợp giọng nói, vv…
Lưu ý các biến thể của LPC kỹ thuật được sử dụng trong nhiều hệ thống thương mại, chẳng hạn như các hệ thống thông tin di động và điện thoại Internet.

Twitter Delicious Facebook Digg Stumbleupon Favorites More

 
Design by NewWpThemes | Blogger Theme by Lasantha - Premium Blogger Themes | New Blogger Themes