Сигналы и спектры. Динамо-машины.

Динамо-машины Сигналы и спектры

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 [ 287 ] 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358

13.8.1.1. Адаптивная дифференциальная импульсно-кодовая модуляция

Начнем наше обсуждение с обработки телефонной речи. Один из стандартов этой области - адаптивная дифференциальная импульсно-кодовая модуляция (adaptive differential pulse-code modulation - ADPCM) G.726 от МККТТ. Этот стандарт кодирует выборку за выборкой, предсказывая значение каждой выборки из восстановленной речи предшествующих выборок, с использованием адаптивного предсказателя с обратной связью. Он принимает качественную речь, преобразованную посредством 8-битового линейного преобразования с использованием А- или ц-закона со скоростью 64 Кбит/с, и вьщает сжатую речь со скоростью 16, 24, 32 и 40 Кбит/с. Кодер применяет декодер в контуре обратной связи для анализа и модификации параметров алгоритма с целью минимизации ошибки восстановления. Предсказатель использует фильтр шестого порядка для моделирования нулей и фильтр второго порядка - для моделирования полюсов источника входного сигнала. Блочная диаграмма кодера изображена на рис. 13.36.

Выход 32 Кбит/с

Дцаптивное устройство квантования

Обратное адаптивное устройство квантования

Адаптация

масштабного

множителя

устройства

квантования

Вычисление

восстановленного

сигнала

Адаптивный предсказатель

Адаптация

контроля

скорости

Детектор тонов и переходов

Рис. 13.36. Речевой кодек ADPCM (G. 726)

13.8.1.2. Адаптивная дифференциальная импульсно-кодовая модуляция с разделением на подполосы

Стандарт МККТТ G.722 является стандартом кодирования широкополосной речи. Широкополосное сжатие приводит к значительному улучшению качества телефонной речи, которое приближается к качеству речи при радиовещании и в музыкальных сигналах. Данный кодер использует дополнительные фильтры нижних и верхних частот для отделения входной полосы частот в 7 кГц, после чего речь дискретизуется с частотой 16 кГц в более высокую и более низкую подполосы, каждая из которых выбирается с частотой 8 кГц. Функции обоих фильтров и операция повторной дискретизации реализованы в цифровом фильтре, известном как квадратурный зеркальный фильтр (quadrature mirror filter). Независимые кодеры ADPCM обрабатывают временные ряды сокращенных полос частот от двух фильтров и вьщают скорости в 48 Кбит/с и 16 Кбит/с, соответственно, на выходе низкой и высокой полос. Эти кодеры представляют собой модифицированную версию речевых кодеров ADPCM МККТТ В.721, которые используют фильтры с обратным предсказанием, основанные на закодированном разностном сигнале. Отбрасывание младшего бита коэффициентов предсказывающего фильтра позволяет этоМу кодеру работать со скоростью 56 и 48 Кбит/с,

как и с номинальной скоростью 64 Кбит/с. При сниженной скорости передачи битов система связи может присваивать неиспользованные биты вспомогательному потоку данных, который передается со скоростью 8 и 16 Кбит/с, если канал подлеряивает фиксированную выходную скорость в 64 Кбит/с. Предсказатель использует структуру с 6 нулями и 2 полюсами. Блочная диаграмма широкополосного аудиокодера, работающего со скоростью 64 Кбит/с, изображена на рис. 13.37.

48 Кбит/с

Входной аудиосигнал

t: о. ф ф Т m

Кодер нижнего

поддиапазона

ADPCM

Кодер верхнего

поддиапазона

ADPCM



	i ф



	amp;

Вспомогательная информация О, 8, 16 Кбит/с

Введение данных

-64 Кбит/с

16 Кбит/с

Рис. 13.37. Широкополосный кодек QMF-ADPCM(64 Кбит/с) (G.722)

13.8.1.3. Схема CELP

Речевые кодеры, использующие линейные фильтры с предсказанием (linear predictive filter - LPF), могут давать высокое качество речи, закодированной со скоростью выше 16 Кбит/с, однако при снижении скорости качество быстро падает. Кодеры LPC могут бьпъ модифицированы с целью получения высококачественного сжатия речи со скоростями порядка от 4,8 до 9,6 Кбит/с посредством приведения задачи синтеза к двухэтапной процедуре, названной синтез через анализ (synthesis by analysis). На первом этапе образуется модель LPC 10-го порядка для сигнала, действительного на протяжении короткого интервала, скажем каждые 20 мс. На втором этапе находится сигнал, который, будучи примененным к модели LPC, образует выходной сигнал, по возможности близкий к исходному синтезируемому сигналу. Завершается эта задача с помощью последовательного применения подходящего сигнала активизации к модели и сравнения каждой синтезированной формы сигнала с исходным сигналом с последующим выбором того, который минимизирует ошибку между исходным сигналом и выходом управляемой модели.

Из теории процесса формирования речи известно, что активизация речи часто состоит из периодических импульсов (образованных посредством вибрации речевых связок). Период периодических импульсов Р связан с голосом говорящего. Одноотводный рекурсивный фильтр определяется двумя параметрами: Р - число интервалов запаздывания в контуре обратной связи vl g - коэффициент обратной связи. Импульсная характеристика этого фильтра представляет собой затухающую последовательность с Р равными нулю выходными выборками между последовательными ненулевыми выходными выборками. Выход этого фильтра генерирует периодический сигнал активизации, подаваемый на вход модели LPC (см. раздел 13.3.2). Алгоритм синтеза должен проверять возможные значения Р из перечня подходящих. Два параметра голоса оцениваются каждые 5 мс. Вход в речевой фильтр извлекается из таблицы подходящих последовательностей активизации. Выход фильтра, в свою очередь, управляет моделью LPC. Таблица, содержащая, как правило, 1 024 позиции, называется кодовой книгой. Кодовая книга посещается каждые 2,5 мс. Когда наилучшая комбинация позиций кодовой книги и период голоса определены с помощью полного

поиска, формируется группа, содержащая последовательность параметров голоса, последовательность адресов кодовой книги и информацию о коэффициентах LPC.

Кодер должен доставить параметры, описывающие модель LPC, на декодер. Спектральная характеристика фильтра LPC очень чувствительна к квантованию коэффициентов и как таковая должна бы представляться с помощью неприемлемо большого числа бит. Поэтому коэффициенты LPC преобразуются в иное множество параметров, названных линейными спектральными парами [10], которые являются нечувствительными к квантованию.

Системы, созданные согласно стандарту IS-95, используют следующий формат кадра LPC. Кадр, требуемый для описания 2 мс данных, содержит 192 бит, присвоенных представителю закодированных параметров.

10 коэффициентов LPC 40 бит

4 параметра запаздывания и опережения 40 бит

8 адресов кодовой книги 80 бит

Биты четности, проверочные биты и прочая служебная информация 32 бит

Общая скорость передачи битов для этой системы составляет 192 бит за 20 мс, или 9600 бит/с. Скорость передачи может быть снижена, если кодер детектирует речевые паузы.

13.8.1.4. Уровни I, II и III стандарта MPEG

Международная организация по стандартизации (International Organization for Standardization -ISO) и экспертная группа по вопросам движущегося изображения (Motion Picture Experts Group - MPEG) разработали стандарт аудиосжатия для сигнала, синхронизированного с сжатым видеосигналом, известный как MPEG. В этой схеме объединены свойства MUSICAM (Masking pattern adaptive Universal Subband Integrated Coding And Multiplexing - универсальные интегральные средства кодирования и уплотнения по поддиапазонам с маскировкой и адаптацией к кодограмме) и ASPEC (Adaptive Spectral Perceptual Entropy Coding - адаптивное спектрально-восприимчивое кодирование энтропии). В схеме использованы три уровня (коды) увеличивающейся сложности и улучшающейся субъективной производительности, входные частоты дискретизации равны 32, 44,1 и 48 кГц, а биты на выход подаются со скоростью от 32 до 192 Кбит/с (монофонический канал) или со скоростью от 64 до 384 Кбит/с (стереофонический канал). Стандарт поддерживает режим работы единственного канала, стереорежим, двойственный режим работы канала (для двуязычных аудиопрограмм) и дополнительный совместный стереорежим. В последнем режиме два кодера для левого и правого каналов могут поддерживать друг друга, используя общие статистики с целью снижения скорости передачи бит аудиосигнала, даже большего, чем это возможно при монофонической передаче [26].

Кодер действует в соответствии с моделью реального времени порога спектральной восприимчивости человека. Этот порог представляет собой зависящую от частоты границу или порог, который отмечает уровни звукового давления, ниже которых человеческое ухо не может воспринимать сигналы. Эта кривая, названная порогом остроты слуха, генерируется во время слухового теста. Порог остроты обычно присутствует на уровнях амплитуды как функция спектрального положения и во многом подобен кривой спектра мощности. Этот порог представляет собой изменяющуюся во времени функцию кратковременной спектральной плотности мощности и имеет локальные максимумы в соответствии с тонами высокого уровня и тонообразными сигналами (называемыми тонала-

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 [ 287 ] 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358