Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2013.03.22;
Скачать: CL | DM;

Вниз

VAD(Обнаружение Активности Голоса)   Найти похожие ветки 

 
han_malign   (2012-04-06 08:58) [0]

Вопрос на засыпку - будет ли VAD заточенный под 8 КГц(G.729B) без изменений работать для 16 КГц? Или там какие нибудь завязки на спектр вылезут???


 
sniknik ©   (2012-04-06 09:19) [1]

ответ на рассыпку - а проверить?


 
han_malign   (2012-04-06 09:40) [2]


> а проверить?

- угу, потратить день на выдирание из кодека, и пару месяцев на накопление статистики по коллизиям детектирования...
Это мне и без ваших советов сделать придется(за неимением более простых альтернатив, т.к. простейшее СКО - после АРУ - бесполезно).

Меня больше "теория" интересует.


 
Jeer ©   (2012-04-06 10:08) [3]


> будет ли VAD заточенный под 8 КГц(G.729B) без изменений
> работать для 16 КГц?


Не будет. "Полетят" коэффициенты, да и банки фильтров другой д.б.
Для распознавания голоса закладывается его модель:
первая форманта 150..200 Гц + гармоники, а, так называемый unvoice speach: 3..8 кHz

http://www.iwaenc.org/proceedings/2008/contents/papers/9019.pdf


 
Вариант   (2012-04-06 12:56) [4]


> han_malign   (06.04.12 08:58)


А теперь перевернем задачу. Как быстро из 16 кГц сделать 8 кГц?


 
Труп Васи Доброго ©   (2012-04-10 16:51) [5]


> А теперь перевернем задачу. Как быстро из 16 кГц сделать
> 8 кГц?
>
>

Опередил! И я хотел спросить - сделать 8 из 16 религия запрещает?


 
Pavia ©   (2012-04-10 19:52) [6]

Из 16кгц в 8Кгц легко, удаляем каждый второй.  Обратно вставляем среднее между двумя отсчётами.


 
Inovet ©   (2012-04-10 19:59) [7]

> [6] Pavia ©   (10.04.12 19:52)
> Из 16кгц в 8Кгц легко, удаляем каждый второй.  Обратно вставляем
> среднее между двумя отсчётами.

А время куда денется?


 
Jeer ©   (2012-04-10 20:31) [8]


> Pavia ©   (10.04.12 19:52) [6]
>
> Из 16кгц в 8Кгц легко, удаляем каждый второй.  Обратно вставляем
> среднее между двумя отсчётами.


Если совсем примитивно и топорно - сойдет. :)


 
Pavia ©   (2012-04-10 20:44) [9]


> Если совсем примитивно и топорно - сойдет. :)

А слобо доказать что топорно?


 
Jeer ©   (2012-04-10 21:08) [10]

Не "слобо".

Децимация:
Наличие в исходном сигнале частот, превышающих частоту Найквиста (теорема Котельникова) для пониженной частоты дискретизации неизбежно вызовет наложение ( aliasing ).

Чтобы этого избежать, необходимо пред-обрабатывать сигнал соответствующим ФНЧ.

Интерполяция:

Стандартный алгоритм интерполяции (передискретизации)  в целое число раз для сигналов online - вставка нулевых отсчетов, затем использование ФНЧ для удаления спектра, изначально не существовавшего в исходном сигнале.

Если есть возможность задержки сигнала, то можно использовать общеизвестные приемы интерполяции, в т.ч. линейной.


 
Jeer ©   (2012-04-10 21:13) [11]

Как поступают на практике, к примеру с использованием CIC-фильтров, можно посмотреть здесь:
http://www.dsplib.ru/content/cicid/cicid.html


 
Pavia ©   (2012-04-10 21:38) [12]

Извиняюсь, сразу не признал.


 
Jeer ©   (2012-04-10 21:38) [13]

Ну и еще, вдогонку..

Пример линейной интерполяции сигнала синус
http://s017.radikal.ru/i407/1204/f7/dca7837b063c.jpg

Пример интерполяции оконной функцией sin(x)/x сигнала синус
http://s017.radikal.ru/i420/1204/2d/be5b0e25671d.jpg


 
Inovet ©   (2012-04-10 22:55) [14]

> [10] Jeer ©   (10.04.12 21:08)
> Стандартный алгоритм интерполяции (передискретизации)  в
> целое число раз для сигналов online - вставка нулевых отсчетов,
> затем использование ФНЧ для удаления спектра, изначально
> не существовавшего в исходном сигнале.

Есть такие микросхемы, давно уже лет 20 наверное, где коеффициенты аппаратно заданы и аппаратные умножители на них умножают на глубину в несколько семплов в обе стороны. В CD плеерах применялись для удвоения-учетверения частоты, чтобы аналоговый фильтр с более пологой характеристикой на выходе ЦАП ставить и соответсвенно уменьшать искажения.

Так всё-таки, в сабже растянули спектр в 2 раза, и время в 2 раза изменилось. Или это не важно для сабжа, всмысле там не поток?


 
Inovet ©   (2012-04-10 22:56) [15]

> [14] Inovet ©   (10.04.12 22:55)
> частоты

дискретизации


 
Труп Васи Доброго ©   (2012-04-10 23:42) [16]


> Так всё-таки, в сабже растянули спектр в 2 раза, и время
> в 2 раза изменилось. Или это не важно для сабжа, всмысле
> там не поток?

??? Варум камрад? Время осталось неизменным и спектр никуда не растянулся. Просто исчезнут ненужные верхние частоты, которые для 8кГц девайса/софтины и так были лишними (он их и не видел).


 
Inovet ©   (2012-04-10 23:48) [17]

> [16] Труп Васи Доброго ©   (10.04.12 23:42)
> ??? Варум камрад? Время осталось неизменным и спектр никуда
> не растянулся.

А, так как раз частоту квантования снизили? Ну тгда ФНЧ сначала надо бы, как уже сказал Jeer.


 
Труп Васи Доброго ©   (2012-04-11 11:32) [18]


> Ну тгда ФНЧ сначала надо бы

На кой? Девайс физически не сможет "воспринять" высокие частоты, так зачем их предварительно убирать? Тем более в самом девайсе все фильтры должны присутствовать (если его не враги и не школота собирали).


 
Inovet ©   (2012-04-11 11:37) [19]

> [18] Труп Васи Доброго ©   (11.04.12 11:32)
> На кой? Девайс физически не сможет "воспринять" высокие
> частоты, так зачем их предварительно убирать?

Они станут уже не высокими.


 
Труп Васи Доброго ©   (2012-04-11 12:05) [20]


> Они станут уже не высокими.

Кто они? И как эти они станут низкими??? Дискретизация вносит высокочастотные  искажения, а низкие частоты живут вполне спокойно. В телефонных линиях полоса всего 3кГц, значит для нормальной передачи сигнала частоты дискретизации  6кГц уже хватит, а 8 кГц это с запасом. А тут даже передавать не надо, а только определить наличие. Наличие определяется в 90% случаев как раз по наличию низкой частоты основного тона (от 60-70 до 500-600 Гц), а все высокочастотные помехи не должны восприниматься вообще.


 
Inovet ©   (2012-04-11 12:27) [21]

> [20] Труп Васи Доброго ©   (11.04.12 12:05)

В условии не сказано, что спектр ограничен сверху частотой 4 кГц для 16 кГц квантования, а как раз наоборот.


 
Jeer ©   (2012-04-11 14:31) [22]


> а все высокочастотные помехи не должны восприниматься вообще.


Иди кури теорему Котельникова.


 
Труп Васи Доброго ©   (2012-04-11 15:13) [23]


> Иди кури теорему Котельникова.

Иногда лучше жевать, чем говорить/писать


 
Jeer ©   (2012-04-11 17:39) [24]


> Труп Васи Доброго ©   (11.04.12 15:13) [23]


Да я тебе не мешаю, иди и займи рот чем-нибудь.


 
Труп Васи Доброго ©   (2012-04-12 00:57) [25]


> Jeer ©  

Не говори что мне делать и я не скажу куда тебе идти.
З.Ы. Я ещё много афоризмов знаю. Все рассказать? Ты высказал безосновательное предложение, я продолжил тему. Ты скажи где в моих словах было нарушение теоремы Котельникова, а потом сам попробуй её понять.


 
han_malign   (2012-04-12 08:59) [26]


> Ты скажи где в моих словах было нарушение теоремы Котельникова,
>  а потом сам попробуй её понять.


1 2 3 4 5 6 7 8 9 A B
---------------------
   .     .     .

  * *   * *   * *   *


     
*     *     *     *
---------------------
1   3   5   7   9   B
---------------------
   .     .     .

  . *   * .   . *   *


     
*     .     *     .
---------------------

sapienti sat


 
Труп Васи Доброго ©   (2012-04-12 09:18) [27]


> han_malign

Ну, я об этом и говорил, что выбрасывание каждой второй точки внесёт искажение в высокочастотные составляющие сигнала, всё правильно.
Высокочастотные составляющие в данной задаче являются ненужным шумом, (девайс априори на высокие частоты не настроен) и искажение шума никак не помешает работе девайса. Низкая частота (основной тон голоса и первые форманты), по которым и срабатывает VAD никак не пострадают, ибо их частоты гораздо ниже 4 кГц (верхняя граница по теореме Котельникова при 8 кГц).
И что не так?


 
Inovet ©   (2012-04-12 09:48) [28]

> [27] Труп Васи Доброго ©   (12.04.12 09:18)
> что выбрасывание каждой второй точки внесёт искажение в
> высокочастотные составляющие сигнала

Так какие искажения? А не простые, а очень даже некошерные, которые без предварительного обрезания как раз помешают распознавателю. Поправтье, если не так: верхняя половина спектра зеркально отразится на нижнюю относительно 4 кГц.


 
Inovet ©   (2012-04-12 09:55) [29]

> [28] Inovet ©   (12.04.12 09:48)
> зеркально

нет, не зеркально всё-таки, но отразится.


 
Труп Васи Доброго ©   (2012-04-12 10:20) [30]

Вот ты упрямый!
Скажи какая разница - оцифровать сигнал с чстотой 8 кГц или 16 кГц, а потом выбросить все чётные остчёты? Никакой разницы нет, результат будет ОДИНАКОВЫЙ!!! Это и требовалось доказать. Девайс получит тот сигнал, на какой он и расчитан. Дальше его работа.
А все эти искажения спектра от оцифровки - шум! Понимаешь что это такое? Высокочастотный шум от голоса отделяется элементарно, даже слишком элементарно. И это опять же работа девайса.
Вопрос был про то как засунуть 16 кГц в девайс, рассчитанный на 8 кГц, ответ - сделать из 16 8 путём "прореживания".


 
Inovet ©   (2012-04-12 10:35) [31]

> [30] Труп Васи Доброго ©   (12.04.12 10:20)
> оцифровать сигнал с чстотой 8 кГц или 16 кГц

Хорошо. Какая полоса у оцифровываемого сигнала в том и в другом случае?


 
Труп Васи Доброго ©   (2012-04-12 10:55) [32]

Спектр исходного сигнала не зависит от способа его регистрации и оцифровки.
Нарисуй в тетради в клеточку две одинаковых синусоиды одна над другой.
Это исходный сигнал. Теперь отметь на верхней синусоиде точки пересечения с каждой вертикальной линией, а на нижней - через одну. Потом на верхней синусоиде сотри резинкой каждую чётную точку. У тебя получится тот же результат, что и внизу. Если ты всё сделал правильно, но получил разные результаты - немедленно садись за докторскую диссертацию.


 
Pavia ©   (2012-04-12 10:56) [33]

Сделал небольшой эксперимент. Считаю считаю, что вторая картинка наиболее корректная.

http://postimage.org/image/bmc2m2x0r/


 
Inovet ©   (2012-04-12 11:03) [34]

> [33] Pavia ©   (12.04.12 10:56)
> вторая картинка наиболее корректная.

А если бы взял не среднее между двумя соседними, а между несколькими соедними каждый со своим коэффициентом, то была бы ещё лучше. И то и другое - суть ФНЧ.


 
Inovet ©   (2012-04-12 11:07) [35]

> [32] Труп Васи Доброго ©   (12.04.12 10:55)

Период какой у этой синусоиды в тетрадке? Больше или меньше 4-х клеток? Меньше наверняка. нарисуй ещё одну у которой между 2-4.


 
Pavia ©   (2012-04-12 11:08) [36]


> Если ты всё сделал правильно, но получил разные результаты
> - немедленно садись за докторскую диссертацию.

Мне рисовать лень взял из книги А.Б. Сергиенко
http://postimage.org/image/51fdsz0z9/


 
Труп Васи Доброго ©   (2012-04-12 11:45) [37]


> Период какой у этой синусоиды в тетрадке? Больше или меньше
> 4-х клеток? Меньше наверняка. нарисуй ещё одну у которой
> между 2-4.

Да какая разница???? Исходные редкие и "прореженные" точки будут СОВПАДАТЬ ибо в один и тот же момент времени уровень сигнала будет ТОТ ЖЕ.
Ты нарисуй, сделай как я сказал и сравни - результат будет ОДИНАКОВЫЙ.


 
Inovet ©   (2012-04-12 11:57) [38]

> [37] Труп Васи Доброго ©   (12.04.12 11:45)
> сигнала будет ТОТ ЖЕ.

Мы о разном говорим? Как он может быть тот же.


 
Труп Васи Доброго ©   (2012-04-12 12:09) [39]


> Мы о разном говорим?

Вот и мне непонятно чего ты рогом упёрся. Я сказал что при оцифровке сигнала (любого) что при частоте дискретизации 8 кГц, что при 16 кГц (и последующем прореживании через один) получим один и тот же массив чисел. Потому что частоты дискретизации кратны друг другу. (не поленись, нарисуй и сам убедишься.)


 
Inovet ©   (2012-04-12 12:32) [40]

> [39] Труп Васи Доброго ©   (12.04.12 12:09)
> Я сказал что при оцифровке сигнала (любого) что при частоте
> дискретизации 8 кГц, что при 16 кГц (и последующем прореживании
> через один) получим один и тот же массив чисел.

Вот в этом ты ошибаешься. Не любого, нельзя оцифровывать сигнал со спектром шире 1/2 частоты модуляции. Оно, конечно, можно так сделать по какой-либо специфической надобности, но получатся искадения, тогда да - одинакого. Но у нас в сабже не тот случай.



Страницы: 1 2 вся ветка

Текущий архив: 2013.03.22;
Скачать: CL | DM;

Наверх




Память: 0.58 MB
Время: 0.05 c
15-1333688336
han_malign
2012-04-06 08:58
2013.03.22
VAD(Обнаружение Активности Голоса)


2-1334647596
ChainikDenis
2012-04-17 11:26
2013.03.22
TreeView и база данных


15-1337598756
p
2012-05-21 15:12
2013.03.22
Сертификат Verisign


3-1277875013
samalex
2010-06-30 09:16
2013.03.22
Компонент типа TListBox, но с привязкой к БД


15-1336720167
alexdn
2012-05-11 11:09
2013.03.22
Что первое?