VAD(Обнаружение Активности Голоса)

← →
han_malign (2012-04-06 08:58) [0]

Вопрос на засыпку - будет ли VAD заточенный под 8 КГц(G.729B) без изменений работать для 16 КГц? Или там какие нибудь завязки на спектр вылезут???

← →
sniknik © (2012-04-06 09:19) [1]

ответ на рассыпку - а проверить?

← →
han_malign (2012-04-06 09:40) [2]

> а проверить?

- угу, потратить день на выдирание из кодека, и пару месяцев на накопление статистики по коллизиям детектирования...
Это мне и без ваших советов сделать придется(за неимением более простых альтернатив, т.к. простейшее СКО - после АРУ - бесполезно).

Меня больше "теория" интересует.

← →
Jeer © (2012-04-06 10:08) [3]

> будет ли VAD заточенный под 8 КГц(G.729B) без изменений
> работать для 16 КГц?

Не будет. "Полетят" коэффициенты, да и банки фильтров другой д.б.
Для распознавания голоса закладывается его модель:
первая форманта 150..200 Гц + гармоники, а, так называемый unvoice speach: 3..8 кHz

http://www.iwaenc.org/proceedings/2008/contents/papers/9019.pdf

← →
Вариант (2012-04-06 12:56) [4]

> han_malign (06.04.12 08:58)

А теперь перевернем задачу. Как быстро из 16 кГц сделать 8 кГц?

← →
Труп Васи Доброго © (2012-04-10 16:51) [5]

> А теперь перевернем задачу. Как быстро из 16 кГц сделать
> 8 кГц?
>
>

Опередил! И я хотел спросить - сделать 8 из 16 религия запрещает?

← →
Pavia © (2012-04-10 19:52) [6]

Из 16кгц в 8Кгц легко, удаляем каждый второй. Обратно вставляем среднее между двумя отсчётами.

← →
Inovet © (2012-04-10 19:59) [7]

> [6] Pavia © (10.04.12 19:52)
> Из 16кгц в 8Кгц легко, удаляем каждый второй. Обратно вставляем
> среднее между двумя отсчётами.

А время куда денется?

← →
Jeer © (2012-04-10 20:31) [8]

> Pavia © (10.04.12 19:52) [6]
>
> Из 16кгц в 8Кгц легко, удаляем каждый второй. Обратно вставляем
> среднее между двумя отсчётами.

Если совсем примитивно и топорно - сойдет. :)

← →
Pavia © (2012-04-10 20:44) [9]

> Если совсем примитивно и топорно - сойдет. :)

А слобо доказать что топорно?

← →
Jeer © (2012-04-10 21:08) [10]

Не "слобо".

Децимация:
Наличие в исходном сигнале частот, превышающих частоту Найквиста (теорема Котельникова) для пониженной частоты дискретизации неизбежно вызовет наложение ( aliasing ).

Чтобы этого избежать, необходимо пред-обрабатывать сигнал соответствующим ФНЧ.

Интерполяция:

Стандартный алгоритм интерполяции (передискретизации) в целое число раз для сигналов online - вставка нулевых отсчетов, затем использование ФНЧ для удаления спектра, изначально не существовавшего в исходном сигнале.

Если есть возможность задержки сигнала, то можно использовать общеизвестные приемы интерполяции, в т.ч. линейной.

← →
Jeer © (2012-04-10 21:13) [11]

Как поступают на практике, к примеру с использованием CIC-фильтров, можно посмотреть здесь:
http://www.dsplib.ru/content/cicid/cicid.html

← →
Pavia © (2012-04-10 21:38) [12]

Извиняюсь, сразу не признал.

← →
Jeer © (2012-04-10 21:38) [13]

Ну и еще, вдогонку..

Пример линейной интерполяции сигнала синус
http://s017.radikal.ru/i407/1204/f7/dca7837b063c.jpg

Пример интерполяции оконной функцией sin(x)/x сигнала синус
http://s017.radikal.ru/i420/1204/2d/be5b0e25671d.jpg

← →
Inovet © (2012-04-10 22:55) [14]

> [10] Jeer © (10.04.12 21:08)
> Стандартный алгоритм интерполяции (передискретизации) в
> целое число раз для сигналов online - вставка нулевых отсчетов,
> затем использование ФНЧ для удаления спектра, изначально
> не существовавшего в исходном сигнале.

Есть такие микросхемы, давно уже лет 20 наверное, где коеффициенты аппаратно заданы и аппаратные умножители на них умножают на глубину в несколько семплов в обе стороны. В CD плеерах применялись для удвоения-учетверения частоты, чтобы аналоговый фильтр с более пологой характеристикой на выходе ЦАП ставить и соответсвенно уменьшать искажения.

Так всё-таки, в сабже растянули спектр в 2 раза, и время в 2 раза изменилось. Или это не важно для сабжа, всмысле там не поток?

← →
Inovet © (2012-04-10 22:56) [15]

> [14] Inovet © (10.04.12 22:55)
> частоты

дискретизации

← →
Труп Васи Доброго © (2012-04-10 23:42) [16]

> Так всё-таки, в сабже растянули спектр в 2 раза, и время
> в 2 раза изменилось. Или это не важно для сабжа, всмысле
> там не поток?

??? Варум камрад? Время осталось неизменным и спектр никуда не растянулся. Просто исчезнут ненужные верхние частоты, которые для 8кГц девайса/софтины и так были лишними (он их и не видел).

← →
Inovet © (2012-04-10 23:48) [17]

> [16] Труп Васи Доброго © (10.04.12 23:42)
> ??? Варум камрад? Время осталось неизменным и спектр никуда
> не растянулся.

А, так как раз частоту квантования снизили? Ну тгда ФНЧ сначала надо бы, как уже сказал Jeer.

← →
Труп Васи Доброго © (2012-04-11 11:32) [18]

> Ну тгда ФНЧ сначала надо бы

На кой? Девайс физически не сможет "воспринять" высокие частоты, так зачем их предварительно убирать? Тем более в самом девайсе все фильтры должны присутствовать (если его не враги и не школота собирали).

← →
Inovet © (2012-04-11 11:37) [19]

> [18] Труп Васи Доброго © (11.04.12 11:32)
> На кой? Девайс физически не сможет "воспринять" высокие
> частоты, так зачем их предварительно убирать?

Они станут уже не высокими.

← →
Труп Васи Доброго © (2012-04-11 12:05) [20]

> Они станут уже не высокими.

Кто они? И как эти они станут низкими??? Дискретизация вносит высокочастотные искажения, а низкие частоты живут вполне спокойно. В телефонных линиях полоса всего 3кГц, значит для нормальной передачи сигнала частоты дискретизации 6кГц уже хватит, а 8 кГц это с запасом. А тут даже передавать не надо, а только определить наличие. Наличие определяется в 90% случаев как раз по наличию низкой частоты основного тона (от 60-70 до 500-600 Гц), а все высокочастотные помехи не должны восприниматься вообще.

← →
Inovet © (2012-04-11 12:27) [21]

> [20] Труп Васи Доброго © (11.04.12 12:05)

В условии не сказано, что спектр ограничен сверху частотой 4 кГц для 16 кГц квантования, а как раз наоборот.

← →
Jeer © (2012-04-11 14:31) [22]

> а все высокочастотные помехи не должны восприниматься вообще.

Иди кури теорему Котельникова.

← →
Труп Васи Доброго © (2012-04-11 15:13) [23]

> Иди кури теорему Котельникова.

Иногда лучше жевать, чем говорить/писать

← →
Jeer © (2012-04-11 17:39) [24]

> Труп Васи Доброго © (11.04.12 15:13) [23]

Да я тебе не мешаю, иди и займи рот чем-нибудь.

← →
Труп Васи Доброго © (2012-04-12 00:57) [25]

> Jeer ©

Не говори что мне делать и я не скажу куда тебе идти.
З.Ы. Я ещё много афоризмов знаю. Все рассказать? Ты высказал безосновательное предложение, я продолжил тему. Ты скажи где в моих словах было нарушение теоремы Котельникова, а потом сам попробуй её понять.

← →
han_malign (2012-04-12 08:59) [26]

> Ты скажи где в моих словах было нарушение теоремы Котельникова,
> а потом сам попробуй её понять.

1 2 3 4 5 6 7 8 9 A B --------------------- . . . * * * * * * * * * * * --------------------- 1 3 5 7 9 B --------------------- . . . . * * . . * * * . * . ---------------------
sapienti sat

← →
Труп Васи Доброго © (2012-04-12 09:18) [27]

> han_malign

Ну, я об этом и говорил, что выбрасывание каждой второй точки внесёт искажение в высокочастотные составляющие сигнала, всё правильно.
Высокочастотные составляющие в данной задаче являются ненужным шумом, (девайс априори на высокие частоты не настроен) и искажение шума никак не помешает работе девайса. Низкая частота (основной тон голоса и первые форманты), по которым и срабатывает VAD никак не пострадают, ибо их частоты гораздо ниже 4 кГц (верхняя граница по теореме Котельникова при 8 кГц).
И что не так?

← →
Inovet © (2012-04-12 09:48) [28]

> [27] Труп Васи Доброго © (12.04.12 09:18)
> что выбрасывание каждой второй точки внесёт искажение в
> высокочастотные составляющие сигнала

Так какие искажения? А не простые, а очень даже некошерные, которые без предварительного обрезания как раз помешают распознавателю. Поправтье, если не так: верхняя половина спектра зеркально отразится на нижнюю относительно 4 кГц.

← →
Inovet © (2012-04-12 09:55) [29]

> [28] Inovet © (12.04.12 09:48)
> зеркально

нет, не зеркально всё-таки, но отразится.

← →
Труп Васи Доброго © (2012-04-12 10:20) [30]

Вот ты упрямый!
Скажи какая разница - оцифровать сигнал с чстотой 8 кГц или 16 кГц, а потом выбросить все чётные остчёты? Никакой разницы нет, результат будет ОДИНАКОВЫЙ!!! Это и требовалось доказать. Девайс получит тот сигнал, на какой он и расчитан. Дальше его работа.
А все эти искажения спектра от оцифровки - шум! Понимаешь что это такое? Высокочастотный шум от голоса отделяется элементарно, даже слишком элементарно. И это опять же работа девайса.
Вопрос был про то как засунуть 16 кГц в девайс, рассчитанный на 8 кГц, ответ - сделать из 16 8 путём "прореживания".

← →
Inovet © (2012-04-12 10:35) [31]

> [30] Труп Васи Доброго © (12.04.12 10:20)
> оцифровать сигнал с чстотой 8 кГц или 16 кГц

Хорошо. Какая полоса у оцифровываемого сигнала в том и в другом случае?

← →
Труп Васи Доброго © (2012-04-12 10:55) [32]

Спектр исходного сигнала не зависит от способа его регистрации и оцифровки.
Нарисуй в тетради в клеточку две одинаковых синусоиды одна над другой.
Это исходный сигнал. Теперь отметь на верхней синусоиде точки пересечения с каждой вертикальной линией, а на нижней - через одну. Потом на верхней синусоиде сотри резинкой каждую чётную точку. У тебя получится тот же результат, что и внизу. Если ты всё сделал правильно, но получил разные результаты - немедленно садись за докторскую диссертацию.

← →
Pavia © (2012-04-12 10:56) [33]

Сделал небольшой эксперимент. Считаю считаю, что вторая картинка наиболее корректная.

http://postimage.org/image/bmc2m2x0r/

← →
Inovet © (2012-04-12 11:03) [34]

> [33] Pavia © (12.04.12 10:56)
> вторая картинка наиболее корректная.

А если бы взял не среднее между двумя соседними, а между несколькими соедними каждый со своим коэффициентом, то была бы ещё лучше. И то и другое - суть ФНЧ.

← →
Inovet © (2012-04-12 11:07) [35]

> [32] Труп Васи Доброго © (12.04.12 10:55)

Период какой у этой синусоиды в тетрадке? Больше или меньше 4-х клеток? Меньше наверняка. нарисуй ещё одну у которой между 2-4.

← →
Pavia © (2012-04-12 11:08) [36]

> Если ты всё сделал правильно, но получил разные результаты
> - немедленно садись за докторскую диссертацию.

Мне рисовать лень взял из книги А.Б. Сергиенко
http://postimage.org/image/51fdsz0z9/

← →
Труп Васи Доброго © (2012-04-12 11:45) [37]

> Период какой у этой синусоиды в тетрадке? Больше или меньше
> 4-х клеток? Меньше наверняка. нарисуй ещё одну у которой
> между 2-4.

Да какая разница???? Исходные редкие и "прореженные" точки будут СОВПАДАТЬ ибо в один и тот же момент времени уровень сигнала будет ТОТ ЖЕ.
Ты нарисуй, сделай как я сказал и сравни - результат будет ОДИНАКОВЫЙ.

> Мы о разном говорим?

Вот и мне непонятно чего ты рогом упёрся. Я сказал что при оцифровке сигнала (любого) что при частоте дискретизации 8 кГц, что при 16 кГц (и последующем прореживании через один) получим один и тот же массив чисел. Потому что частоты дискретизации кратны друг другу. (не поленись, нарисуй и сам убедишься.)

> [39] Труп Васи Доброго © (12.04.12 12:09)
> Я сказал что при оцифровке сигнала (любого) что при частоте
> дискретизации 8 кГц, что при 16 кГц (и последующем прореживании
> через один) получим один и тот же массив чисел.

Вот в этом ты ошибаешься. Не любого, нельзя оцифровывать сигнал со спектром шире 1/2 частоты модуляции. Оно, конечно, можно так сделать по какой-либо специфической надобности, но получатся искадения, тогда да - одинакого. Но у нас в сабже не тот случай.

> Вот в этом ты ошибаешься. Не любого, нельзя оцифровывать
> сигнал со спектром шире 1/2 частоты модуляции. Оно, конечно,
> можно так сделать по какой-либо специфической надобности,
> но получатся искадения, тогда да - одинакого. Но у нас
> в сабже не тот случай.

Вот что значит "усраться, но не поддаться". В одной фразе ты говоришь, что я ошибаюсь, а потом подтверждаешь что я прав. Но всё-же намекаешь на какой-то иной случай.
Какой иной??? Давайс по умолчанию должен получать отсчёты с частотой 8 кГц. Имеются отсчёты исходного сигнала сделанные с частотой 16 кГц. Был вопрос - может ли девайс правильно работать с таким сигналом? Было предложено сделать из имеющегося, слишком частого, набора отсчётов такой, котрый был бы для девайса родным. Это делается простым удалением всех чётных отсчётов. Всё - задача решена. Девайс получил то, на что он расчитан.
И нет никакой разницы как получен конечный набор отсчётов, сделан изначально с заданной частотой или был получен путём прореживания удвоенной частоты. Набор данных будет одинаковым, независимо от того, какая частота была у исходного сигнала.
С чем ты тут не согласен я так и не понял. Ты хочешь доказать что наборы данных (1,3,5,7,9) и (1,2,3,4,5,6,7,8,9) - (2,4,6,8)=(1,3,5,7,9) не одинаковы?

> [41] Труп Васи Доброго © (12.04.12 13:18)

Я тебе объясняю всю ветку, что 16 сделано не с потолка, значит надо было, значит там есть частоты выше 4, до 8. А раз есть, то будет НЕ однинаково в сравнении с изначально сделанным в 8, в котором их нет. Чтобы получить одинаково надо делать прореживание, потом ФНЧ - вот после этого будет одинаково с точностью до погрешностей. Ты же утверждаешь, что ФНЧ ничего не изменит, а это неверно при исходных условиях, озвученных в первом предложении этого и поста и ранее.

Так как ты предложил оцифровывать никто не делает.

> 16 сделано не с потолка, значит надо было, значит там есть
> частоты выше 4, до 8.

Сдаюсь! Ты не видишь то, что написано и видишь то, чего нет.
Вот что было в начале.

> han_malign (06.04.12 08:58)
> Вопрос на засыпку - будет ли VAD заточенный под 8 КГц(G.
> 729B) без изменений работать для 16 КГц? Или там какие нибудь
> завязки на спектр вылезут???

Ты не видишь слова "заточенный под 8 КГц", не видишь "VAD", что предполагает обработку ГОЛОСА, а не писка дельфинов. Ты похоже явно не знаешь что в детектировании голоса не нужны частоты выше 4 кГц (и заточка девайса именно под 8 кГц это подтверждает), или знаешь, но хочешь доказать что-то своё. СДАЮСЬ!!!

> не нужны частоты выше 4 кГц

"Не нужны" и "их там нет" - вот и принципиальная разница.

> СДАЮСЬ!!!

Принято.

> Не нужны" и "их там нет" - вот и принципиальная разница.

Ещё один! Да где я сказал что высоких частот нет???? Я всегда говорил что они НЕ НУЖНЫ, поэтому заботиться о их сохранности глупо, ибо они в любом случае обрежутся девайсом.

← →
han_malign (2012-04-12 15:25) [46]

> (не поленись, нарисуй и сам убедишься.)

- я не поленился и нарисовал - han_malign [26], специально оставив метки времени, вместо номеров отсчета(то есть сохранив масштаб абсолютного времени)...

- и там четко видно, что на интервале времени [1..7] - после прореживания - вместо двух волн - одна, причем той же формы размывания и с той же амплитудой...
(для особо непонятливых - засечки сигнала на частоте дискретизации отмечены символом "*", точками(.) отмечен исходный сигнал(будем считать его синусоидой))
И заметь(те) - никаких "высокочастотных искажений" - один чистый гармонический сигнал - превратился в другой чистый гармонический сигнал...

> а не писка дельфинов

- и - как бы... - так получается, что писк дельфинов превратится во вполне себе сопрано...

> Ещё один!

Не один, а главный :)

> И заметь(те) - никаких "высокочастотных искажений" - один
> чистый гармонический сигнал - превратился в другой чистый
> гармонический сигнал...

Ну да, постоянный уровень 5 вольт тоже превратится в те же 5 В.

Но, вот незадача - в жизни нет места постоянству.
Даже ляжешь в гроб и все равно идут процессы :)

> я не поленился и нарисовал - han_malign [26]

Ну так разницы между массивами полученными при "редком" считывании и "частом", а потом прореженном нет? - Нет! Что и требовалось доказать!

1 2 3 4 5 6 7 8 9 A B
---------------------
. . .

* * * * * * *

* * * *
---------------------
1 3 5 7 9 B
---------------------
. . .

. * * . . * *

* . * .
---------------------
это после прореживания, а вот что было бы при изначально "редкой" оцифровке
1 3 5 7 9 B
---------------------
. . .

. * * . . * *

* . * .
---------------------
ОДИНАКОВО!!!

← →
han_malign (2012-04-12 16:07) [49]

> а вот что было бы при изначально "редкой" оцифровке

- перед "изначально редкой оцифровкой" - идут аналоговые фильтры, после чего - идут цифровые фильтры - исправляющие АЧХ аналогового тракта(и, в том числе, приводящие к требующейся частоте дискретизации)...

Все "девайсы" которые работают по другому - выкинуты на помойку в 60-х годах, а их разработчики работают разнорабочими...

Ты задал вопрос - тебе дали ответ, что девайс будет нормально работать если сигнал проредить. Для целей VAD этого более чем достаточно. Ты или уточняй что тебе надо или задавай вопрос по другому.

> идут аналоговые фильтры, после чего - идут цифровые фильтры
> - исправляющие АЧХ аналогового тракта

Вот что значит прогресс!!! У меня с такой задачей справлялся нормальный цифровой фильтр, написаный ещё на Delphi 5 на первом пне.

> У меня с такой задачей справлялся нормальный цифровой фильтр,
> написаный ещё на Delphi 5 на первом пне.

Хорошо, что тогда не было "Фобоса" :)

← →
han_malign (2012-04-12 16:57) [52]

уговорил...
выкидываю микрофон, выпаиваю AC-97 - на их место впаиваю пень и ставлю D5...
осталось найти правильный "нормальный цифровой фильтр"...

З.Ы. Запатентуй, а то Apple сопрет...

> [48] Труп Васи Доброго © (12.04.12 15:35)
> Ну так разницы между массивами полученными при "редком"
> считывании и "частом", а потом прореженном нет? - Нет! Что
> и требовалось доказать!

Уже все всё объяснили, а ты снова за своё. Сдаётся мне, что ты всё это понял, но продолжаешь упорствовать. Позволь отцитировать тебя:

> [41] Труп Васи Доброго © (12.04.12 13:18)
> Вот что значит "усраться, но не поддаться".

Или просто развлекаешься?

VAD(Обнаружение Активности Голоса) Найти похожие ветки