Форум: "Прочее";
Текущий архив: 2017.01.15;
Скачать: [xml.tar.bz2];
ВнизИщу Text to Speech, бесплатно, использовать буду из ПО на Delphi Найти похожие ветки
← →
ВладОшин © (2015-09-02 09:46) [0]Кратко пробежался -
Яндекс - надо регистрироваться, 100 запросов в день. Качество хорошее.
https://developer.tech.yandex.ru
Гугл - не надо регистрироваться, запросов не ограничено, но иногда выпрыгивает капча. Качество хорошее.
использкется в https://translate.google.ru (не переводить ничего, просто если кликнуть Прослушать)
TTS API от MS (IDirectSS) - все гуд, но качество..
Описано везде, в т.ч. тут
------
что посоветуете посмотреть?
Задача, не отвлекая от др.дела, по событию, прогнать оператору звук. Если ему надо - отвлечется, если нет, то и нет.
Обычно требуется проговорить абзац текста (знаков ~500)
← →
ВладОшин © (2015-09-02 14:17) [1]выпрыгивает капча в translate.google.ru
если по http слать
так
https://translate.google.ru/translate_tts?ie=UTF-8&q=%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B0%D0%B5%D1%82,%20%D0%B8%D0%BB%D0%B8,%20%D0%BD%D0%B5%20%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B0%D0%B5%D1%82&tl=ru&total=1&idx=0&tk=107884&client=t&prev=input
не выпрыгивает
и через wininet прекрасно скачивается как файл сразу в mp3
(что на самом деле даже лучше)
← →
ВладОшин © (2015-09-02 15:24) [2]все равно капча появляется. Если есть что посоветовать - буду признателен.
Попробовал еще eSpeak двигатель - плохое качество. Гугл лучше.
В принципе, можно после капчи подождать немного и заново запросить. Через паузу выдает опять довольно долго, а если не частить то и капчи может не быть.
или воспользоваться TTS API от MS (IDirectSS) если нарвался на капчу,
а есть срочное сообщение и ждать нельзя.
Но: Если есть что посоветовать - буду признателен.
← →
DayGaykin © (2015-09-02 16:00) [3]Попробуй узнать куда стучится Play.Книги с андроида. Там есть такая функция - чтение. Может там будет без капчи.
← →
Юрий Зотов © (2015-09-02 21:04) [4]Писать многие уже разучились. Осталось разучиться читать.
Верной дорогой идет технический прогресс...
← →
ВладОшин © (2015-09-02 22:45) [5]да не, д. Юр, тут скорее "оптимизация"
если 500 человек потратит в день по 5 минут на чтение всплывающих сообщений(в течении дня), получится 40 с лишним часов, а это неделя. 4 дня и лишняя зп скапливается.
Хотят попробовать без отрыва оператора от заполнения форм(писанины, собственно), фоном.
Лично мое мнение - фигня будет.
Но его не спрашивают)
м/б и к лучшему))
← →
Юрий Зотов © (2015-09-02 23:04) [6]> ВладОшин © (02.09.15 22:45) [5]
Представляю, что он там в этой форме заполнит...
← →
DayGaykin © (2015-09-03 00:39) [7]
> если 500 человек потратит в день по 5 минут на чтение всплывающих
> сообщений(в течении дня), получится 40 с лишним часов,
> а это неделя. 4 дня и лишняя зп скапливается.
> Хотят попробовать без отрыва оператора от заполнения форм(писанины,
> собственно), фоном.
>
Внимание все-равно будет теряться.
Для эффективной работы человек должен выполнять не более одного дела одновременно.
← →
Германн © (2015-09-03 00:47) [8]Надо искать по форумам raxp"а. Он занимался этим вопросом. И достиг каких-то результатов.
← →
han_malign © (2015-09-03 10:30) [9]угу - курс Илоны Давыдовой...
в преддверии единого дня голосования...
Если вы параноик - то это не значит, что за вами не следят...(с) Народная мудрость.
← →
Torry © (2015-09-03 13:50) [10]Лично мое мнение - фигня будет.
Но его не спрашивают)
м/б и к лучшему))
Точно, фигня будет - находишься в процессе какого-нибудь заполнения, вроде как данные какие-то вносишь, тут тебе под рукой что-то пробурчало. Хорошо, даже отлично и разборчиво сказало. Все равно будет отвлекающий фактор и человек начнет искать и перечитывать сообщение с начала...
← →
Сергей Суровцев © (2015-09-03 14:24) [11]>ВладОшин © (02.09.15 22:45) [5]
>если 500 человек потратит в день по 5 минут на чтение всплывающих сообщений(в течении дня), получится 40 с лишним часов, а это неделя. 4 дня и лишняя зп скапливается.
>Хотят попробовать без отрыва оператора от заполнения форм(писанины, собственно), фоном.
Странная постановка вопроса. Эти всплывающие сообщения они читают по работе? В них содержится производственная информация? Они ДОЛЖНЫ это читать? Значит это тоже часть рабочего процесса и нечего тут оптимизировать.
← →
Сергей Суровцев © (2015-09-03 14:45) [12]Хотите не отвлекать операторов от набивания данных, ловите паузы в работе на клавиатуре более 30сек. к примеру. Они же не роботы, паузы периодически делают, тогда и сообщение выдавать. А звук это ненадежно. Отошел человек по нужде и пропустил сообщение. А оно же не висит на экране. И это уже никак не проконтролируешь.
← →
ВладОшин © (2015-09-03 15:58) [13]
> пропустил сообщение. А оно же не висит на экране.
кстати, да..
Хороший аргумент отлынить )
Всем Спасибо.
Решение найдено - Или гугл + TTS, или может и не понадобится ничего )
← →
Юрий Зотов © (2015-09-03 16:47) [14]> ВладОшин © (02.09.15 22:45) [5]
> если 500 человек потратит в день по 5 минут на чтение всплывающих
> сообщений(в течении дня), получится 40 с лишним часов
А если эти 500 человек понавводят ошибочных данных (потому что их постоянно отвлекают), то для последующего обнаружения и разгребания этих ошибок потребуется не 40 часов, а гораздо больше. Плюс отвлечение программиста от его основной работы.
И это еще в лучшем случае. В худшем - ошибки могут быть фатальными.
← →
Сергей Суровцев © (2015-09-03 22:42) [15]Есть еще несколько проблем в таком подходе.
Когда человек сосредоточен на вводе данных, то несколько первых слов он в звуковом сообщении пропустит неизбежно, пока будет внимание переключаться.
Сообщения более нескольких слов не запомнятся. Распоряжения, даты, время будут либо лихорадочно записывать, либо друг у друга переспрашивать.
Получение сообщения будет зависеть от того, включены ли колонки, не убран ли звук на них, либо на самом компе и не тихий ли он. Многие, кстати, звук отрубают, фонят колонки при работе мобилок.
Если несколько человек в помещении, то выдача звука не будет у всех идеально синхронной. Будет эффект эхо с нескольких точек, тогда разобрать слова будет крайне трудно.
Кстати, постоянное ожидание звукового сообщения вызывает дополнительное нервное напряжение.
← →
ВладОшин © (2015-09-24 10:50) [16]От этого отказались
Задача видоизменилась
Купили время у этих товарищей https://voicefabric.ru/main
Все хорошо, даже не отличить от человека. Но..
Файлы отдаются с полусекундной паузой (задержкой, как бы.. "вздохом") в начале.
Как бы вырезать ее?
>> Формат выходного звукового файла беззаголовочный (raw), codec=pcm, bit=16, rate=8000
Практически, wav (туда и перегоняю)
Задача теперь состоит в том, что бы проиграть человеку по телефону фразу.
Пусть есть:
"Вы звонили нам по поводу X, сообщаем, что все готово"
Из фразы озвучивается "Вы звонили нам по поводу" один раз
и "сообщаем, что все готово" один раз
и для каждого клиента свой X (ну, дороговато всем одно и тоже конвертировать)
потом все склеивается и играется.
Итого.
Как вырезать первые полсекунды из файла raw(, codec=pcm, bit=16, rate=8000) или wav
?
← →
ВладОшин © (2015-09-24 10:52) [17]да-да, уже сижу в гугле )
но вдруг кто-то что-то покажет быстрее
← →
кгшзх © (2015-09-24 11:00) [18]Задача, не отвлекая от др.дела, по событию, прогнать оператору звук. Если ему надо - отвлечется, если нет, то и нет.
Обычно требуется проговорить абзац текста (знаков ~500)
ты думаешь как программист.
для решения здесь не нужен текст ту спич.
Ты судя по всему вообще не представляешь как юзер взаимодействует с программой, выдающей ему мессаджи. ни текстовые и звуковые.
← →
кгшзх © (2015-09-24 11:15) [19]> если 500 человек потратит в день по 5 минут на чтение всплывающих
> сообщений(в течении дня), получится 40 с лишним часов
кто тебе вообще сказал, что если сообщение текстовое, то значит его стопудово читают?
их уже на второй день принимают не как текст а как картинки с буквами и различают (узнают) по размерам мессадж-бокса, иконкам окна и т.д.
для юзера это графика и ее никто не читает.
← →
megavoid © (2015-09-24 11:30) [20]
> Как вырезать первые полсекунды из файла raw(, codec=pcm,
> bit=16, rate=8000) или wav
Из raw - отрезать первые 2*4000 байт
Из wav - пропустить riff, отрезать те же 8 кбайт, обновить поле в заголовке, уже не помню точно, какое
← →
ВладОшин © (2015-09-24 11:38) [21]
> кгшзх © (24.09.15 11:00) [18]
знаю..
С самого начала был не в восторге от идеи.
ps1 уже от исходной задачи отказались.
ps2
директор наш - поклонник инноваций, и хочет внедрения TTS хоть куда-нибуь. Даже вот денег заплатил уже на сторонний сервис(походу даже из личных средств). Теперь придется внедрять по-любому
, куда-нибудь )
← →
Сергей Суровцев © (2015-09-24 12:01) [22]Да уж... Обычные смс перестали быть кошерными?
← →
Сергей Суровцев © (2015-09-24 12:05) [23]Обычно для голосовых сообщений 2 правила.
1) обращения должны быть обезличенными, то есть без фио
2) обращение и сообщение - суть вещи разные, идету подряд одно за другим. Т.е. сначала играем обращение, затем сообщение. Из разных файлов.
← →
ВладОшин © (2015-09-24 12:22) [24]megavoid ©
> Из raw - отрезать первые 2*4000 байт
хм, действительно )
спасибо!
нашел тоже самое в общем, но ...
Был не совсем уверен в правильности своего перевода )
← →
Сергей Суровцев © (2015-09-24 12:29) [25]>ВладОшин © (24.09.15 10:50) [16]
>Купили время у этих товарищей https://voicefabric.ru/main
>Все хорошо, даже не отличить от человека. Но..
>Файлы отдаются с полусекундной паузой (задержкой, как бы.. "вздохом") в начале. Как бы вырезать ее?
Прикольная штука. Полсекундной паузы при тесте не заметил. Вздохов тоже. ))
>Задача теперь состоит в том, что бы проиграть человеку по телефону фразу.
Там другая проблема. Интонация. Не всегда на знаки препинания реагирует четко. Если клиенты не будут знать что это робот, будут думать о ваших сотрудниках не очень хорошо. ))
← →
ВладОшин © (2015-09-24 12:29) [26]
> Сергей Суровцев ©
ну, у нас, например, служба такси обычно так делает - звонят. "Здравствуйте, вас ожидает такси марки Ч цвета ЧЧ номер ЧЧЧ "
Но голос противный, похоже TTS от MS юзают
и какая-то пиццерия тоже роботом перезванивает, не помню какая, там голос получше.
(по ссыле выше, все равно лучше :), а за рекламу пусть перечислят на счет сайта ))
← →
ВладОшин © (2015-09-24 12:31) [27]
Сергей Суровцев ©
> Там другая проблема.
Наверное ,сначала предупредят, что робот звонит или нет )
это не нам(мне) решать
← →
ВладОшин © (2015-09-24 12:32) [28]
> Полсекундной паузы при тесте не заметил
есть )
в редакторе видно, возможно не 0,5 сек, меньше, но она есть и после. Поэтому как-то нехорошо получается, если склеить. Суммируется.
← →
Сергей Суровцев © (2015-09-24 12:34) [29]>ВладОшин © (24.09.15 12:29) [26]
>ну, у нас, например, служба такси обычно так делает
Для массовых служб вариант прекрасный. Четкость хорошая и голоса приятные.
← →
raxp2 © (2016-02-13 12:46) [30]> Германн © (03.09.15 00:47) [8]
> Надо искать по форумам raxp"а. Он занимался этим вопросом...
Не нужно искать raxp-а по форумам. raxp отказался от модерирования на киберфоруме и ведет свой блог, твитт, хоум-пэйдж )
← →
KilkennyCat © (2016-02-13 15:35) [31]Прогресс идет верной дорогой. Но медленно, и поэтому, пока не научаться вживлять сразу в мозг, программеры вынуждены аудиовизуалить по полной...
← →
KilkennyCat © (2016-02-13 15:45) [32]
> https://voicefabric.ru/main
очень дорого. просто жуть.Любимая книжка
7000 руб.
1 сек = 18 коп.
Это примерно 11 часов чтения или одна книжка на 450 страниц.
за такую сумму многие согласятся сами начитать.
2 часа в день вполне ненапряжно. за рабочую неделю человек этот тариф отрабатывает. то есть, равносильно зарплате в 28 тыщ в месяц, что, конечно, несколько ниже средней зарплаты среднего гражданина или средней гражданки в России по мнению чиновников в Москве...
никому не нужно начитать? мужской голос, шепелявость и картавость присутсвует :)
← →
Германн © (2016-02-14 01:51) [33]
> raxp2 © (13.02.16 12:46) [30]
>
> > Германн © (03.09.15 00:47) [8]
> > Надо искать по форумам raxp"а. Он занимался этим вопросом.
> ..
>
> Не нужно искать raxp-а по форумам. raxp отказался от модерирования
> на киберфоруме и ведет свой блог, твитт, хоум-пэйдж )
>
Не знал, извини.
Но к кому бедному крестьянину обратиться за помощью, если не к тебе? :)
А далее следует вопрос как?
← →
Kerk © (2016-02-14 10:50) [34]
> KilkennyCat ©
А ты в Питере сейчас? Напомни телефон. Хочется проконсультироваться по одному электронному вопросу.
← →
KilkennyCat © (2016-02-14 11:29) [35]
> Kerk © (14.02.16 10:50) [34]
нее... в питере меня уж сто лет нет. телефон на почту скинул
Страницы: 1 вся ветка
Форум: "Прочее";
Текущий архив: 2017.01.15;
Скачать: [xml.tar.bz2];
Память: 0.55 MB
Время: 0.066 c