Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2017.01.15;
Скачать: CL | DM;

Вниз

Ищу Text to Speech, бесплатно, использовать буду из ПО на Delphi   Найти похожие ветки 

 
ВладОшин ©   (2015-09-02 09:46) [0]

Кратко пробежался -

Яндекс - надо регистрироваться, 100 запросов в день. Качество хорошее.
https://developer.tech.yandex.ru

Гугл - не надо регистрироваться, запросов не ограничено, но иногда выпрыгивает капча. Качество хорошее.
использкется в https://translate.google.ru (не переводить ничего, просто если кликнуть Прослушать)

TTS API от MS (IDirectSS) - все гуд, но качество..
Описано везде, в т.ч. тут
------

что посоветуете посмотреть?

Задача, не отвлекая от др.дела, по событию, прогнать оператору звук. Если ему надо - отвлечется, если нет, то и нет.
Обычно требуется проговорить абзац текста (знаков ~500)


 
ВладОшин ©   (2015-09-02 14:17) [1]

выпрыгивает капча в translate.google.ru
если по http слать

так
https://translate.google.ru/translate_tts?ie=UTF-8&q=%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B0%D0%B5%D1%82,%20%D0%B8%D0%BB%D0%B8,%20%D0%BD%D0%B5%20%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B0%D0%B5%D1%82&tl=ru&total=1&idx=0&tk=107884&client=t&prev=input

не выпрыгивает

и через wininet прекрасно скачивается как файл сразу в mp3
(что на самом деле даже лучше)


 
ВладОшин ©   (2015-09-02 15:24) [2]

все равно капча появляется. Если есть что посоветовать - буду признателен.

Попробовал еще eSpeak двигатель - плохое качество. Гугл лучше.

В принципе, можно после капчи подождать немного и заново запросить. Через паузу выдает опять довольно долго, а если не частить то и капчи может не быть.
или воспользоваться TTS API от MS (IDirectSS) если нарвался на капчу,
а есть срочное сообщение и ждать нельзя.

Но: Если есть что посоветовать - буду признателен.


 
DayGaykin ©   (2015-09-02 16:00) [3]

Попробуй узнать куда стучится Play.Книги с андроида. Там есть такая функция - чтение. Может там будет без капчи.


 
Юрий Зотов ©   (2015-09-02 21:04) [4]

Писать многие уже разучились. Осталось разучиться читать.

Верной дорогой идет технический прогресс...


 
ВладОшин ©   (2015-09-02 22:45) [5]

да не, д. Юр, тут скорее "оптимизация"
если 500 человек потратит в день по 5 минут на чтение всплывающих сообщений(в течении дня), получится  40 с лишним часов, а это неделя. 4 дня и лишняя зп скапливается.
Хотят попробовать без отрыва оператора от заполнения форм(писанины, собственно), фоном.

Лично мое мнение - фигня будет.
Но его не спрашивают)
м/б и к лучшему))


 
Юрий Зотов ©   (2015-09-02 23:04) [6]

> ВладОшин ©   (02.09.15 22:45) [5]

Представляю, что он там  в этой форме заполнит...


 
DayGaykin ©   (2015-09-03 00:39) [7]


> если 500 человек потратит в день по 5 минут на чтение всплывающих
> сообщений(в течении дня), получится  40 с лишним часов,
> а это неделя. 4 дня и лишняя зп скапливается.
> Хотят попробовать без отрыва оператора от заполнения форм(писанины,
>  собственно), фоном.
>

Внимание все-равно будет теряться.
Для эффективной работы человек должен выполнять не более одного дела одновременно.


 
Германн ©   (2015-09-03 00:47) [8]

Надо искать по форумам raxp"а. Он занимался этим вопросом. И достиг каких-то результатов.


 
han_malign ©   (2015-09-03 10:30) [9]

угу - курс Илоны Давыдовой...
  в преддверии единого дня голосования...
Если вы параноик - то это не значит, что за вами не следят...(с) Народная мудрость.


 
Torry ©   (2015-09-03 13:50) [10]

Лично мое мнение - фигня будет.
Но его не спрашивают)
м/б и к лучшему))

Точно, фигня будет - находишься в процессе какого-нибудь заполнения, вроде как данные какие-то вносишь, тут тебе под рукой что-то пробурчало. Хорошо, даже отлично и разборчиво сказало. Все равно будет отвлекающий фактор и человек начнет искать и перечитывать сообщение с начала...


 
Сергей Суровцев ©   (2015-09-03 14:24) [11]

>ВладОшин ©   (02.09.15 22:45) [5]
>если 500 человек потратит в день по 5 минут на чтение всплывающих сообщений(в течении дня), получится  40 с лишним часов, а это неделя. 4 дня и лишняя зп скапливается.
>Хотят попробовать без отрыва оператора от заполнения форм(писанины, собственно), фоном.

Странная постановка вопроса. Эти всплывающие сообщения они читают по работе? В них содержится производственная информация? Они ДОЛЖНЫ это читать? Значит это тоже часть рабочего процесса и нечего тут оптимизировать.


 
Сергей Суровцев ©   (2015-09-03 14:45) [12]

Хотите не отвлекать операторов от набивания данных, ловите паузы в работе на клавиатуре более 30сек. к примеру. Они же не роботы, паузы периодически делают, тогда и сообщение выдавать. А звук это ненадежно. Отошел человек по нужде и пропустил сообщение. А оно же не висит на экране. И это уже никак не проконтролируешь.


 
ВладОшин ©   (2015-09-03 15:58) [13]


> пропустил сообщение. А оно же не висит на экране.

кстати, да..
Хороший аргумент отлынить )

Всем Спасибо.
Решение найдено - Или гугл + TTS, или может и не понадобится ничего )


 
Юрий Зотов ©   (2015-09-03 16:47) [14]

> ВладОшин ©   (02.09.15 22:45) [5]

> если 500 человек потратит в день по 5 минут на чтение всплывающих
> сообщений(в течении дня), получится  40 с лишним часов


А если эти 500 человек понавводят ошибочных данных (потому что их постоянно отвлекают), то для последующего обнаружения и разгребания этих ошибок потребуется не 40 часов, а гораздо больше. Плюс отвлечение программиста от его основной работы.

И это еще в лучшем случае. В худшем - ошибки могут быть фатальными.


 
Сергей Суровцев ©   (2015-09-03 22:42) [15]

Есть еще несколько проблем в таком подходе.
Когда человек сосредоточен на вводе данных, то несколько первых слов он в звуковом сообщении пропустит неизбежно, пока будет внимание переключаться.
Сообщения более нескольких слов не запомнятся. Распоряжения, даты, время будут либо лихорадочно записывать, либо друг у друга переспрашивать.
Получение сообщения будет зависеть от того, включены ли колонки, не убран ли звук на них, либо на самом компе и не тихий ли он. Многие, кстати, звук отрубают, фонят колонки при работе мобилок.
Если несколько человек в помещении, то выдача звука не будет у всех идеально синхронной. Будет эффект эхо с нескольких точек, тогда разобрать слова будет крайне трудно.
Кстати, постоянное ожидание звукового сообщения вызывает дополнительное нервное напряжение.


 
ВладОшин ©   (2015-09-24 10:50) [16]

От этого отказались

Задача видоизменилась
Купили время у этих товарищей https://voicefabric.ru/main
Все хорошо, даже не отличить от человека. Но..
Файлы отдаются с полусекундной паузой (задержкой, как бы.. "вздохом") в начале.
Как бы вырезать ее?

>> Формат выходного звукового файла беззаголовочный (raw), codec=pcm, bit=16, rate=8000
Практически, wav (туда и перегоняю)

Задача теперь состоит в том, что бы проиграть человеку по телефону фразу.
Пусть есть:
"Вы звонили нам по поводу X, сообщаем, что все готово"
Из фразы озвучивается "Вы звонили нам по поводу" один раз
и "сообщаем, что все готово" один раз
и для каждого клиента свой X (ну, дороговато всем одно и тоже конвертировать)
потом все склеивается и играется.

Итого.
Как вырезать первые полсекунды из файла raw(, codec=pcm, bit=16, rate=8000) или wav
?


 
ВладОшин ©   (2015-09-24 10:52) [17]

да-да, уже сижу в гугле )
но вдруг кто-то что-то покажет быстрее


 
кгшзх ©   (2015-09-24 11:00) [18]

Задача, не отвлекая от др.дела, по событию, прогнать оператору звук. Если ему надо - отвлечется, если нет, то и нет.
Обычно требуется проговорить абзац текста (знаков ~500)


ты думаешь как программист.
для решения здесь не нужен текст ту спич.
Ты судя по всему вообще не представляешь как юзер взаимодействует с программой, выдающей ему мессаджи. ни текстовые и звуковые.


 
кгшзх ©   (2015-09-24 11:15) [19]

> если 500 человек потратит в день по 5 минут на чтение всплывающих
> сообщений(в течении дня), получится  40 с лишним часов


кто тебе вообще сказал, что если сообщение текстовое, то значит его стопудово читают?

их уже на второй день принимают не как текст а как картинки с буквами и различают (узнают) по размерам мессадж-бокса, иконкам окна и т.д.

для юзера это графика и ее никто не читает.


 
megavoid ©   (2015-09-24 11:30) [20]


> Как вырезать первые полсекунды из файла raw(, codec=pcm,
>  bit=16, rate=8000) или wav

Из raw - отрезать первые 2*4000 байт
Из wav - пропустить riff, отрезать те же 8 кбайт, обновить поле в заголовке, уже не помню точно, какое


 
ВладОшин ©   (2015-09-24 11:38) [21]


> кгшзх ©   (24.09.15 11:00) [18]

знаю..
С самого начала был не в восторге от идеи.
ps1 уже от исходной задачи отказались.

ps2
директор наш - поклонник инноваций, и хочет внедрения  TTS хоть куда-нибуь. Даже вот денег заплатил уже на сторонний сервис(походу даже из личных средств). Теперь придется внедрять по-любому
, куда-нибудь )


 
Сергей Суровцев ©   (2015-09-24 12:01) [22]

Да уж... Обычные смс перестали быть кошерными?


 
Сергей Суровцев ©   (2015-09-24 12:05) [23]

Обычно для голосовых сообщений 2 правила.
1) обращения должны быть обезличенными, то есть без фио
2) обращение и сообщение - суть вещи разные, идету подряд одно за другим. Т.е. сначала играем обращение, затем сообщение. Из разных файлов.


 
ВладОшин ©   (2015-09-24 12:22) [24]

megavoid ©

> Из raw - отрезать первые 2*4000 байт

хм, действительно )
спасибо!

нашел тоже самое в общем, но ...
Был не совсем уверен в правильности своего перевода )


 
Сергей Суровцев ©   (2015-09-24 12:29) [25]

>ВладОшин ©   (24.09.15 10:50) [16]
>Купили время у этих товарищей https://voicefabric.ru/main
>Все хорошо, даже не отличить от человека. Но..
>Файлы отдаются с полусекундной паузой (задержкой, как бы.. "вздохом") в начале. Как бы вырезать ее?

Прикольная штука. Полсекундной паузы при тесте не заметил. Вздохов тоже. ))

>Задача теперь состоит в том, что бы проиграть человеку по телефону фразу.

Там другая проблема. Интонация. Не всегда на знаки препинания реагирует четко. Если клиенты не будут знать что это робот, будут думать о ваших сотрудниках не очень хорошо. ))


 
ВладОшин ©   (2015-09-24 12:29) [26]


> Сергей Суровцев ©

ну, у нас, например, служба такси обычно так делает - звонят. "Здравствуйте, вас ожидает такси марки Ч цвета ЧЧ номер ЧЧЧ "
Но голос противный, похоже TTS от MS юзают

и какая-то пиццерия тоже роботом перезванивает, не помню какая, там голос получше.
(по ссыле выше, все равно лучше :), а за рекламу пусть перечислят на счет сайта ))


 
ВладОшин ©   (2015-09-24 12:31) [27]


Сергей Суровцев ©
> Там другая проблема.

Наверное ,сначала предупредят, что робот звонит или нет )
это не нам(мне) решать


 
ВладОшин ©   (2015-09-24 12:32) [28]


> Полсекундной паузы при тесте не заметил

есть )
в редакторе видно, возможно не 0,5 сек, меньше, но она есть и после. Поэтому как-то нехорошо получается, если склеить. Суммируется.


 
Сергей Суровцев ©   (2015-09-24 12:34) [29]

>ВладОшин ©   (24.09.15 12:29) [26]
>ну, у нас, например, служба такси обычно так делает

Для массовых служб вариант прекрасный. Четкость хорошая и голоса приятные.


 
raxp2 ©   (2016-02-13 12:46) [30]

> Германн ©   (03.09.15 00:47) [8]
> Надо искать по форумам raxp"а. Он занимался этим вопросом...

Не нужно искать raxp-а по форумам. raxp отказался от модерирования на киберфоруме и ведет свой блог, твитт, хоум-пэйдж )


 
KilkennyCat ©   (2016-02-13 15:35) [31]

Прогресс идет верной дорогой. Но медленно, и поэтому, пока не научаться вживлять сразу в мозг, программеры вынуждены аудиовизуалить по полной...


 
KilkennyCat ©   (2016-02-13 15:45) [32]


> https://voicefabric.ru/main

очень дорого. просто жуть.
Любимая книжка
7000 руб.
1 сек = 18 коп.
Это примерно 11 часов чтения или одна книжка на 450 страниц.


за такую сумму многие согласятся сами начитать.
2 часа в день вполне ненапряжно. за рабочую неделю человек этот тариф отрабатывает. то есть, равносильно зарплате в 28 тыщ в месяц, что, конечно, несколько ниже средней зарплаты среднего гражданина или средней гражданки в России по мнению чиновников в Москве...

никому не нужно начитать? мужской голос, шепелявость и картавость присутсвует :)


 
Германн ©   (2016-02-14 01:51) [33]


> raxp2 ©   (13.02.16 12:46) [30]
>
> > Германн ©   (03.09.15 00:47) [8]
> > Надо искать по форумам raxp"а. Он занимался этим вопросом.
> ..
>
> Не нужно искать raxp-а по форумам. raxp отказался от модерирования
> на киберфоруме и ведет свой блог, твитт, хоум-пэйдж )
>

Не знал, извини.
Но к кому бедному крестьянину обратиться за помощью, если не к тебе? :)
А далее следует вопрос как?


 
Kerk ©   (2016-02-14 10:50) [34]


> KilkennyCat ©

А ты в Питере сейчас? Напомни телефон. Хочется проконсультироваться по одному электронному вопросу.


 
KilkennyCat ©   (2016-02-14 11:29) [35]


> Kerk ©   (14.02.16 10:50) [34]

нее... в питере меня уж сто лет нет. телефон на почту скинул



Страницы: 1 вся ветка

Текущий архив: 2017.01.15;
Скачать: CL | DM;

Наверх




Память: 0.57 MB
Время: 0.022 c
15-1448832602
Юрий
2015-11-30 00:30
2017.01.15
С днем рождения ! 30 ноября 2015 понедельник


15-1457040604
Юрий
2016-03-04 00:30
2017.01.15
С днем рождения ! 4 марта 2016 пятница


2-1419963322
AlexeyTG
2014-12-30 21:15
2017.01.15
Чтение из HKEY_LOCAL_MACHINE правильно ли реализовано


2-1430918293
Zheksonz
2015-05-06 16:18
2017.01.15
Определить тип активного компонента


2-1427465762
Token
2015-03-27 17:16
2017.01.15
Как задать имя файла компиляции