Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Прочее";
Текущий архив: 2017.01.15;
Скачать: [xml.tar.bz2];

Вниз

Ищу Text to Speech, бесплатно, использовать буду из ПО на Delphi   Найти похожие ветки 

 
ВладОшин ©   (2015-09-02 09:46) [0]

Кратко пробежался -

Яндекс - надо регистрироваться, 100 запросов в день. Качество хорошее.
https://developer.tech.yandex.ru

Гугл - не надо регистрироваться, запросов не ограничено, но иногда выпрыгивает капча. Качество хорошее.
использкется в https://translate.google.ru (не переводить ничего, просто если кликнуть Прослушать)

TTS API от MS (IDirectSS) - все гуд, но качество..
Описано везде, в т.ч. тут
------

что посоветуете посмотреть?

Задача, не отвлекая от др.дела, по событию, прогнать оператору звук. Если ему надо - отвлечется, если нет, то и нет.
Обычно требуется проговорить абзац текста (знаков ~500)


 
ВладОшин ©   (2015-09-02 14:17) [1]

выпрыгивает капча в translate.google.ru
если по http слать

так
https://translate.google.ru/translate_tts?ie=UTF-8&q=%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B0%D0%B5%D1%82,%20%D0%B8%D0%BB%D0%B8,%20%D0%BD%D0%B5%20%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B0%D0%B5%D1%82&tl=ru&total=1&idx=0&tk=107884&client=t&prev=input

не выпрыгивает

и через wininet прекрасно скачивается как файл сразу в mp3
(что на самом деле даже лучше)


 
ВладОшин ©   (2015-09-02 15:24) [2]

все равно капча появляется. Если есть что посоветовать - буду признателен.

Попробовал еще eSpeak двигатель - плохое качество. Гугл лучше.

В принципе, можно после капчи подождать немного и заново запросить. Через паузу выдает опять довольно долго, а если не частить то и капчи может не быть.
или воспользоваться TTS API от MS (IDirectSS) если нарвался на капчу,
а есть срочное сообщение и ждать нельзя.

Но: Если есть что посоветовать - буду признателен.


 
DayGaykin ©   (2015-09-02 16:00) [3]

Попробуй узнать куда стучится Play.Книги с андроида. Там есть такая функция - чтение. Может там будет без капчи.


 
Юрий Зотов ©   (2015-09-02 21:04) [4]

Писать многие уже разучились. Осталось разучиться читать.

Верной дорогой идет технический прогресс...


 
ВладОшин ©   (2015-09-02 22:45) [5]

да не, д. Юр, тут скорее "оптимизация"
если 500 человек потратит в день по 5 минут на чтение всплывающих сообщений(в течении дня), получится  40 с лишним часов, а это неделя. 4 дня и лишняя зп скапливается.
Хотят попробовать без отрыва оператора от заполнения форм(писанины, собственно), фоном.

Лично мое мнение - фигня будет.
Но его не спрашивают)
м/б и к лучшему))


 
Юрий Зотов ©   (2015-09-02 23:04) [6]

> ВладОшин ©   (02.09.15 22:45) [5]

Представляю, что он там  в этой форме заполнит...


 
DayGaykin ©   (2015-09-03 00:39) [7]


> если 500 человек потратит в день по 5 минут на чтение всплывающих
> сообщений(в течении дня), получится  40 с лишним часов,
> а это неделя. 4 дня и лишняя зп скапливается.
> Хотят попробовать без отрыва оператора от заполнения форм(писанины,
>  собственно), фоном.
>

Внимание все-равно будет теряться.
Для эффективной работы человек должен выполнять не более одного дела одновременно.


 
Германн ©   (2015-09-03 00:47) [8]

Надо искать по форумам raxp"а. Он занимался этим вопросом. И достиг каких-то результатов.


 
han_malign ©   (2015-09-03 10:30) [9]

угу - курс Илоны Давыдовой...
  в преддверии единого дня голосования...
Если вы параноик - то это не значит, что за вами не следят...(с) Народная мудрость.


 
Torry ©   (2015-09-03 13:50) [10]

Лично мое мнение - фигня будет.
Но его не спрашивают)
м/б и к лучшему))

Точно, фигня будет - находишься в процессе какого-нибудь заполнения, вроде как данные какие-то вносишь, тут тебе под рукой что-то пробурчало. Хорошо, даже отлично и разборчиво сказало. Все равно будет отвлекающий фактор и человек начнет искать и перечитывать сообщение с начала...


 
Сергей Суровцев ©   (2015-09-03 14:24) [11]

>ВладОшин ©   (02.09.15 22:45) [5]
>если 500 человек потратит в день по 5 минут на чтение всплывающих сообщений(в течении дня), получится  40 с лишним часов, а это неделя. 4 дня и лишняя зп скапливается.
>Хотят попробовать без отрыва оператора от заполнения форм(писанины, собственно), фоном.

Странная постановка вопроса. Эти всплывающие сообщения они читают по работе? В них содержится производственная информация? Они ДОЛЖНЫ это читать? Значит это тоже часть рабочего процесса и нечего тут оптимизировать.


 
Сергей Суровцев ©   (2015-09-03 14:45) [12]

Хотите не отвлекать операторов от набивания данных, ловите паузы в работе на клавиатуре более 30сек. к примеру. Они же не роботы, паузы периодически делают, тогда и сообщение выдавать. А звук это ненадежно. Отошел человек по нужде и пропустил сообщение. А оно же не висит на экране. И это уже никак не проконтролируешь.


 
ВладОшин ©   (2015-09-03 15:58) [13]


> пропустил сообщение. А оно же не висит на экране.

кстати, да..
Хороший аргумент отлынить )

Всем Спасибо.
Решение найдено - Или гугл + TTS, или может и не понадобится ничего )


 
Юрий Зотов ©   (2015-09-03 16:47) [14]

> ВладОшин ©   (02.09.15 22:45) [5]

> если 500 человек потратит в день по 5 минут на чтение всплывающих
> сообщений(в течении дня), получится  40 с лишним часов


А если эти 500 человек понавводят ошибочных данных (потому что их постоянно отвлекают), то для последующего обнаружения и разгребания этих ошибок потребуется не 40 часов, а гораздо больше. Плюс отвлечение программиста от его основной работы.

И это еще в лучшем случае. В худшем - ошибки могут быть фатальными.


 
Сергей Суровцев ©   (2015-09-03 22:42) [15]

Есть еще несколько проблем в таком подходе.
Когда человек сосредоточен на вводе данных, то несколько первых слов он в звуковом сообщении пропустит неизбежно, пока будет внимание переключаться.
Сообщения более нескольких слов не запомнятся. Распоряжения, даты, время будут либо лихорадочно записывать, либо друг у друга переспрашивать.
Получение сообщения будет зависеть от того, включены ли колонки, не убран ли звук на них, либо на самом компе и не тихий ли он. Многие, кстати, звук отрубают, фонят колонки при работе мобилок.
Если несколько человек в помещении, то выдача звука не будет у всех идеально синхронной. Будет эффект эхо с нескольких точек, тогда разобрать слова будет крайне трудно.
Кстати, постоянное ожидание звукового сообщения вызывает дополнительное нервное напряжение.


 
ВладОшин ©   (2015-09-24 10:50) [16]

От этого отказались

Задача видоизменилась
Купили время у этих товарищей https://voicefabric.ru/main
Все хорошо, даже не отличить от человека. Но..
Файлы отдаются с полусекундной паузой (задержкой, как бы.. "вздохом") в начале.
Как бы вырезать ее?

>> Формат выходного звукового файла беззаголовочный (raw), codec=pcm, bit=16, rate=8000
Практически, wav (туда и перегоняю)

Задача теперь состоит в том, что бы проиграть человеку по телефону фразу.
Пусть есть:
"Вы звонили нам по поводу X, сообщаем, что все готово"
Из фразы озвучивается "Вы звонили нам по поводу" один раз
и "сообщаем, что все готово" один раз
и для каждого клиента свой X (ну, дороговато всем одно и тоже конвертировать)
потом все склеивается и играется.

Итого.
Как вырезать первые полсекунды из файла raw(, codec=pcm, bit=16, rate=8000) или wav
?


 
ВладОшин ©   (2015-09-24 10:52) [17]

да-да, уже сижу в гугле )
но вдруг кто-то что-то покажет быстрее


 
кгшзх ©   (2015-09-24 11:00) [18]

Задача, не отвлекая от др.дела, по событию, прогнать оператору звук. Если ему надо - отвлечется, если нет, то и нет.
Обычно требуется проговорить абзац текста (знаков ~500)


ты думаешь как программист.
для решения здесь не нужен текст ту спич.
Ты судя по всему вообще не представляешь как юзер взаимодействует с программой, выдающей ему мессаджи. ни текстовые и звуковые.


 
кгшзх ©   (2015-09-24 11:15) [19]

> если 500 человек потратит в день по 5 минут на чтение всплывающих
> сообщений(в течении дня), получится  40 с лишним часов


кто тебе вообще сказал, что если сообщение текстовое, то значит его стопудово читают?

их уже на второй день принимают не как текст а как картинки с буквами и различают (узнают) по размерам мессадж-бокса, иконкам окна и т.д.

для юзера это графика и ее никто не читает.


 
megavoid ©   (2015-09-24 11:30) [20]


> Как вырезать первые полсекунды из файла raw(, codec=pcm,
>  bit=16, rate=8000) или wav

Из raw - отрезать первые 2*4000 байт
Из wav - пропустить riff, отрезать те же 8 кбайт, обновить поле в заголовке, уже не помню точно, какое


 
ВладОшин ©   (2015-09-24 11:38) [21]


> кгшзх ©   (24.09.15 11:00) [18]

знаю..
С самого начала был не в восторге от идеи.
ps1 уже от исходной задачи отказались.

ps2
директор наш - поклонник инноваций, и хочет внедрения  TTS хоть куда-нибуь. Даже вот денег заплатил уже на сторонний сервис(походу даже из личных средств). Теперь придется внедрять по-любому
, куда-нибудь )


 
Сергей Суровцев ©   (2015-09-24 12:01) [22]

Да уж... Обычные смс перестали быть кошерными?


 
Сергей Суровцев ©   (2015-09-24 12:05) [23]

Обычно для голосовых сообщений 2 правила.
1) обращения должны быть обезличенными, то есть без фио
2) обращение и сообщение - суть вещи разные, идету подряд одно за другим. Т.е. сначала играем обращение, затем сообщение. Из разных файлов.


 
ВладОшин ©   (2015-09-24 12:22) [24]

megavoid ©

> Из raw - отрезать первые 2*4000 байт

хм, действительно )
спасибо!

нашел тоже самое в общем, но ...
Был не совсем уверен в правильности своего перевода )


 
Сергей Суровцев ©   (2015-09-24 12:29) [25]

>ВладОшин ©   (24.09.15 10:50) [16]
>Купили время у этих товарищей https://voicefabric.ru/main
>Все хорошо, даже не отличить от человека. Но..
>Файлы отдаются с полусекундной паузой (задержкой, как бы.. "вздохом") в начале. Как бы вырезать ее?

Прикольная штука. Полсекундной паузы при тесте не заметил. Вздохов тоже. ))

>Задача теперь состоит в том, что бы проиграть человеку по телефону фразу.

Там другая проблема. Интонация. Не всегда на знаки препинания реагирует четко. Если клиенты не будут знать что это робот, будут думать о ваших сотрудниках не очень хорошо. ))


 
ВладОшин ©   (2015-09-24 12:29) [26]


> Сергей Суровцев ©

ну, у нас, например, служба такси обычно так делает - звонят. "Здравствуйте, вас ожидает такси марки Ч цвета ЧЧ номер ЧЧЧ "
Но голос противный, похоже TTS от MS юзают

и какая-то пиццерия тоже роботом перезванивает, не помню какая, там голос получше.
(по ссыле выше, все равно лучше :), а за рекламу пусть перечислят на счет сайта ))


 
ВладОшин ©   (2015-09-24 12:31) [27]


Сергей Суровцев ©
> Там другая проблема.

Наверное ,сначала предупредят, что робот звонит или нет )
это не нам(мне) решать


 
ВладОшин ©   (2015-09-24 12:32) [28]


> Полсекундной паузы при тесте не заметил

есть )
в редакторе видно, возможно не 0,5 сек, меньше, но она есть и после. Поэтому как-то нехорошо получается, если склеить. Суммируется.


 
Сергей Суровцев ©   (2015-09-24 12:34) [29]

>ВладОшин ©   (24.09.15 12:29) [26]
>ну, у нас, например, служба такси обычно так делает

Для массовых служб вариант прекрасный. Четкость хорошая и голоса приятные.


 
raxp2 ©   (2016-02-13 12:46) [30]

> Германн ©   (03.09.15 00:47) [8]
> Надо искать по форумам raxp"а. Он занимался этим вопросом...

Не нужно искать raxp-а по форумам. raxp отказался от модерирования на киберфоруме и ведет свой блог, твитт, хоум-пэйдж )


 
KilkennyCat ©   (2016-02-13 15:35) [31]

Прогресс идет верной дорогой. Но медленно, и поэтому, пока не научаться вживлять сразу в мозг, программеры вынуждены аудиовизуалить по полной...


 
KilkennyCat ©   (2016-02-13 15:45) [32]


> https://voicefabric.ru/main

очень дорого. просто жуть.
Любимая книжка
7000 руб.
1 сек = 18 коп.
Это примерно 11 часов чтения или одна книжка на 450 страниц.


за такую сумму многие согласятся сами начитать.
2 часа в день вполне ненапряжно. за рабочую неделю человек этот тариф отрабатывает. то есть, равносильно зарплате в 28 тыщ в месяц, что, конечно, несколько ниже средней зарплаты среднего гражданина или средней гражданки в России по мнению чиновников в Москве...

никому не нужно начитать? мужской голос, шепелявость и картавость присутсвует :)


 
Германн ©   (2016-02-14 01:51) [33]


> raxp2 ©   (13.02.16 12:46) [30]
>
> > Германн ©   (03.09.15 00:47) [8]
> > Надо искать по форумам raxp"а. Он занимался этим вопросом.
> ..
>
> Не нужно искать raxp-а по форумам. raxp отказался от модерирования
> на киберфоруме и ведет свой блог, твитт, хоум-пэйдж )
>

Не знал, извини.
Но к кому бедному крестьянину обратиться за помощью, если не к тебе? :)
А далее следует вопрос как?


 
Kerk ©   (2016-02-14 10:50) [34]


> KilkennyCat ©

А ты в Питере сейчас? Напомни телефон. Хочется проконсультироваться по одному электронному вопросу.


 
KilkennyCat ©   (2016-02-14 11:29) [35]


> Kerk ©   (14.02.16 10:50) [34]

нее... в питере меня уж сто лет нет. телефон на почту скинул



Страницы: 1 вся ветка

Форум: "Прочее";
Текущий архив: 2017.01.15;
Скачать: [xml.tar.bz2];

Наверх




Память: 0.55 MB
Время: 0.087 c
2-1421424584
Псб
2015-01-16 19:09
2017.01.15
AV после вызова GetTempFileNameW


2-1419002742
Вован Петрович
2014-12-19 18:25
2017.01.15
Локализация ПО


2-1426493835
ИП
2015-03-16 11:17
2017.01.15
Дельфи-программа как сервер для браузера


2-1421429703
Александр_2015
2015-01-16 20:35
2017.01.15
размер dbf-файла меньше на один байт


2-1424257125
SvetaZ
2015-02-18 13:58
2017.01.15
компонент TImage при больших размерах





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский