| |||||||
Du magst keine Werbung? Wir auch nicht!
Einfach registrieren und die Werbung ist weg. Diese Nachricht sehen nur nicht registrierte Nutzer.
![]() |
| | LinkBack | Themen-Optionen | Ansicht |
| | #1 (permalink) |
| Noob Registriert seit: May 2005
Beiträge: 20
| samplebasierte sprachsynthese?
ich hab mir gedacht das müsste doch eigentlich mit flash gehen... mal bisschen rumgefummelt aber ich häng irgendwie ![]() hier ne billige demo: http://ize.badne.ws/SoundQue.swf wenn man sich anstrengt kann man "hey, no, yes" raushören *G* naja...meine samples sind warscheinlich auch eher suboptimal gecutted aber egal hier ist meine fla mit den source wave dateien und gecutted in einzelne laute: http://ize.badne.ws/SoundQue.rar würd mich freuen wenn jemand interesse daran zeigt da ich denke dass das ne ganz lustige sache werden könnte mit ein bisschen arbeit |
| | |
| | #2 (permalink) |
| Neuer User Registriert seit: Feb 2006 Ort: undefined
Beiträge: 70
|
Der hat doch mal ne Hackstock-Sprache Ich denke, ein guter Cut der Samples vorausgesetzt, wäre da was zu reißen. Hab mir jetzt dein File nicht angeschaut. Generell sollte,um solche Sample-Synchronisierungsfehler zu vermeiden, ein Sync Workaround eingestzt werden. Solcher findet sich eigentlich in sämtlichen Flash-Sequenzern. Da geht es um den internen SampleBuffer, der aus seiner Natur heraus eine Verzögerung von bis zu 46 ms des onSoundComplete() nach sample Ende bewirkt. André hat dazu in seinem Audiopackage eine schöne Implementierung. Ferner sollte man vielleicht schauen, welche Intonierung sich an welche vorangegangen Elemente anschließt. Das heißt adäquates Sample auswählen, wenn gewisse Bedingung wie Fragesatz? , Satzende? Wievieltes Wort z.B. in einerAdjektiv-Kette ?( typisches Stimmanschwellen) usw usw ... Ich denke, da kann nach eingehender phonetischer Analyse ein halbwegs brauchbarer Algorithmus entwickelt werden. |
| | |
| | #3 (permalink) |
| [+] Registriert seit: Dec 2002 Ort: cologne
Beiträge: 2.274
|
Das wollte ich auch schon immer mal austesten. Ich denke auch, dass es mit dem Sync Workaround möglich ist. Meiner im Audiopackage wird da nicht viel helfen, da es kein Rap werden soll :) Prinzipiell braucht man 'nur' die ganz Palette phonetischer Laute als Sätze verschiedener Tonalitäten mit der jeweiligen Samplelänge. Ich dachte dabei vielleicht ein Hörspiel mit einem monotonen Sprecher zu missbrauchen. Schwierig wird dann die Interpretation von normalen Sätzen. Ich denke, das lässt sich erst mit einer AS3 Umsetzung performant lösen. |
| | |
| | #4 (permalink) |
| Noob Registriert seit: May 2005
Beiträge: 20
|
so...ich hab nochmal bisschen im www gewühlt und nu hab ich das: http://ize.badne.ws/SoundQue3.swf ist doch schonmal ganz nett ![]() ich bräuchte nur noch sowas wie ein mini lexikon woraus es sich die passenden laute raussucht z.b. für w(oo)t, y(ou) usw. hier die fla: http://ize.badne.ws/SoundQue3.fla |
| | |
| | #8 (permalink) |
| Banned Registriert seit: Jan 2006
Beiträge: 849
|
als ich damals noch meinen 8 bit rechner hatte, gabs ne sprachengine die sich sam nannte, geschrieben in ASC steuerbar über BASIC. problem bei der geshcichte war immer das deutsche laute sich anders anhörten wie die englichen, also legte ich eine art profil an bzw. mehrere aus einem sch machte ich im deutschen profil ein sh und so weiter, dan gings mit der verständlichkeit. übrigens sam konnte auch die sätze betonen, er hatte sozusagen 3-4 tonlagen der selben stimme, er hatte a) eine routiene die das ende der sätze betonte b) parameter gesteuert war auch möglich und c) immer dann automatisch wenn man 4 mal pder öfter den selben buchstaben verwendete. |
| | |
| | #10 (permalink) |
| Neuer User Registriert seit: Feb 2006 Ort: undefined
Beiträge: 70
|
Vielleicht lassen sich ja ein paar Ideen zusammentragen, die in einen evtl. Algorithmus einfließen könnten. Könnte ich mir sehr spannend vorstellen, welche Probleme und deren Lösung sich dabie ergeben. |
| | |
| | #11 (permalink) |
| [+] Registriert seit: Dec 2002 Ort: cologne
Beiträge: 2.274
|
Ich habe den Workaround umgesetzt und das Ergebnis ist schon verständlich :) speak! Die Ausgabe ist millisekunden-genau, was völlig ausreicht. Mit dabei ist ein Wavfile ("silence47.wav"), was immer vor jede Wellenform kopiert werden muss, damit der Workaround arbeiten kann. Das SyncFile habe ich auf 46ms gesetzt. Dann könnte es auch auf dem MAC funktionieren. Jetzt kommt die eigentliche Arbeit. Das Zusammenpuzzeln von Lauten. Im Wikipedia gibt es Links zu Online-Sprechern. Ich habe von dort auch die ersten Laute. Mir ist aber aufgefallen, dass unserer Sprache komplexer ist, als ich dachte. Oft werden schon nachfolgende Buchstaben zur Bildung von Lauten hinzugezogen. |
| | |
| | #12 (permalink) |
| Noob Registriert seit: May 2005
Beiträge: 20
|
alter schwede...1000x besser als mein versuch... aber ich wär dafür das erstmal in englisch zu versuchen da die sprache weniger komplex ist als unser deutsch mit seinen ganzen regeln ![]() ich werd mir das jetzt mal alles genau ansehen und versuchen damit was hinzubekommen... ich blick immer noch nicht SOOO durch actionscript durch aber... learning by doing ![]() nochmal danke für das super beispiel EDIT: naja aber so ganz richtig ist das nicht in deinem beispiel hast du die sample nicht nicht in ihre bestandteile zerlegt(allophones) also das man daraus auch richtige andere wörter bilden könnte sondern nur in einzelne teile zerhackt: ver s tänd li ch naja ich probier mal weiter Geändert von Ize (03-02-2006 um 12:47 Uhr) |
| | |
| | #13 (permalink) |
| [+] Registriert seit: Dec 2002 Ort: cologne
Beiträge: 2.274
|
Ich habe in Wavelab versucht, die einzelnen Laute zu schneiden, aber das ist extrem schwierig. Der Code sorgt nur dafür, dass die Samples ohne Übergang abgespielt werden. Versuch mal bei einem gesprochenden 'li' das 'l' zu extrahieren. Bei einem der Links konnte man eine Sprachapplikation runterladen. Für eine Sprecherin waren das 40MB an Soundmaterial. Das kommt mir übertrieben vor, aber wahrscheinlich muss man auch Lautkombinationen bereitstellen, wenn es sauber klingen soll. |
| | |
| | #14 (permalink) |
| Neuer User Registriert seit: Feb 2006 Ort: undefined
Beiträge: 70
|
@andré: sehr cool das mit der SeamlessSequence. Das stellt einen guten Grundstein dar. Nun ist die Frage, wieviele phonetischen samples man braucht, um theoretisch jeden Text (in guter Qualität) ausgeben kann. Mit Ideen zusammentragen meinte ich ja Ideen über phonetische Gesetzmäßigkeiten, die es Erlauben auf der einen Seite einen schlanken und kompletten sample pool zu schaffen und auf der anderen einen halbwegs guten Algorithmus darauf abzubilden. Einfach ein phonetisches Alphabet abzubilden, einen String anhand seiner Characters zu slicen und die entsprechenden char-samples abzuspielen, kanns ja wohl nicht sein. Ich seh mal, dass ich auch noch was dazu finde. |
| | |
![]() |
| Lesezeichen |
| Themen-Optionen | |
| Ansicht | |
| |