Głodni Wiedzy

Informacje o Polsce. Wybierz tematy, o których chcesz dowiedzieć się więcej

ElevenLabs ogłasza finansowanie w wysokości 19 milionów dolarów na przyspieszenie badań nad sztuczną inteligencją głosu

ElevenLabs ogłasza finansowanie w wysokości 19 milionów dolarów na przyspieszenie badań nad sztuczną inteligencją głosu

Chociaż powstał zaledwie rok temu, startup Elevenlabs już jest pionierem w dziedzinie wokalnej sztucznej inteligencji. Dowodem na to jest sukces platformy zamiany tekstu na mowę i transkrypcji, która została uruchomiona w wersji beta w styczniu zeszłego roku: ma ponad milion zarejestrowanych użytkowników, którzy stworzyli treści audio przez ponad 10 lat. Startup opracował już nowe produkty, których wdrożenie będzie można przyspieszyć dzięki tej zbiórce.

Firma ElevenLabs została założona w kwietniu 2022 roku przez dwóch przyjaciół z dzieciństwa Mate Staniszewskiego, który wcześniej pracował w Palantir, oraz Piotra Dabkowskiego, byłego inżyniera oprogramowania w Google, firmie zajmującej się badaniami technologii audio. Po spędzeniu 2022 roku na opracowywaniu modeli głosowych AI, które jej zdaniem mogą tworzyć najbardziej zróżnicowane i odpowiednie kontekstowo głosy AI, zaprezentowała swoją platformę, która została szybko przyjęta przez twórców i programistów z branży mediów, gier i tworzenia treści.

Narzędzia ElevenLabs mogą konwertować dowolny tekst na mowę za pomocą syntetycznych głosów, sklonowanych głosów lub tworzyć całkowicie nowe syntetyczne głosy, które można dostosować na podstawie płci, wieku i preferencji dotyczących akcentu. Dzięki VoiceLab możliwe jest również stworzenie transkrypcji swojego głosu z 30-sekundowego klipu.

Wygenerowane głosy brzmią niesamowicie po ludzku, łącznie z odpowiednią pauzą i tonem.

Zbiórka 19 milionów dolarów

Po zebraniu 2 milionów dolarów w rundzie finansowania wstępnego w styczniu ubiegłego roku, ElevenLabs ogłosiło rundę finansowania Serii A o wartości 19 milionów dolarów, którą wspólnie prowadzili Andreessen Horowitz (fundusz venture capital a16z) i Nat Friedman (były dyrektor generalny) Inc. dla Github) i Daniel Gross (który pracował w AI i badaniach w Apple) z udziałem Credo Ventures, Concept Ventures i grupy inwestorów strategicznych, w tym współzałożyciel Instagrama Mike Krieger, współzałożyciel Oculus VR, Brendan Iribe, współzałożyciel Oculus VR .

Po tej inwestycji Andreessen Horowitz zasiądzie w radzie dyrektorów startupu.

READ  Editis dokonuje zamachu stanu, rekrutując Adriena Bosca

Pozwoli to temu drugiemu na kontynuację budowy centrum badawczego sztucznej inteligencji głosowej i wprowadzenie pakietu dodatkowych produktów do obsługi określonych rynków wertykalnych, takich jak aplikacje wydawnicze, gry, rozrywka i konwersacje.

I już zapowiada kilka nowych produktów, które na to pozwalają „Więc każdy może stworzyć cały audiobook na platformie w ciągu kilku minut”.a także model wykrywania głosu AI.

Mate Staniszewski, CEO i współzałożyciel ElevenLabs mówi:

„W ciągu ostatnich pięciu miesięcy widzieliśmy, jak nasza technologia obejmuje miliony innowatorów, firm i ciekawskich umysłów. Wciąż jesteśmy dopiero na początku tej podróży, a teraz, gdy dołączyli do nas Nat, Daniel i Andreessen Horowitz, mieć najlepszych partnerów, gdy podążamy ambitną ścieżką przyszłości”..

Rozwój narzędzia do kopiowania wideo jest na horyzoncie

ElevenLabs ogłosiło więc swoje projekty, które ukażą się w przyszłym miesiącu i są Dostępne już teraz we wczesnym dostępie. Ma na celu usprawnienie przepływu pracy podczas tworzenia długich treści audio, takich jak audiobooki.

Projekty zapewnią twórcom treści, takim jak wydawcy i niezależni autorzy, bezprecedensowy poziom kontroli nad treściami audio generowanymi przez sztuczną inteligencję. Basé sur les recherches de l’entreprise en matière de synthèse vocale de longue durée et de „remplissage” audio, it permettra aux utilisateurs de générer de manière transparente des segments entiers de dialog, des article de presse, et même des audio livres sans quitter platforma. Według ElevenLabs, „Projekty mają na celu prostotę i łatwość użytkowania, podobnie jak Dokumenty Google do tworzenia dźwięku”.

To nowe narzędzie dołącza do pakietu produktów ElevenLabs, który obejmuje Speech Synthesis, platformę do syntezy mowy, która wykorzystuje istniejące wcześniej głosy syntetyczne, oraz VoiceLab, proces tworzenia unikalnego głosu lub cyfrowej wersji istniejącego głosu. ElevenLabs uruchomiło niedawno Eleven Multilingual Access, model zamiany tekstu na mowę, który obsługuje główne języki europejskie (francuski, niemiecki, włoski, polski, portugalski i hiszpański). Platforma jest dostępna dla wszystkich pod adresem: jedenaście laboratoriów.io.

READ  Polska zaprzecza, jakoby śmigłowiec wojskowy naruszył białoruską przestrzeń powietrzną

Te najnowsze osiągnięcia produktowe są krokami w kierunku opracowania narzędzia do obsługi głosowej AI, które ma zostać wprowadzone na rynek jeszcze w tym roku. Umożliwi to skopiowanie dowolnego materiału wideo na dowolny język w atrakcyjny, wydajny i skalowalny sposób, przy jednoczesnym zachowaniu głosu native speakera. Firma prowadzi już szereg testów z partnerami branżowymi, aby umożliwić dubbing AI na dużą skalę.

Te najnowsze osiągnięcia produktowe są krokami w kierunku stworzenia narzędzia głosowego opartego na sztucznej inteligencji, które ma zostać wprowadzone na rynek jeszcze w tym roku. Pozwoli to na skopiowanie dowolnego filmu wideo na dowolny język w atrakcyjny, wydajny i skalowalny sposób, przy jednoczesnym zachowaniu głosu native speakera. Firma prowadzi już testy z partnerami branżowymi, aby umożliwić działanie głosowe AI na dużą skalę.

Klasyfikator mowy AI dla większej przejrzystości

ElevenLabs zaprezentowało również klasyfikator głosu AI. To narzędzie pozwala każdemu przesłać próbkę audio i ustalić, czy klip zawiera dźwięk wygenerowany przez ElevenLabs AI.

Według startupu produkt ten jest pierwszym tego rodzaju w dziedzinie generatywnego audio. Jest teraz dostępny publicznie i dla wybranych partnerów jako interfejs API.

Uruchomienie AI Voice Classifier to najnowszy krok w dążeniu firmy do przejrzystości i stanowi kamień węgielny jej zaangażowania w tworzenie bezpiecznego środowiska medialnego. Oferuje również „Przewodnik po reprodukcji audio” na swojej stronie dla użytkowników swojej platformy.