Główny Wprowadzać Innowacje Nowa sztuczna inteligencja Google do zamiany tekstu na mowę jest tak dobra, że ​​założę się, że nie można jej odróżnić od prawdziwego człowieka

Nowa sztuczna inteligencja Google do zamiany tekstu na mowę jest tak dobra, że ​​założę się, że nie można jej odróżnić od prawdziwego człowieka

Twój Horoskop Na Jutro

Czy potrafisz odróżnić mowę komputerową generowaną przez sztuczną inteligencję od prawdziwego, żywego człowieka? Może zawsze myślałeś, że możesz. Może lubisz Alexę i Siri, ale wierzysz, że nigdy nie pomylisz ich z prawdziwą kobietą.

Sprawy staną się o wiele bardziej interesujące. Inżynierowie Google ciężko pracowali nad stworzeniem systemu zamiany tekstu na mowę o nazwie Takotron 2 . Według papier opublikowali w tym miesiącu, system najpierw tworzy spektrogram tekstu, wizualną reprezentację tego, jak powinna brzmieć mowa. Ten obraz jest przesyłany przez istniejący algorytm WaveNet firmy Google, który wykorzystuje obraz do wytwarzania niezwykle naturalnie brzmiącej ludzkiej mowy.

michaela conlin żonaty tj thyne

Korzystając z tej metody, naukowcy informują: 'Nasz model osiąga średni wynik opinii (MOS) 4,53 porównywalny z MOS 4,58 dla profesjonalnie nagranej mowy'. (Średnia ocena opinii to termin telekomunikacyjny, który mierzy, jak coś wydaje się realistyczne).

Jak pokazują próbki audio Google, Tacotron 2 może wykryć z kontekstu różnicę między rzeczownikiem „pustynia” a czasownikiem „pustynia”, a także rzeczownikiem „obecny” i czasownikiem „obecny” i odpowiednio zmienić jego wymowę. Może kłaść nacisk na słowa pisane wielkimi literami i stosować odpowiednią fleksję podczas zadawania pytań, a nie wypowiadania się.

I może generować tekst, który brzmi tak podobnie do ludzkiej mowy, że rozpoznanie różnicy jest trudne lub niemożliwe. Jeśli chcesz zobaczyć, jakie to trudne, przejdź do Google strona z próbkami audio i przewiń w dół do ostatniego zestawu próbek, zatytułowanego „Tacotron 2 czy człowiek?” Znajdziesz tam Tacotron 2 i prawdziwą osobę, z których każda mówi zdania takie jak: „Ta dziewczyna nakręciła film o szmince z Gwiezdnych Wojen”.

SPOILER ALERT: Aby przetestować siebie, posłuchaj próbek i zgadnij, który jest który, zanim przeczytasz resztę tej kolumny.

Więc które próbki są zamianą tekstu na mowę, a które są prawdziwym ludzkim głosem? Inżynierowie Google nie mówią, ale zostawili bardzo dużą wskazówkę. Każdy z przykładowych plików .wav ma nazwę pliku zawierającą termin „gen” lub „gt”. Na podstawie artykułu jest wysoce prawdopodobne, że „gen” oznacza mowę generowaną przez Tacotron 2, a „gt” to prawdziwa ludzka mowa. („GT” prawdopodobnie oznacza „gruntową prawdę”, termin uczenia maszynowego, który zasadniczo oznacza „prawdziwą ofertę”).

Zakładając, że to prawda, oto odpowiedzi na test:

są spokrewnieni z Brianem i Chip Kelly?

– Ta dziewczyna nakręciła film o szmince z Gwiezdnych Wojen.

Próbka 1: Prawdziwy człowiek

Próbka 2: Tacotron 2

„Uzyskała doktorat z socjologii na Uniwersytecie Columbia”.

Próbka 1: Tacotron 2

Próbka 2: Prawdziwy człowiek

„George Washington był pierwszym prezydentem Stanów Zjednoczonych”.

Próbka 1: Tacotron 2

Próbka 2: Prawdziwy człowiek

elizabeth berkley wartość netto 2016

– Jestem zbyt zajęty na romanse.

Próbka 1: Prawdziwy człowiek

Próbka 2: Tacotron 2

Ile masz racji? I czy naprawdę możesz odróżnić, czy po prostu musiałeś zgadywać?