Home Technologie Sesame, la startup derrière l’assistant virtuel virtuel Maya, libère son modèle de...

Sesame, la startup derrière l’assistant virtuel virtuel Maya, libère son modèle de base AI

8
0

Entreprise d’IA Sésame a publié le modèle de base qui alimente Maya, le Assistant vocal impressionnant réaliste.

Le modèle, qui est de 1 milliard de paramètres de taille («paramètres» se référant aux composants individuels du modèle), est sous une licence Apache 2.0, ce qui signifie qu’il peut être utilisé commercialement avec peu de restrictions. Appelé CSM-1b, le modèle génère des «codes audio RVQ» à partir des entrées de texte et audio, selon La description de Sesame sur la plate-forme AI Dev étreignant le visage.

RVQ fait référence à la «quantification des vecteurs résiduels», une approach pour coder l’audio en jetons discrets appelés codes. RVQ est utilisé Dans un certain nombre de technologies audio d’IA récentesy compris SoundStream de Google et encode de Meta.

CSM-1b utilise un modèle de la famille Llama de Meta comme son épine dorsale associé à un composant audio «Decoder». Une variante affinée de CSM Powers Maya, dit Sesame.

«Le modèle Open-Open Ici est un modèle de génération de base», écrit Sesame dans CSM-1B Visage étreint et Github référentiels. «Il est succesful de produire une variété de voix, mais il n’a pas été affiné d’une voix spécifique […] Le modèle a une certaine capacité pour les langues non anglophones en raison de la contamination des données dans les données de formation, mais cela ne fera probablement pas bien. »

On ne sait pas quelles données sésame ont utilisé pour former CSM-1b. L’entreprise n’a pas dit.

Il convient de noter que le modèle n’a pas de véritables garanties à parler. Sesame a un système d’honneur et exhorte simplement les développeurs et les utilisateurs à ne pas utiliser le modèle pour imiter la voix d’une personne sans leur consentement, créer du contenu trompeur comme de fausses nouvelles ou s’engager dans des activités «nuisibles» ou «malveillantes».

J’ai essayé la démo En étreignant le visage, et le clonage de ma voix a pris moins d’une minute. De là, il était facile de générer un discours dans le désir de mon cœur, y compris sur des sujets controversés comme l’élection et la propagande russe.

Client Experiences a récemment averti que de nombreux outils de clonage vocale populaires sur le marché n’ont pas de garanties «significatives» pour éviter la fraude ou les abus.

Sesame, co-fondé par le co-créateur d’Oculus, Brendan Iribe, est devenu viral fin février pour sa technologie adjointe, qui se rapproche du territoire Uncanny Valley. L’autre assistant de Maya et de Sesame, Miles, respire et parle avec les disfluences, et peut être interrompu en parlant, un peu comme le mode vocal d’Openai.

Sesame a levé une quantité non divulguée de capitaux d’Andreessen Horowitz, Spark Capital et Matrix Companions. En plus de construire la technologie vocale Assistant Tech, la société affirme que c’est le prototypage des lunettes AI «conçues pour être portées toute la journée» qui seront équipées de ses modèles personnalisés.

lien source

LEAVE A REPLY

Please enter your comment!
Please enter your name here