Soundhound AI IP, LLC

États‑Unis d’Amérique

Retour au propriétaire

1-100 de 200 pour Soundhound AI IP, LLC Trier par
Recheche Texte
Affiner par
Type PI
        Brevet 196
        Marque 4
Juridiction
        États-Unis 197
        International 3
Date
Nouveautés (dernières 4 semaines) 2
2025 novembre (MACJ) 2
2025 septembre 1
2025 août 2
2025 (AACJ) 15
Voir plus
Classe IPC
G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine 79
G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel 58
G10L 15/30 - Reconnaissance distribuée, p. ex. dans les systèmes client-serveur, pour les applications en téléphonie mobile ou réseaux 36
G10L 15/06 - Création de gabarits de référenceEntraînement des systèmes de reconnaissance de la parole, p. ex. adaptation aux caractéristiques de la voix du locuteur 34
G10L 15/26 - Systèmes de synthèse de texte à partir de la parole 31
Voir plus
Classe NICE
09 - Appareils et instruments scientifiques et électriques 3
42 - Services scientifiques, technologiques et industriels, recherche et conception 3
38 - Services de télécommunications 1
Statut
En Instance 48
Enregistré / En vigueur 152
  1     2     3        Prochaine page

1.

INTERPRETING QUERIES ACCORDING TO PREFERENCES

      
Numéro d'application 19268508
Statut En instance
Date de dépôt 2025-07-14
Date de la première publication 2025-11-06
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Mohajer, Keyvan
  • Mont-Reynaud, Bernard
  • Wilson, Christopher S.

Abrégé

The present invention extends to methods, systems, and computer program products for interpreting queries according to preferences. Multi-domain natural language understanding systems can support a variety of different types of clients. Queries can be received and interpreted across one or more domains. Preferred query interpretations can be identified and query responses provided based on any of: domain preferences, preferences indicated by an identifier, or (e.g., weighted) scores exceeding a threshold.

Classes IPC  ?

  • G06F 40/30 - Analyse sémantique
  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G10L 15/30 - Reconnaissance distribuée, p. ex. dans les systèmes client-serveur, pour les applications en téléphonie mobile ou réseaux

2.

METHOD AND SYSTEM FOR ASSISTING A USER

      
Numéro d'application 19268813
Statut En instance
Date de dépôt 2025-07-14
Date de la première publication 2025-11-06
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Mohajer, Keyvan
  • Kam, Kaishin
  • Pierret, Christophe

Abrégé

A method of assisting a user. The method including obtaining a plurality of rules having condition components and action components, the action components specifying conversation schemas, detecting, by a sensor, a fact related to an environment of the user, identifying a rule, of the plurality of rules, having a condition component that is satisfied by the detected fact, initiating a conversation with the user according to a conversation schema of the action component of the rule of the plurality of rules, and performing an action in response to a positive statement by the user.

Classes IPC  ?

  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G01C 21/36 - Dispositions d'entrée/sortie pour des calculateurs embarqués

3.

METHOD AND APPARATUS FOR INTELLIGENT VOICE QUERY

      
Numéro d'application 19228217
Statut En instance
Date de dépôt 2025-06-04
Date de la première publication 2025-09-25
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s) Wang, Chong

Abrégé

A method and an apparatus for processing an intelligent voice query. A voice query input is received from a user. Automatic speech recognition and natural language understanding generate structured query data. It is modified based on an input adaptation rule to obtain modified structured query data appropriate for a content providing server, which provides a query result output corresponding to the modified structured query data. Input adaptation rules may comprise rule sets based on behavior patterns of the user and/or business recommendations. The query result output can be used for natural language generation, which may have similar adaptation rules for output.

Classes IPC  ?

  • G06F 16/2452 - Traduction des requêtes
  • G06F 16/242 - Formulation des requêtes
  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine

4.

AUTOMATIC SPEECH RECOGNITION USING SERVICE LEVEL-BASED MODEL SELECTION

      
Numéro d'application 19207855
Statut En instance
Date de dépôt 2025-05-14
Date de la première publication 2025-08-28
Propriétaire SOUNDHOUND AI IP, LLC (USA)
Inventeur(s)
  • Stonehocker, Timothy P.
  • Gowayyed, Zizu
  • Emami, Sayed Mahid
  • Eichstaedt, Matthias
  • Jiang, Evelyn
  • Berryhill, Ryan
  • Ramona, Mathieu
  • Veira, Neil

Abrégé

A method for automatic speech recognition (ASR) of audio data streams involves obtaining a service level indication to determine the appropriate ASR model from a set of models. The set includes at least a first model with higher accuracy and greater computing resource requirements, and a second model with lower accuracy and reduced resource demands. The method includes selecting an ASR model based on the service level indication, receiving the audio data stream, and executing ASR using the chosen model. This approach allows for dynamic adaptation of ASR processing based on available resources and desired accuracy, optimizing performance and resource allocation.

Classes IPC  ?

  • G10L 15/30 - Reconnaissance distribuée, p. ex. dans les systèmes client-serveur, pour les applications en téléphonie mobile ou réseaux
  • G10L 15/16 - Classement ou recherche de la parole utilisant des réseaux neuronaux artificiels
  • G10L 15/26 - Systèmes de synthèse de texte à partir de la parole

5.

METHOD AND SYSTEM FOR CONTROLLING A GRAPHICAL USER INTERFACE BY TELEPHONE

      
Numéro d'application 19192220
Statut En instance
Date de dépôt 2025-04-28
Date de la première publication 2025-08-14
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s)
  • Mohajer, Kamyar
  • Mohajer, Keyvan
  • Hom, James
  • Jiang, Evelyn

Abrégé

A method and system for controlling a GUI on a user's network-connected device, the control being provided by a telephone call between the user and a speech recognition and speech synthesis system. An example of a restaurant ordering system is provided. The user calls a phone number and is guided through a verbal ordering process that includes one or more of: adding an item, deleting an item, changing quantities, changing sizes, and changing details of an item. The user's choices are added to a display so that a current status of the order is visible to the user. The GUI is updated as changes are made to the order. The GUI can also request additional information, upsell items, and show menus. The GUI aids the user in confirming that the order is correct. The system provides the final order to a restaurant for fulfillment.

Classes IPC  ?

6.

TOKEN CONFIDENCE SCORES FOR AUTOMATIC SPEECH RECOGNITION

      
Numéro d'application 19032434
Statut En instance
Date de dépôt 2025-01-20
Date de la première publication 2025-05-22
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s)
  • Singh, Pranav
  • Mishra, Saraswati
  • Na, Eunjee

Abrégé

Methods and systems for correction of a likely erroneous word in a speech transcription are disclosed. By evaluating token confidence scores of individual words or phrases, the automatic speech recognition system can replace a low-confidence score word with a substitute word or phrase. Among various approaches, neural network models can be used to generate individual confidence scores. Such word substitution can enable the speech recognition system to automatically detect and correct likely errors in transcription. Furthermore, the system can indicate the token confidence scores on a graphic user interface for labeling and dictionary enhancement.

Classes IPC  ?

  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G10L 15/02 - Extraction de caractéristiques pour la reconnaissance de la paroleSélection d'unités de reconnaissance
  • G10L 15/26 - Systèmes de synthèse de texte à partir de la parole

7.

SYSTEM AND METHOD FOR CORRECTION OF A QUERY USING A REPLACEMENT PHRASE

      
Numéro d'application 19020796
Statut En instance
Date de dépôt 2025-01-14
Date de la première publication 2025-05-15
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Singh, Pranav
  • Bettaglio, Olivia

Abrégé

Systems and methods are provided for natural language processing using neural network models and natural language virtual assistants. The system and method include receiving a natural language phrase including a word sequence, computing corresponding error probabilities that the words are errors, and for a word with a corresponding error probability above a threshold, then computing a replacement phrase with a low error probability to provide a response from the virtual assistant depending on the replacement phrase.

Classes IPC  ?

  • G06F 16/23 - Mise à jour
  • G06F 16/2452 - Traduction des requêtes
  • G06N 7/00 - Agencements informatiques fondés sur des modèles mathématiques spécifiques

8.

BUILDING A NATURAL LANGUAGE UNDERSTANDING APPLICATION USING A RECEIVED ELECTRONIC RECORD CONTAINING PROGRAMMING CODE INCLUDING AN INTERPRET-BLOCK AND AN INTERPRET-STATEMENT

      
Numéro d'application 19026132
Statut En instance
Date de dépôt 2025-01-16
Date de la première publication 2025-05-15
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Mont-Reynaud, Bernard
  • Emami, Seyed M.
  • Wilson, Chris
  • Mohajer, Keyvan

Abrégé

A method of building a natural language understanding application is provided. The method includes receiving at least one electronic record containing programming code and creating executable code from the programming code. Further, the executable code, when executed by a processor, causes the processor to create a parse and an interpretation of a sequence of input tokens, the programming code includes an interpret-block and the interpret-block includes an interpret-statement. Additionally, the interpret-statement includes a pattern expression and the interpret-statement includes an action statement.

Classes IPC  ?

  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G06F 8/30 - Création ou génération de code source
  • G06F 40/205 - Analyse syntaxique
  • G10L 15/06 - Création de gabarits de référenceEntraînement des systèmes de reconnaissance de la parole, p. ex. adaptation aux caractéristiques de la voix du locuteur
  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • H04M 3/493 - Services d'information interactifs, p. ex. renseignements sur l'annuaire téléphonique

9.

PERFORMING SPEECH RECOGNITION USING A SET OF WORDS WITH DESCRIPTIONS IN TERMS OF COMPONENTS SMALLER THAN THE WORDS

      
Numéro d'application 19014095
Statut En instance
Date de dépôt 2025-01-08
Date de la première publication 2025-05-08
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Mohajer, Keyvan
  • Stonehocker, Timothy
  • Mont-Reynaud, Bernard

Abrégé

A system and method is presented for performing dual mode speech recognition, employing a local recognition module on a mobile device and a remote recognition engine on a server device. The system accepts a spoken query from a user, and both the local recognition module and the remote recognition engine perform speech recognition operations on the query, returning a transcription and confidence score, subject to a latency cutoff time. If both sources successfully transcribe the query, then the system accepts the result having the higher confidence score. If only one source succeeds, then that result is accepted. In either case, if the remote recognition engine does succeed in transcribing the query, then a client vocabulary is updated if the remote system result includes information not present in the client vocabulary.

Classes IPC  ?

  • G10L 15/30 - Reconnaissance distribuée, p. ex. dans les systèmes client-serveur, pour les applications en téléphonie mobile ou réseaux
  • G10L 15/04 - SegmentationDétection des limites de mots
  • G10L 15/06 - Création de gabarits de référenceEntraînement des systèmes de reconnaissance de la parole, p. ex. adaptation aux caractéristiques de la voix du locuteur
  • G10L 15/08 - Classement ou recherche de la parole
  • G10L 15/26 - Systèmes de synthèse de texte à partir de la parole
  • G10L 15/34 - Adaptation d’un reconnaisseur unique pour traitement en parallèle, p. ex. par utilisation de processeurs multiples ou informatique en nuage
  • G10L 17/06 - Techniques de prise de décisionStratégies d’alignement de motifs

10.

DERIVING ACOUSTIC FEATURES AND LINGUISTIC FEATURES FROM RECEIVED SPEECH AUDIO

      
Numéro d'application 18945442
Statut En instance
Date de dépôt 2024-11-12
Date de la première publication 2025-02-27
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Lokeswarappa, Kiran Garaga
  • Gedalius, Joel
  • Mont-Reynaud, Bernard
  • Huang, Jun

Abrégé

A computer-implemented method is provided. The method including receiving speech audio of dictation associated with a user ID, deriving acoustic features from the speech audio, storing the derived acoustic features in a user profile associated with the user ID, receiving a request for acoustic features through an application programming interface (API), the request including the user ID, and sending the derived acoustic features through the API.

Classes IPC  ?

  • G10L 15/02 - Extraction de caractéristiques pour la reconnaissance de la paroleSélection d'unités de reconnaissance
  • G06F 40/205 - Analyse syntaxique
  • G06F 40/211 - Parsage syntaxique, p. ex. basé sur une grammaire hors contexte ou sur des grammaires d’unification
  • G06F 40/253 - Analyse grammaticaleCorrigé du style
  • G06N 20/00 - Apprentissage automatique
  • G06Q 30/0241 - Publicités
  • G06Q 30/0251 - Publicités ciblées
  • G10L 15/06 - Création de gabarits de référenceEntraînement des systèmes de reconnaissance de la parole, p. ex. adaptation aux caractéristiques de la voix du locuteur
  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G10L 15/26 - Systèmes de synthèse de texte à partir de la parole
  • G10L 25/51 - Techniques d'analyse de la parole ou de la voix qui ne se limitent pas à un seul des groupes spécialement adaptées pour un usage particulier pour comparaison ou différentiation
  • G10L 25/90 - Détermination de la hauteur tonale des signaux de parole
  • H04L 67/306 - Profils des utilisateurs

11.

METHOD AND SYSTEM FOR ACOUSTIC MODEL CONDITIONING ON NON-PHONEME INFORMATION FEATURES

      
Numéro d'application 18928627
Statut En instance
Date de dépôt 2024-10-28
Date de la première publication 2025-02-13
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s)
  • Gowayyed, Zizu
  • Mohajer, Keyvan

Abrégé

A method and system for acoustic model conditioning on non-phoneme information features for optimized automatic speech recognition is provided. The method includes using an encoder model to encode sound embedding from a known key phrase of speech and conditioning an acoustic model with the sound embedding to optimize its performance in inferring the probabilities of phonemes in the speech. The sound embedding can comprise non-phoneme information related to the key phrase and the following utterance. Further, the encoder model and the acoustic model can be neural networks that are jointly trained with audio data.

Classes IPC  ?

  • G10L 15/02 - Extraction de caractéristiques pour la reconnaissance de la paroleSélection d'unités de reconnaissance
  • G10L 15/04 - SegmentationDétection des limites de mots
  • G10L 15/08 - Classement ou recherche de la parole
  • G10L 15/16 - Classement ou recherche de la parole utilisant des réseaux neuronaux artificiels
  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G10L 25/30 - Techniques d'analyse de la parole ou de la voix qui ne se limitent pas à un seul des groupes caractérisées par la technique d’analyse utilisant des réseaux neuronaux

12.

ARTIFICIAL INTELLIGENCE SMART ANSWERING ARCHITECTURE

      
Numéro d'application US2024038711
Numéro de publication 2025/024260
Statut Délivré - en vigueur
Date de dépôt 2024-07-19
Date de publication 2025-01-30
Propriétaire SOUNDHOUND AI IP, LLC (USA)
Inventeur(s)
  • Stonehocker, Timothy P.
  • Mohajer, Kamyar

Abrégé

An automated answering system and method are disclosed for use in providing automated customer service. The automated answering system uses generative artificial intelligence to aid in forming a knowledgebase of information regarding a merchant's business that is used in answering the customer queries. The automated answering system of the present technology also uses generative artificial intelligence to aid in formulating a response to queries using the formed knowledgebase.

Classes IPC  ?

13.

ARTIFICIAL INTELLIGENCE SMART ANSWERING ARCHITECTURE

      
Numéro d'application 18356659
Statut En instance
Date de dépôt 2023-07-21
Date de la première publication 2025-01-23
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Stonehocker, Timothy P.
  • Mohajer, Kamyar

Abrégé

An automated answering system and method are disclosed for use in providing automated customer service. The automated answering system uses generative artificial intelligence to aid in forming a knowledgebase of information regarding a merchant's business that is used in answering the customer queries. The automated answering system of the present technology also uses generative artificial intelligence to aid in formulating a response to queries using the formed knowledgebase.

Classes IPC  ?

  • G06Q 30/016 - Fourniture d’une assistance aux clients, p. ex. pour assister un client dans un lieu commercial ou par un service d’assistance après-vente
  • G06N 5/046 - Inférence en avantSystèmes de production

14.

METHOD AND SYSTEM FOR CONVERSATION TRANSCRIPTION WITH METADATA

      
Numéro d'application 18889219
Statut En instance
Date de dépôt 2024-09-18
Date de la première publication 2025-01-09
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s)
  • Bradley, Kiersten L.
  • Coeytaux, Ethan
  • Yin, Ziming

Abrégé

Methods and systems for enabling an efficient review of meeting content via a metadata-enriched, speaker-attributed and multiuser-editable transcript are disclosed. By incorporating speaker diarization and other metadata, the system can provide a structured and effective way to review and/or edit the transcript by one or more editors. One type of metadata can be image or video data to represent the meeting content. Furthermore, the present subject matter utilizes a multimodal diarization model to identify and label different speakers. The system can synchronize various sources of data, e.g., audio channel data, voice feature vectors, acoustic beamforming, image identification, and extrinsic data, to implement speaker diarization.

Classes IPC  ?

  • G10L 15/26 - Systèmes de synthèse de texte à partir de la parole
  • G06F 40/134 - Création de liens hypertexte
  • G06F 40/166 - Édition, p. ex. insertion ou suppression
  • G06F 40/284 - Analyse lexicale, p. ex. segmentation en unités ou cooccurrence
  • G10L 15/02 - Extraction de caractéristiques pour la reconnaissance de la paroleSélection d'unités de reconnaissance
  • G10L 15/06 - Création de gabarits de référenceEntraînement des systèmes de reconnaissance de la parole, p. ex. adaptation aux caractéristiques de la voix du locuteur
  • G10L 15/07 - Adaptation au locuteur

15.

USING A SPECIALIST GRAMMAR TO ENABLE ORDERING FROM A MENU USING NATURAL LANGUAGE

      
Numéro d'application 18891119
Statut En instance
Date de dépôt 2024-09-20
Date de la première publication 2025-01-09
Propriétaire SOUNDHOUND AI IP, LLC (USA)
Inventeur(s)
  • Aung, Joe Kyaw Soe
  • Garcia, Vincent
  • Ren, Junru

Abrégé

A computer system ingests a catalog of a plurality of items. The catalog is specific to a particular domain and including names for individual items of the plurality of items. One or more attributes are respectively associated to the individual items of the plurality of items. A specialist grammar specific to the particular domain of the catalog is obtained and used to interpret natural language input related to the catalog based on the names for the individual items of the plurality of items and their associated one or more attributes.

Classes IPC  ?

  • G06F 40/295 - Reconnaissance de noms propres
  • G06F 40/40 - Traitement ou traduction du langage naturel
  • G06N 5/022 - Ingénierie de la connaissanceAcquisition de la connaissance
  • G10L 15/26 - Systèmes de synthèse de texte à partir de la parole

16.

CONTENT FILTERING IN MEDIA PLAYING DEVICES

      
Numéro d'application 18823308
Statut En instance
Date de dépôt 2024-09-03
Date de la première publication 2024-12-26
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s)
  • Khov, Thor S.
  • Kong, Terry

Abrégé

Various approaches relate to user defined content filtering in media playing devices of undesirable content represented in stored and real-time content from content providers. For example, video, image, and/or audio data can be analyzed to identify and classify content included in the data using various classification models and object and text recognition approaches. Thereafter, the identification and classification can be used to control presentation and/or access to the content and/or portions of the content. For example, based on the classification, portions of the content can be modified (e.g., replaced, removed, degraded, etc.) using one or more techniques (e.g., media replacement, media removal, media degradation, etc.) and then presented.

Classes IPC  ?

  • H04N 21/454 - Filtrage de contenu, p. ex. blocage des publicités
  • G06N 3/045 - Combinaisons de réseaux
  • G06V 20/40 - ScènesÉléments spécifiques à la scène dans le contenu vidéo
  • H04N 21/44 - Traitement de flux élémentaires vidéo, p. ex. raccordement d'un clip vidéo récupéré d'un stockage local avec un flux vidéo en entrée ou rendu de scènes selon des graphes de scène du flux vidéo codé
  • H04N 21/466 - Procédé d'apprentissage pour la gestion intelligente, p. ex. apprentissage des préférences d'utilisateurs pour recommander des films

17.

QUERY-SPECIFIC TARGETED AD DELIVERY

      
Numéro d'application 18811530
Statut En instance
Date de dépôt 2024-08-21
Date de la première publication 2024-12-12
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Master, Aaron
  • Mohajer, Keyvan

Abrégé

An audio recognition system provides for delivery of promotional content to its user. A user interface device, locally or with the assistance of a network-connected server, performs recognition of audio in response to queries. Recognition can be through a method such as processing features extracted from the audio. Audio can comprise recorded music, singing or humming, instrumental music, vocal music, spoken voice, or other recognizable types of audio. Campaign managers provide promotional content for delivery in response to audio recognized in queries.

Classes IPC  ?

  • G06Q 30/0251 - Publicités ciblées
  • G06F 16/60 - Recherche d’informationsStructures de bases de données à cet effetStructures de systèmes de fichiers à cet effet de données audio
  • G06Q 30/0241 - Publicités
  • G06Q 30/0273 - Détermination des frais de publicité

18.

MACHINE LEARNING SYSTEM FOR DIGITAL ASSISTANTS

      
Numéro d'application 18780970
Statut En instance
Date de dépôt 2024-07-23
Date de la première publication 2024-11-14
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s)
  • Singh, Pranav
  • Zhang, Yilun
  • Mohajer, Keyvan
  • Fazeli, Mohammadreza

Abrégé

A machine learning system for a digital assistant is described, together with a method of training such a system. The machine learning system is based on an encoder-decoder sequence-to-sequence neural network architecture trained to map input sequence data to output sequence data, where the input sequence data relates to an initial query and the output sequence data represents canonical data representation for the query. The method of training involves generating a training dataset for the machine learning system. The method involves clustering vector representations of the query data samples to generate canonical-query original-query pairs in training the machine learning system.

Classes IPC  ?

  • G06F 16/242 - Formulation des requêtes
  • G06N 3/045 - Combinaisons de réseaux
  • G06N 3/088 - Apprentissage non supervisé, p. ex. apprentissage compétitif

19.

AUTOMATIC LEARNING OF ENTITIES, WORDS, PRONUNCIATIONS, AND PARTS OF SPEECH

      
Numéro d'application 18783423
Statut En instance
Date de dépôt 2024-07-25
Date de la première publication 2024-11-14
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s) Relin, Anton V.

Abrégé

Systems for automatic speech recognition and/or natural language understanding automatically learn new words by finding subsequences of phonemes that, if they were a new word, would enable a successful tokenization of a phoneme sequence. Systems can learn alternate pronunciations of words by finding phoneme sequences with a small edit distance to existing pronunciations. Systems can learn the part of speech of words by finding part-of-speech variations that would enable parses by syntactic grammars. Systems can learn what types of entities a word describes by finding sentences that could be parsed by a semantic grammar but for the words not being on an entity list.

Classes IPC  ?

  • G10L 15/02 - Extraction de caractéristiques pour la reconnaissance de la paroleSélection d'unités de reconnaissance
  • G10L 15/14 - Classement ou recherche de la parole utilisant des modèles statistiques, p. ex. des modèles de Markov cachés [HMM]
  • G10L 15/19 - Contexte grammatical, p. ex. désambiguïsation des hypothèses de reconnaissance par application des règles de séquence de mots

20.

SYSTEM AND METHOD FOR VOICE MORPHING IN A DATA ANNOTATOR TOOL

      
Numéro d'application 18778301
Statut En instance
Date de dépôt 2024-07-19
Date de la première publication 2024-11-07
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s) Ross, Dylan H.

Abrégé

A system and method for masking an identity of a speaker of natural language speech, such as speech clips to be labeled by humans in a system generating voice transcriptions for training an automatic speech recognition model. The natural language speech is morphed prior to being presented to the human for labeling. In one embodiment, morphing comprises pitch shifting the speech randomly either up or down, then frequency shifting the speech, then pitch shifting the speech in a direction opposite the first pitch shift. Labeling the morphed speech comprises at least one or more of transcribing the morphed speech, identifying a gender of the speaker, identifying an accent of the speaker, and identifying a noise type of the morphed speech.

Classes IPC  ?

  • G06F 40/56 - Génération de langage naturel
  • G06F 40/58 - Utilisation de traduction automatisée, p. ex. pour recherches multilingues, pour fournir aux dispositifs clients une traduction effectuée par le serveur ou pour la traduction en temps réel
  • G10L 15/06 - Création de gabarits de référenceEntraînement des systèmes de reconnaissance de la parole, p. ex. adaptation aux caractéristiques de la voix du locuteur
  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G10L 19/125 - Excitation de la hauteur tonale, p. ex. prédiction linéaire à excitation de code avec innovation synchrone de la hauteur tonale [PSI-CELP]
  • G10L 19/26 - Pré-filtrage ou post-filtrage
  • G10L 21/013 - Adaptation à la hauteur tonale ciblée

21.

SERVER SUPPORTED RECOGNITION OF WAKE PHRASES

      
Numéro d'application 18771489
Statut En instance
Date de dépôt 2024-07-12
Date de la première publication 2024-10-31
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s)
  • Jain, Newton
  • Zaheer, Sameer Syed

Abrégé

A server supports multiple virtual assistants. It receives requests that include wake phrase audio and an identification of the source of the request, such as a virtual assistant device. Based on the identification, the server searches a database for a wake phrase detector appropriate for the identified source. The server then applies the wake phrase detector to the received wake phrase audio. If the wake phrase audio triggers the wake phrase detector, the server provides an appropriate response to the source.

Classes IPC  ?

  • G10L 15/06 - Création de gabarits de référenceEntraînement des systèmes de reconnaissance de la parole, p. ex. adaptation aux caractéristiques de la voix du locuteur
  • G06F 8/41 - Compilation
  • G10L 15/08 - Classement ou recherche de la parole
  • G10L 15/16 - Classement ou recherche de la parole utilisant des réseaux neuronaux artificiels

22.

SPONSORED SEARCH RANKING SIMULATION FOR PATTERNS TRIGGERED BY NATURAL LANGUAGE QUERIES

      
Numéro d'application 18665264
Statut En instance
Date de dépôt 2024-05-15
Date de la première publication 2024-10-17
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Mont-Reynaud, Bernard
  • Mohajer, Keyvan
  • Mohajer, Kamyar
  • Wilson, Chris

Abrégé

The technology disclosed relates to natural language understanding-based search engines, ranking sponsored search results and simulated ranking of sponsored search results. Tools and methods describe how to simulate the ranking of sponsored search results. The tools further identify instances of user queries within the scope of trigger patterns, optionally providing examples both of user queries for which a sponsored search result is likely to be displayed and examples for which the sponsored search result will not rank highly enough to be displayed, at least on the first page of search results.

Classes IPC  ?

  • G06F 16/2457 - Traitement des requêtes avec adaptation aux besoins de l’utilisateur
  • G06F 16/951 - IndexationTechniques d’exploration du Web
  • G06Q 30/0251 - Publicités ciblées

23.

AUTOMATIC SYNCHRONIZATION FOR AN OFFLINE VIRTUAL ASSISTANT

      
Numéro d'application 18752481
Statut En instance
Date de dépôt 2024-06-24
Date de la première publication 2024-10-17
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s) Stahl, Karl

Abrégé

[Object] Technology is provided to enable a mobile terminal to function as a digital assistant even when the mobile terminal is in a state where it cannot communicate with a server apparatus. [Solution] When a user terminal 200 receives a query A from a user, user terminal 200 sends query A to a server 100. Server 100 interprets the meaning of query A using a grammar A. Server 100 obtains a response to query A based on the meaning of query A and sends the response to user terminal 200. Server 100 further sends grammar A to user terminal 200. That is, server 100 sends to user terminal 200 a grammar used to interpret the query received from user terminal 200.

Classes IPC  ?

  • G10L 15/19 - Contexte grammatical, p. ex. désambiguïsation des hypothèses de reconnaissance par application des règles de séquence de mots
  • G06F 16/242 - Formulation des requêtes
  • G06F 40/253 - Analyse grammaticaleCorrigé du style
  • G10L 15/07 - Adaptation au locuteur
  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G10L 15/30 - Reconnaissance distribuée, p. ex. dans les systèmes client-serveur, pour les applications en téléphonie mobile ou réseaux

24.

ENABLING NATURAL LANGUAGE INTERACTIONS WITH USER INTERFACES FOR USERS OF A SOFTWARE APPLICATION

      
Numéro d'application 18739011
Statut En instance
Date de dépôt 2024-06-10
Date de la première publication 2024-10-03
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Yabas, Utku
  • Hubert, Philipp
  • Stahl, Karl

Abrégé

A user specifies a natural language command to a device. Software on the device generates contextual metadata about the user interface of the device, such as data about all visible elements of the user interface, and sends the contextual metadata along with the natural language command to a natural language understanding engine. The natural language understanding engine parses the natural language query using a stored grammar (e.g., a grammar provided by a maker of the device) and as a result of the parsing identifies information about the command (e.g., the user interface elements referenced by the command) and provides that information to the device. The device uses that provided information to respond to the command.

Classes IPC  ?

  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G06F 40/211 - Parsage syntaxique, p. ex. basé sur une grammaire hors contexte ou sur des grammaires d’unification
  • G06F 40/284 - Analyse lexicale, p. ex. segmentation en unités ou cooccurrence
  • G10L 15/183 - Classement ou recherche de la parole utilisant une modélisation du langage naturel selon les contextes, p. ex. modèles de langage
  • G10L 15/26 - Systèmes de synthèse de texte à partir de la parole

25.

METHOD AND SYSTEM FOR CONVERSATION TRANSCRIPTION WITH METADATA

      
Numéro d'application 18743562
Statut En instance
Date de dépôt 2024-06-14
Date de la première publication 2024-10-03
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s)
  • Bradley, Kiersten L.
  • Coeytaux, Ethan
  • Yin, Ziming

Abrégé

Methods and systems for enabling an efficient review of meeting content via a metadata-enriched, speaker-attributed transcript are disclosed. By incorporating speaker diarization and other metadata, the system can provide a structured and effective way to review and/or edit the transcript. One type of metadata can be image or video data to represent the meeting content. Furthermore, the present subject matter utilizes a multimodal diarization model to identify and label different speakers. The system can synchronize various sources of data, e.g., audio channel data, voice feature vectors, acoustic beamforming, image identification, and extrinsic data, to implement speaker diarization.

Classes IPC  ?

  • G10L 15/26 - Systèmes de synthèse de texte à partir de la parole
  • G06F 40/134 - Création de liens hypertexte
  • G06F 40/166 - Édition, p. ex. insertion ou suppression
  • G06F 40/284 - Analyse lexicale, p. ex. segmentation en unités ou cooccurrence
  • G10L 15/02 - Extraction de caractéristiques pour la reconnaissance de la paroleSélection d'unités de reconnaissance
  • G10L 15/06 - Création de gabarits de référenceEntraînement des systèmes de reconnaissance de la parole, p. ex. adaptation aux caractéristiques de la voix du locuteur
  • G10L 15/07 - Adaptation au locuteur

26.

Dynamic service level assignment system for data processing manager

      
Numéro d'application 18637771
Numéro de brevet 12315513
Statut Délivré - en vigueur
Date de dépôt 2024-04-17
Date de la première publication 2024-09-05
Date d'octroi 2025-05-27
Propriétaire SOUNDHOUND AI IP, LLC (USA)
Inventeur(s)
  • Stonehocker, Tim
  • Gowayyed, Zizo
  • Emami, Seyed Majid
  • Eichstaedt, Matthias
  • Jiang, Evelyn
  • Berryhill, Ryan
  • Ramona, Mathieu
  • Veira, Neil

Abrégé

A data processing system includes a queue manager receiving data processing requests and determining a queue depth representing the number of pending requests. A load supervisor assigns a service level to each request based on the queue depth when the request is at the head of the queue. The system offers two service levels, with the second level requiring fewer computing resources than the first. This dynamic management system optimizes resource allocation by adjusting service levels based on the workload, ensuring efficient processing of data requests.

Classes IPC  ?

  • G10L 15/30 - Reconnaissance distribuée, p. ex. dans les systèmes client-serveur, pour les applications en téléphonie mobile ou réseaux
  • G10L 15/16 - Classement ou recherche de la parole utilisant des réseaux neuronaux artificiels
  • G10L 15/26 - Systèmes de synthèse de texte à partir de la parole

27.

METHOD FOR PROVIDING INFORMATION, METHOD FOR GENERATING DATABASE, AND PROGRAM

      
Numéro d'application 18662973
Statut En instance
Date de dépôt 2024-05-13
Date de la première publication 2024-09-05
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s)
  • Naito, Masaki
  • Tsuchida, Keisuke
  • Yoneyama, Jun
  • Sawada, Kaku

Abrégé

As audio (1) is input to an extension of a browser, the extension transmits the audio (1) to a language processing server. A speech recognition unit obtains a text (1) corresponding to the audio (1), and transmits the text (1) to a natural language understanding unit. In the natural language understanding unit, an information processing unit identifies a URL (1) corresponding to the text (1), and transmits the URL (1) to the browser. The extension passes the URL (1) to a browsing function. The browsing function uses the URL (1) to access a web server. The web server transmits a web page (1) corresponding to the URL (1) to the browser. The browsing function shows a screen corresponding to the web page (1) on a display.

Classes IPC  ?

  • G06F 16/955 - Recherche dans le Web utilisant des identifiants d’information, p. ex. des localisateurs uniformisés de ressources [uniform resource locators - URL]
  • G06F 16/33 - Requêtes
  • G06F 40/40 - Traitement ou traduction du langage naturel
  • G10L 15/26 - Systèmes de synthèse de texte à partir de la parole

28.

Multi-modal audio processing

      
Numéro d'application 18642492
Numéro de brevet 12273679
Statut Délivré - en vigueur
Date de dépôt 2024-04-22
Date de la première publication 2024-08-15
Date d'octroi 2025-04-08
Propriétaire SOUNDHOUND AI IP, LLC (USA)
Inventeur(s) Stahl, Karl

Abrégé

A method for processing an audio signal involves receiving sound waves at a microphone, converting them into a first audio signal, and extracting a second audio signal from an electromagnetic signal received at a receiver. The first audio signal is correlated with the second audio signal to calculate a correlation value. If the correlation value exceeds a threshold, the first audio signal is processed using the second audio signal to reduce unwanted sound contributions, resulting in a processed audio signal. Further processing is then performed on the processed audio signal to determine a characteristic of the desired sound.

Classes IPC  ?

  • H04R 25/00 - Appareils pour sourds
  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G10L 21/0316 - Amélioration de l'intelligibilité de la parole, p. ex. réduction de bruit ou annulation d'écho en changeant l’amplitude
  • G10L 25/06 - Techniques d'analyse de la parole ou de la voix qui ne se limitent pas à un seul des groupes caractérisées par le type de paramètres extraits les paramètres extraits étant des coefficients de corrélation
  • G10L 25/51 - Techniques d'analyse de la parole ou de la voix qui ne se limitent pas à un seul des groupes spécialement adaptées pour un usage particulier pour comparaison ou différentiation
  • H04R 1/08 - EmbouchuresLeurs fixations
  • H04R 1/10 - ÉcouteursLeurs fixations
  • H04R 5/033 - Casques pour communication stéréophonique

29.

SEMANTICALLY CONDITIONED VOICE ACTIVITY DETECTION

      
Numéro d'application 18047650
Statut En instance
Date de dépôt 2022-10-19
Date de la première publication 2024-07-11
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s) Leitman, Victor

Abrégé

A method includes recognizing words comprised by a first utterance; interpreting the recognized words according to a grammar comprised by a domain; from the interpreting of the recognized words, determining a timeout period for the first utterance based on the domain of the first utterance; detecting end of voice activity in the first utterance; executing an instruction following an amount of time after detecting end of voice activity of the first utterance in response to the amount of time exceeding the timeout period, the executed instruction based at least in part on interpreting the recognized words.

Classes IPC  ?

  • G10L 15/197 - Grammaires probabilistes, p. ex. n-grammes de mots
  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G10L 25/78 - Détection de la présence ou de l’absence de signaux de voix

30.

MULTI-PARTICIPANT VOICE ORDERING

      
Numéro d'application 18391886
Statut En instance
Date de dépôt 2023-12-21
Date de la première publication 2024-06-27
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Macrae, Robert
  • Grossman, Jon
  • Halstvedt, Scott

Abrégé

A voice interface recognizes spoken utterances from multiple users. It responds to the utterances in ways such as modifying the attributes of instances of items. The voice interface computes a voice vector for each utterance and associates it with the item instance that is modified. For following utterances with a closely matching voice vector, the voice interface modifies the same instance. For following utterances with a voice vector that is not a close match to one stored for any item instance, the voice interface modifies a different item instance.

Classes IPC  ?

  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G06F 3/16 - Entrée acoustiqueSortie acoustique
  • G06Q 50/12 - Hôtellerie ou restauration
  • G10L 15/02 - Extraction de caractéristiques pour la reconnaissance de la paroleSélection d'unités de reconnaissance

31.

MULTI-PARTICIPANT VOICE ORDERING

      
Numéro d'application US2023085627
Numéro de publication 2024/138102
Statut Délivré - en vigueur
Date de dépôt 2023-12-22
Date de publication 2024-06-27
Propriétaire SOUNDHOUND AI IP, LLC (USA)
Inventeur(s)
  • Macrae, Robert
  • Grossman, Jon
  • Halstvedt, Scott

Abrégé

A voice interface recognizes spoken utterances from multiple users. It responds to the utterances in ways such as modifying the attributes of instances of items. The voice interface computes a voice vector for each utterance and associates it with the item instance that is modified. For following utterances with a closely matching voice vector, the voice interface modifies the same instance. For following utterances with a voice vector that is not a close match to one stored for any item instance, the voice interface modifies a different item instance.

Classes IPC  ?

  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G06F 3/16 - Entrée acoustiqueSortie acoustique
  • G06Q 30/0601 - Commerce électronique [e-commerce]
  • G10L 17/00 - Techniques d'identification ou de vérification du locuteur

32.

Sponsored search ranking simulation for patterns triggered by natural language queries

      
Numéro d'application 16728389
Numéro de brevet 12013862
Statut Délivré - en vigueur
Date de dépôt 2019-12-27
Date de la première publication 2024-06-18
Date d'octroi 2024-06-18
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Mont-Reynaud, Bernard
  • Mohajer, Keyvan
  • Mohajer, Kamyar
  • Wilson, Chris

Abrégé

The technology disclosed relates to natural language understanding-based search engines, ranking sponsored search results and simulated ranking of sponsored search results. Tools and methods describe how to simulate the ranking of sponsored search results. The tools further identify instances of user queries within the scope of trigger patterns, optionally providing examples both of user queries for which a sponsored search result is likely to be displayed and examples for which the sponsored search result will not rank highly enough to be displayed, at least on the first page of search results.

Classes IPC  ?

  • G06F 16/2457 - Traitement des requêtes avec adaptation aux besoins de l’utilisateur
  • G06F 16/951 - IndexationTechniques d’exploration du Web
  • G06Q 30/0251 - Publicités ciblées

33.

SYSTEM AND METHOD FOR ADAPTED INTERACTIVE EXPERIENCES

      
Numéro d'application 18440935
Statut En instance
Date de dépôt 2024-02-13
Date de la première publication 2024-06-06
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Mckenzie, Joel
  • Zhang, Qindi

Abrégé

Natural language grammars interpret expressions at the conversational human-machine interfaces of devices. Under conditions favoring engagement, as specified in a unit of conversational code, the device initiates a discussion using one or more of TTS, images, video, audio, and animation depending on the device capabilities of screen and audio output. Conversational code units specify conditions based on conversation state, mood, and privacy. Grammars provide intents that cause calls to system functions. Units can provide scripts for guiding the conversation. The device, or supporting server system, can provide feedback to creators of the conversational code units for analysis and machine learning.

Classes IPC  ?

  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G06Q 30/0251 - Publicités ciblées
  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G10L 15/19 - Contexte grammatical, p. ex. désambiguïsation des hypothèses de reconnaissance par application des règles de séquence de mots

34.

REAL-TIME NATURAL LANGUAGE PROCESSING AND FULFILLMENT

      
Numéro d'application US2023079577
Numéro de publication 2024/107682
Statut Délivré - en vigueur
Date de dépôt 2023-11-14
Date de publication 2024-05-23
Propriétaire SOUNDHOUND AI IP, LLC (USA)
Inventeur(s)
  • Grossmann, Jon
  • Macrae, Robert
  • Halstvedt, Scott
  • Mohajer, Keyvan

Abrégé

A system and method of real-time feedback confirmation to solicit a virtual assistant response from an evolving semantic state of at least a portion of an utterance. A user accesses a virtual assistant on an electronic device having the system and/or method configured to capture a command, a question, and/or a fulfillment request from audio such as, the speech emitted from the speaking user. The speech may be intercepted by a speech engine configured to transcribe the speech into text that is matched with the fragment pattern's regular expression to generate a fragment and/or the speech may be processed with a machine learning model to identify fragments. The fragments are identified by a domain handler configured to update a data structure of the current semantic state of the utterance in real-time on an interface of an electronic device.

Classes IPC  ?

  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine

35.

Real-time natural language processing and fulfillment

      
Numéro d'application 18055821
Numéro de brevet 12367870
Statut Délivré - en vigueur
Date de dépôt 2022-11-15
Date de la première publication 2024-05-16
Date d'octroi 2025-07-22
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Grossmann, Jon
  • Macrae, Robert
  • Halstvedt, Scott
  • Mohajer, Keyvan

Abrégé

A system and method of real-time feedback confirmation to solicit a virtual assistant response from an evolving semantic state of at least a portion of an utterance. A user accesses a virtual assistant on an electronic device having the system and/or method configured to capture a command, a question, and/or a fulfillment request from audio such as, the speech emitted from the speaking user. The speech may be intercepted by a speech engine configured to transcribe the speech into text that is matched with the fragment pattern's regular expression to generate a fragment and/or the speech may be processed with a machine learning model to identify fragments. The fragments are identified by a domain handler configured to update a data structure of the current semantic state of the utterance in real-time on an interface of an electronic device.

Classes IPC  ?

  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G06F 3/16 - Entrée acoustiqueSortie acoustique
  • G06F 40/30 - Analyse sémantique
  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine

36.

Domain specific neural sentence generator for multi-domain virtual assistants

      
Numéro d'application 18050182
Numéro de brevet 12394411
Statut Délivré - en vigueur
Date de dépôt 2022-10-27
Date de la première publication 2024-05-02
Date d'octroi 2025-08-19
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s)
  • Singh, Pranav
  • Zhang, Yilun
  • Na, Eunjee
  • Bettaglio, Olivia

Abrégé

Automatically generating sentences that a user can say to invoke a set of defined actions performed by a virtual assistant are disclosed. A sentence is received and keywords are extracted from the sentence. Based on the keywords, additional sentences are generated. A classifier model is applied to the generated sentences to determine a sentence that satisfies a threshold. In the situation a sentence satisfies the threshold, an intent associated with the classifier model can be invoked. In the situation the sentences fail to satisfy the classifier model, the virtual assistant can attempt to interpret the received sentence according to the most likely intent by invoking a sentence generation model fine-tuned for a particular domain, generate additional sentences with a high probability of having the same intent and fulfill the specific action defined by the intent.

Classes IPC  ?

  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G10L 15/06 - Création de gabarits de référenceEntraînement des systèmes de reconnaissance de la parole, p. ex. adaptation aux caractéristiques de la voix du locuteur
  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine

37.

TEXT-TO-SPEECH SYSTEM WITH VARIABLE FRAME RATE

      
Numéro d'application 18051507
Statut En instance
Date de dépôt 2022-10-31
Date de la première publication 2024-05-02
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s)
  • Pearson, Steve
  • Grossman, Jon

Abrégé

A neural TTS system is trained to generate key acoustic frames at variable rates while omitting other frames. The frame skipping depends on the acoustic features to be generated for the input text. The TTS system can interpolate frames between the key frames at a target rate for a vocoder to synthesis audio samples.

Classes IPC  ?

  • G10L 13/047 - Architecture des synthétiseurs de parole
  • G10L 13/06 - Unités élémentaires de parole utilisées dans les synthétiseurs de paroleRègles de concaténation

38.

Adapting an utterance cut-off period with user specific profile data

      
Numéro d'application 18401770
Numéro de brevet 12380889
Statut Délivré - en vigueur
Date de dépôt 2024-01-02
Date de la première publication 2024-04-25
Date d'octroi 2025-08-05
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Aguayo, Patricia Pozon
  • Zhang, Jennifer Hee Young
  • Probell, Jonah

Abrégé

A system detects a period of non-voice activity and compares its duration to a cutoff period. The system adapts the cutoff period based on parsing previously-recognized speech of a user that is stored on a user's device or the system, which detects the voice activity, to determine according to a model, such as a machine-learned model, the probability that the speech recognized so far is a prefix to a longer complete utterance. The cutoff period is longer when a parse of previously recognized speech, which is based on the user profile, has a high probability of being a prefix of a longer utterance.

Classes IPC  ?

  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G10L 15/05 - Détection des limites de mots
  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G10L 25/78 - Détection de la présence ou de l’absence de signaux de voix
  • G10L 15/08 - Classement ou recherche de la parole
  • G10L 15/19 - Contexte grammatical, p. ex. désambiguïsation des hypothèses de reconnaissance par application des règles de séquence de mots
  • G10L 15/30 - Reconnaissance distribuée, p. ex. dans les systèmes client-serveur, pour les applications en téléphonie mobile ou réseaux

39.

Automatic Speech Recognition with Voice Personalization and Generalization

      
Numéro d'application 18046137
Statut En instance
Date de dépôt 2022-10-12
Date de la première publication 2024-04-18
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s) Mohajer, Keyvan

Abrégé

A voice morphing model can transform diverse voices to one or a small number of target voices. An acoustic model can be trained for high accuracy on the target voices. Speech recognition on diverse voices can be performed by morphing it to a target voice and then performing recognition on audio with the target voice. The morphing model and an acoustic model for speech recognition can be trained separately or jointly. A voice morphing model can transform diverse voices to one or a small number of target voices. An acoustic model can be trained for high accuracy on the target voices. Speech recognition on diverse voices can be performed by morphing it to a target voice and then performing recognition on audio with the target voice. The morphing model and an acoustic model for speech recognition can be trained separately or jointly. A source of requests for speech recognition can pass audio and a voiceprint with requests. Speech recognition can run with improved accuracy by biasing an acoustic model for the voice in the audio using the voiceprint. The audio can be used to calculate a new voiceprint, which can be used to update the voiceprint included with the audio. The updated voiceprint can be sent back to the source and then used with future speech recognition requests.

Classes IPC  ?

  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G10L 15/06 - Création de gabarits de référenceEntraînement des systèmes de reconnaissance de la parole, p. ex. adaptation aux caractéristiques de la voix du locuteur

40.

MESSAGE PROCESSING METHOD, INFORMATION PROCESSING APPARATUS, AND PROGRAM

      
Numéro d'application 18456219
Statut En instance
Date de dépôt 2023-08-25
Date de la première publication 2024-02-29
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s)
  • Matsuda, Yuki
  • Tsuchida, Keisuke

Abrégé

[Object] To provide a technique for more accurate interpretation of a message inputted by a user. [Object] To provide a technique for more accurate interpretation of a message inputted by a user. [Solving Means] An information processing server 300 obtains a first message from a user in a thread 001, has a context of the first message stored in a context database 500 in association with the thread 001, obtains a second message from the user in the thread 001, and provides the second message to a conversation server 400 together with the context of the first message.

Classes IPC  ?

  • H04L 51/04 - Messagerie en temps réel ou quasi en temps réel, p. ex. messagerie instantanée [IM]
  • H04L 51/02 - Messagerie d'utilisateur à utilisateur dans des réseaux à commutation de paquets, transmise selon des protocoles de stockage et de retransmission ou en temps réel, p. ex. courriel en utilisant des réactions automatiques ou la délégation par l’utilisateur, p. ex. des réponses automatiques ou des messages générés par un agent conversationnel
  • H04L 51/216 - Gestion de l'historique des conversations, p. ex. regroupement de messages dans des sessions ou des fils de conversation

41.

VIRTUAL ASSISTANT DOMAIN FUNCTIONALITY

      
Numéro d'application 18493522
Statut En instance
Date de dépôt 2023-10-24
Date de la première publication 2024-02-15
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Mohajer, Kamyar
  • Mohajer, Keyvan
  • Mont-Reynaud, Bernard
  • Singh, Pranav

Abrégé

Aspects include methods, systems, and computer-program products providing virtual assistant domain functionality. A natural language query including one or more words is received. A collection of natural language modules is accessed. The collection natural language modules are configured to process sets of natural language queries. A natural language module, from the collection of natural language modules, is identified to interpret the natural language query. An interpretation of the natural language query is computed using the identified natural language module. A response to the natural language query is returned using the computed interpretation.

Classes IPC  ?

  • G06F 40/40 - Traitement ou traduction du langage naturel
  • G10L 15/30 - Reconnaissance distribuée, p. ex. dans les systèmes client-serveur, pour les applications en téléphonie mobile ou réseaux
  • G06Q 30/0283 - Estimation ou détermination de prix
  • G06Q 20/10 - Architectures de paiement spécialement adaptées aux systèmes de transfert électronique de fondsArchitectures de paiement spécialement adaptées aux systèmes de banque à domicile

42.

Authorization of Action by Voice Identification

      
Numéro d'application 17818628
Statut En instance
Date de dépôt 2022-08-09
Date de la première publication 2024-02-15
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s)
  • Hassan, Ahmadul
  • Hom, James

Abrégé

Actions are authorized by computing a confidence score that exceeds a threshold. The confidence score is based on a match between metadata about requests and fields in corresponding database records. The confidences score weights matches by the dependability of the metadata for authentication. The confidence score is further based on the closeness of a sample of speech audio to a stored voiceprint. Additional identification may be required for authorization. The confidence score requirement may be relaxed based on identification in a buffer of recent action requests.

Classes IPC  ?

  • G06F 21/32 - Authentification de l’utilisateur par données biométriques, p. ex. empreintes digitales, balayages de l’iris ou empreintes vocales
  • G10L 17/12 - Normalisation du score
  • G06F 3/16 - Entrée acoustiqueSortie acoustique

43.

Using semantic grammar extensibility for collective artificial intelligence

      
Numéro d'application 18381593
Numéro de brevet 12417354
Statut Délivré - en vigueur
Date de dépôt 2023-10-18
Date de la première publication 2024-02-08
Date d'octroi 2025-09-16
Propriétaire SOUNDHOUND AI IP, LLC (USA)
Inventeur(s)
  • Mont-Reynaud, Bernard
  • Wilson, Christopher S.
  • Mohajer, Keyvan

Abrégé

Support for natural language expressions is provided by the use of semantic grammars that describe the structure of expressions in that grammar and that construct the meaning of a corresponding natural language expression. A semantic grammar extension mechanism is provided, which allows one semantic grammar to be used in the place of another semantic grammar. This enriches the expressivity of semantic grammars in a simple, natural, and decoupled manner.

Classes IPC  ?

44.

Meaning inference from speech audio

      
Numéro d'application 18474853
Numéro de brevet 12300219
Statut Délivré - en vigueur
Date de dépôt 2023-09-26
Date de la première publication 2024-02-08
Date d'octroi 2025-05-13
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Krishnaswamy, Sudharsan
  • Wieman, Maisy
  • Probell, Jonah

Abrégé

A system and method invoke virtual assistant action, which may comprise an argument. From audio, a probability of an intent is inferred. A probability of a domain and a plurality of variable values may also be inferred. Invoking the action is in response to the intent probability exceeding a threshold. Invoking the action may also be in response to the domain probability exceeding a threshold, a variable value probability exceeding a threshold, detecting an end of utterance, and a specific amount of time having elapsed. The intent probability may increase when the audio includes speech of words with the same meaning in multiple natural languages. Invoking the action may also be conditional on the variable value exceeding its threshold within a certain period of time of the intent probability exceeding its threshold.

Classes IPC  ?

  • G10L 15/06 - Création de gabarits de référenceEntraînement des systèmes de reconnaissance de la parole, p. ex. adaptation aux caractéristiques de la voix du locuteur
  • G10L 13/02 - Procédés d'élaboration de parole synthétiqueSynthétiseurs de parole
  • G10L 15/16 - Classement ou recherche de la parole utilisant des réseaux neuronaux artificiels
  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G10L 15/187 - Contexte phonémique, p. ex. règles de prononciation, contraintes phonotactiques ou n-grammes de phonèmes
  • G10L 15/197 - Grammaires probabilistes, p. ex. n-grammes de mots
  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine

45.

TRAINING A DEVICE SPECIFIC ACOUSTIC MODEL

      
Numéro d'application 18379618
Statut En instance
Date de dépôt 2023-10-12
Date de la première publication 2024-02-01
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Mohajer, Keyvan
  • Patel, Mehul

Abrégé

Custom acoustic models can be configured by developers by providing audio files with custom recordings. The custom acoustic model is trained by tuning a baseline model using the audio files. Audio files may contain custom noise to apply to clean speech for training. The custom acoustic model is provided as an alternative to a standard acoustic model. A speech recognition system can select an acoustic model for use upon receiving metadata about the device conditions or type. Speech recognition is performed on speech audio using one or more acoustic models. The result can be provided to developers through the user interface, and an error rate can be computed and also provided.

Classes IPC  ?

  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G06F 3/16 - Entrée acoustiqueSortie acoustique
  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel

46.

Building a natural language understanding application using a received electronic record containing programming code including an interpret-block, an interpret-statement, a pattern expression and an action statement

      
Numéro d'application 18375906
Numéro de brevet 12322381
Statut Délivré - en vigueur
Date de dépôt 2023-10-02
Date de la première publication 2024-01-25
Date d'octroi 2025-06-03
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Mont-Reynaud, Bernard
  • Emami, Seyed M.
  • Wilson, Chris
  • Mohajer, Keyvan

Abrégé

A method of building a natural language understanding application is provided. The method includes receiving at least one electronic record containing programming code and creating executable code from the programming code. Further, the executable code, when executed by a processor, causes the processor to create a parse and an interpretation of a sequence of input tokens, the programming code includes an interpret-block and the interpret-block includes an interpret-statement. Additionally, the interpret-statement includes a pattern expression and the interpret-statement includes an action statement.

Classes IPC  ?

  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G06F 8/30 - Création ou génération de code source
  • G06F 40/205 - Analyse syntaxique
  • G10L 15/06 - Création de gabarits de référenceEntraînement des systèmes de reconnaissance de la parole, p. ex. adaptation aux caractéristiques de la voix du locuteur
  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • H04M 3/493 - Services d'information interactifs, p. ex. renseignements sur l'annuaire téléphonique

47.

NEURAL SPEECH-TO-MEANING

      
Numéro d'application 18461212
Statut En instance
Date de dépôt 2023-09-05
Date de la première publication 2023-12-28
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Krishnaswamy, Sudharsan
  • Wieman, Maisy
  • Probell, Jonah

Abrégé

A neural speech-to-meaning system is trained on speech audio expressing specific intents. The system receives speech audio and produces indications of when the speech in the audio matches the intent. Intents may include variables that can have a large range of values, such as the names of places. The neural speech-to-meaning system simultaneously recognizes enumerated values of variables and general intents. Recognized variable values can serve as arguments to API requests made in response to recognized intents. Accordingly, neural speech-to-meaning supports voice virtual assistants that serve users based on API hits.

Classes IPC  ?

  • G10L 15/26 - Systèmes de synthèse de texte à partir de la parole
  • G06F 3/16 - Entrée acoustiqueSortie acoustique
  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G10L 15/183 - Classement ou recherche de la parole utilisant une modélisation du langage naturel selon les contextes, p. ex. modèles de langage
  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G10L 15/30 - Reconnaissance distribuée, p. ex. dans les systèmes client-serveur, pour les applications en téléphonie mobile ou réseaux

48.

Pre-wakeword speech processing with reverse automatic speech recognition

      
Numéro d'application 17804544
Numéro de brevet 12424215
Statut Délivré - en vigueur
Date de dépôt 2022-05-27
Date de la première publication 2023-11-30
Date d'octroi 2025-09-23
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s)
  • Stahl, Karl
  • Mont-Reynaud, Bernard

Abrégé

Methods and systems for pre-wakeword speech processing are disclosed. Speech audio, comprising command speech spoken before a wakeword, may be stored in a buffer in oldest to newest order. Upon detection of the wakeword, reverse acoustic models and language models, such as reverse automatic speech recognition (R-ASR) can be applied to the buffered audio, in newest to oldest order, starting from before the wakeword. The speech is converted into a sequence of words. Natural language grammar models, such as natural language understanding (NLU), can be applied to match the sequence of words to a complete command, the complete command being associated with invoking a computer operation.

Classes IPC  ?

  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G10L 15/05 - Détection des limites de mots
  • G10L 15/08 - Classement ou recherche de la parole
  • G10L 25/93 - Différenciation entre parties voisées et non voisées des signaux de la parole

49.

APPARATUS, PLATFORM, METHOD AND MEDIUM FOR INTENTION IMPORTANCE INFERENCE

      
Numéro d'application 17820660
Statut En instance
Date de dépôt 2022-08-18
Date de la première publication 2023-11-30
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s) Wang, Chong

Abrégé

The application provides an apparatus, platform, method and medium for intention importance interference. The apparatus includes an interface configured to receive user-related information; and a processor coupled to the interface and configured to: extract data related to different aspects of a user from the user-related information; generate a plurality of intention probes based on the data related to different aspects of the user, each intention probe comprising an intention and associated data items; infer an importance of each intention probe by calculating a score of each associated data items of the intention probe based on the data related to different aspects of the user; and provide information associated with an intention probe with a highest importance.

Classes IPC  ?

  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G10L 15/16 - Classement ou recherche de la parole utilisant des réseaux neuronaux artificiels
  • G06F 16/9535 - Adaptation de la recherche basée sur les profils des utilisateurs et la personnalisation

50.

Using semantic grammar extensibility for collective artificial intelligence

      
Numéro d'application 17377375
Numéro de brevet 11829724
Statut Délivré - en vigueur
Date de dépôt 2021-07-16
Date de la première publication 2023-11-28
Date d'octroi 2023-11-28
Propriétaire SOUNDHOUND AI IP, LLC (USA)
Inventeur(s)
  • Mont-Reynaud, Bernard
  • Wilson, Christopher S.
  • Mohajer, Keyvan

Abrégé

Support for natural language expressions is provided by the use of semantic grammars that describe the structure of expressions in that grammar and that construct the meaning of a corresponding natural language expression. A semantic grammar extension mechanism is provided, which allows one semantic grammar to be used in the place of another semantic grammar. This enriches the expressivity of semantic grammars in a simple, natural, and decoupled manner.

Classes IPC  ?

51.

Content filtering in media playing devices

      
Numéro d'application 18348249
Numéro de brevet 12126868
Statut Délivré - en vigueur
Date de dépôt 2023-07-06
Date de la première publication 2023-11-02
Date d'octroi 2024-10-22
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s)
  • Khov, Thor S.
  • Kong, Terry

Abrégé

Various approaches relate to user defined content filtering in media playing devices of undesirable content represented in stored and real-time content from content providers. For example, video, image, and/or audio data can be analyzed to identify and classify content included in the data using various classification models and object and text recognition approaches. Thereafter, the identification and classification can be used to control presentation and/or access to the content and/or portions of the content. For example, based on the classification, portions of the content can be modified (e.g., replaced, removed, degraded, etc.) using one or more techniques (e.g., media replacement, media removal, media degradation, etc.) and then presented.

Classes IPC  ?

  • H04N 21/454 - Filtrage de contenu, p. ex. blocage des publicités
  • G06N 3/045 - Combinaisons de réseaux
  • G06V 20/40 - ScènesÉléments spécifiques à la scène dans le contenu vidéo
  • H04N 21/44 - Traitement de flux élémentaires vidéo, p. ex. raccordement d'un clip vidéo récupéré d'un stockage local avec un flux vidéo en entrée ou rendu de scènes selon des graphes de scène du flux vidéo codé
  • H04N 21/466 - Procédé d'apprentissage pour la gestion intelligente, p. ex. apprentissage des préférences d'utilisateurs pour recommander des films

52.

Method and system for acoustic model conditioning on non-phoneme information features

      
Numéro d'application 18348259
Numéro de brevet 12154546
Statut Délivré - en vigueur
Date de dépôt 2023-07-06
Date de la première publication 2023-11-02
Date d'octroi 2024-11-26
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s)
  • Gowayyed, Zizu
  • Mohajer, Keyvan

Abrégé

A method and system for acoustic model conditioning on non-phoneme information features for optimized automatic speech recognition is provided. The method includes using an encoder model to encode sound embedding from a known key phrase of speech and conditioning an acoustic model with the sound embedding to optimize its performance in inferring the probabilities of phonemes in the speech. The sound embedding can comprise non-phoneme information related to the key phrase and the following utterance. Further, the encoder model and the acoustic model can be neural networks that are jointly trained with audio data.

Classes IPC  ?

  • G10L 15/00 - Reconnaissance de la parole
  • G10L 15/02 - Extraction de caractéristiques pour la reconnaissance de la paroleSélection d'unités de reconnaissance
  • G10L 15/04 - SegmentationDétection des limites de mots
  • G10L 15/16 - Classement ou recherche de la parole utilisant des réseaux neuronaux artificiels
  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G10L 15/08 - Classement ou recherche de la parole
  • G10L 25/30 - Techniques d'analyse de la parole ou de la voix qui ne se limitent pas à un seul des groupes caractérisées par la technique d’analyse utilisant des réseaux neuronaux

53.

SYSTEMS AND METHODS FOR GENERATING AND USING SHARED NATURAL LANGUAGE LIBRARIES

      
Numéro d'application 18206567
Statut En instance
Date de dépôt 2023-06-06
Date de la première publication 2023-10-12
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s) Mohajer, Keyvan

Abrégé

Systems and methods for searching databases by sound data input are provided herein. A service provider may have a need to make their database(s) searchable through search technology. However, the service provider may not have the resources to implement such search technology. The search technology may allow for search queries using sound data input. The technology described herein provides a solution addressing the service provider’s need, by giving a search technology that furnishes search results in a fast, accurate manner. In further embodiments, systems and methods to monetize those search results are also described herein.

Classes IPC  ?

  • G06F 16/33 - Requêtes
  • G10L 15/06 - Création de gabarits de référenceEntraînement des systèmes de reconnaissance de la parole, p. ex. adaptation aux caractéristiques de la voix du locuteur
  • G10L 15/183 - Classement ou recherche de la parole utilisant une modélisation du langage naturel selon les contextes, p. ex. modèles de langage
  • G06F 16/174 - Élimination de redondances par le système de fichiers

54.

SYSTEM AND METHOD FOR VOICE UNIDENTIFIABLE MORPHING

      
Numéro d'application 17694703
Statut En instance
Date de dépôt 2022-03-15
Date de la première publication 2023-09-21
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s)
  • Yin, Ziming
  • Li, Zili

Abrégé

A system and a method are disclosed for a machine learned audio morpher that is trained such that the voice characteristics of a user spoken phrase are replaced with those of a target speaker, which removes and/or reduces the user identifiable information for the spoken phrase. Training can be performed by a user and a target speaker speaking the same or similar phrases and training the audio morpher to minimize the differences between the target speaker phrase and a morphed user phrase.

Classes IPC  ?

  • G10L 21/013 - Adaptation à la hauteur tonale ciblée
  • G10L 21/10 - Transformation en information visible
  • G10L 17/00 - Techniques d'identification ou de vérification du locuteur
  • G06N 20/00 - Apprentissage automatique

55.

Ordering from a menu using natural language

      
Numéro d'application 17716482
Numéro de brevet 12124804
Statut Délivré - en vigueur
Date de dépôt 2022-04-08
Date de la première publication 2023-09-14
Date d'octroi 2024-10-22
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s)
  • Aung, Joe Kyaw Soe
  • Garcia, Vincent
  • Ren, Junru

Abrégé

A computer system ingests a catalog of a plurality of items. The catalog is specific to a particular domain and including names for individual items of the plurality of items. One or more attributes are respectively associated to the individual items of the plurality of items. A specialist grammar specific to the particular domain of the catalog is obtained and a programming language code to interpret natural language input related to the catalog is generated using the specialist grammar, and the names for the individual items of the plurality of items and their associated one or more attributes.

Classes IPC  ?

  • G06F 17/00 - Équipement ou méthodes de traitement de données ou de calcul numérique, spécialement adaptés à des fonctions spécifiques
  • G06F 40/295 - Reconnaissance de noms propres
  • G06F 40/40 - Traitement ou traduction du langage naturel
  • G06N 5/022 - Ingénierie de la connaissanceAcquisition de la connaissance
  • G10L 15/26 - Systèmes de synthèse de texte à partir de la parole

56.

Multi-modal audio processing for voice-controlled devices

      
Numéro d'application 18194885
Numéro de brevet 11997448
Statut Délivré - en vigueur
Date de dépôt 2023-04-03
Date de la première publication 2023-08-10
Date d'octroi 2024-05-28
Propriétaire SOUNDHOUND AI IP, LLC (USA)
Inventeur(s) Stahl, Karl

Abrégé

A voice-controlled device includes a microphone to receive a set of sound waves that includes speech uttered by a user and other sound, and to output a first audio signal that includes a contribution from the speech uttered by the user and a contribution from the other sound. The device also includes a receiver to receive an electromagnetic signal and to output a second audio signal obtained from the electromagnetic signal. An audio pre-processor of the device processes the first audio signal using the second audio signal to reduce the contribution from the other sound in a processed audio signal. The voice-controlled device then provides the processed audio signal to a speech recognition module to determine a voice command issued by the user.

Classes IPC  ?

  • H04R 25/00 - Appareils pour sourds
  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G10L 21/0316 - Amélioration de l'intelligibilité de la parole, p. ex. réduction de bruit ou annulation d'écho en changeant l’amplitude
  • G10L 25/06 - Techniques d'analyse de la parole ou de la voix qui ne se limitent pas à un seul des groupes caractérisées par le type de paramètres extraits les paramètres extraits étant des coefficients de corrélation
  • G10L 25/51 - Techniques d'analyse de la parole ou de la voix qui ne se limitent pas à un seul des groupes spécialement adaptées pour un usage particulier pour comparaison ou différentiation
  • H04R 1/08 - EmbouchuresLeurs fixations
  • H04R 1/10 - ÉcouteursLeurs fixations
  • H04R 5/033 - Casques pour communication stéréophonique

57.

Token confidence scores for automatic speech recognition

      
Numéro d'application 17649810
Numéro de brevet 12223948
Statut Délivré - en vigueur
Date de dépôt 2022-02-03
Date de la première publication 2023-08-03
Date d'octroi 2025-02-11
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s)
  • Singh, Pranav
  • Mishra, Saraswati
  • Na, Eunjee

Abrégé

Methods and systems for correction of a likely erroneous word in a speech transcription are disclosed. By evaluating token confidence scores of individual words or phrases, the automatic speech recognition system can replace a low-confidence score word with a substitute word or phrase. Among various approaches, neural network models can be used to generate individual confidence scores. Such word substitution can enable the speech recognition system to automatically detect and correct likely errors in transcription. Furthermore, the system can indicate the token confidence scores on a graphic user interface for labeling and dictionary enhancement.

Classes IPC  ?

  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G10L 15/02 - Extraction de caractéristiques pour la reconnaissance de la paroleSélection d'unités de reconnaissance
  • G10L 15/26 - Systèmes de synthèse de texte à partir de la parole

58.

VIDEO CONFERENCE CAPTIONING

      
Numéro d'application 18298282
Statut En instance
Date de dépôt 2023-04-10
Date de la première publication 2023-08-03
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s) Coeytaux, Ethan

Abrégé

A video conferencing system, such as one implemented with a cloud server, receives audio streams from a plurality of endpoints. The system uses automatic speech recognition to transcribe speech in the audio streams. The system multiplexes the transcriptions into individual caption streams and sends them to the endpoints, but the caption stream to each endpoint omits the transcription of audio from the endpoint. Some systems allow muting of audio through an indication to the system. The system then omits sending the muted audio to other endpoints and also omits sending a transcription of the muted audio to other endpoints.

Classes IPC  ?

  • G10L 15/26 - Systèmes de synthèse de texte à partir de la parole
  • G10L 15/02 - Extraction de caractéristiques pour la reconnaissance de la paroleSélection d'unités de reconnaissance
  • G10L 19/005 - Correction d’erreurs induites par le canal de transmission, lorsqu’elles sont liées à l’algorithme de codage
  • G10L 15/19 - Contexte grammatical, p. ex. désambiguïsation des hypothèses de reconnaissance par application des règles de séquence de mots
  • G10L 15/14 - Classement ou recherche de la parole utilisant des modèles statistiques, p. ex. des modèles de Markov cachés [HMM]

59.

Method and apparatus for intelligent voice query

      
Numéro d'application 17654635
Numéro de brevet 12339838
Statut Délivré - en vigueur
Date de dépôt 2022-03-14
Date de la première publication 2023-07-27
Date d'octroi 2025-06-24
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s) Wang, Chong

Abrégé

A method and an apparatus for processing an intelligent voice query. A voice query input is received from a user. Automatic speech recognition and natural language understanding generate structured query data. It is modified based on an input adaptation rule to obtain modified structured query data appropriate for a content providing server, which provides a query result output corresponding to the modified structured query data. Input adaptation rules may comprise rule sets based on behavior patterns of the user and/or business recommendations. The query result output can be used for natural language generation, which may have similar adaptation rules for output.

Classes IPC  ?

  • G06F 16/2452 - Traduction des requêtes
  • G06F 16/242 - Formulation des requêtes
  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine

60.

Method and system for assisting a user

      
Numéro d'application 17561548
Numéro de brevet 12361937
Statut Délivré - en vigueur
Date de dépôt 2021-12-23
Date de la première publication 2023-06-29
Date d'octroi 2025-07-15
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Mohajer, Keyvan
  • Kam, Kaishin
  • Pierret, Christophe

Abrégé

A method of assisting a user. The method including obtaining a plurality of rules having condition components and action components, the action components specifying conversation schemas, detecting, by a sensor, a fact related to an environment of the user, identifying a rule, of the plurality of rules, having a condition component that is satisfied by the detected fact, initiating a conversation with the user according to a conversation schema of the action component of the rule of the plurality of rules, and performing an action in response to a positive statement by the user.

Classes IPC  ?

  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G01C 21/36 - Dispositions d'entrée/sortie pour des calculateurs embarqués

61.

Multiple service levels for automatic speech recognition

      
Numéro d'application 17447823
Numéro de brevet 11978454
Statut Délivré - en vigueur
Date de dépôt 2021-09-16
Date de la première publication 2023-03-16
Date d'octroi 2024-05-07
Propriétaire SOUNDHOUND AI IP, LLC (USA)
Inventeur(s)
  • Stonehocker, Timothy P.
  • Gowayyed, Zizu
  • Eichstaedt, Matthias
  • Emami, Seyed Majid
  • Jiang, Evelyn
  • Berryhill, Ryan
  • Ramona, Mathieu
  • Veira, Neil

Abrégé

A system for performing automated speech recognition (ASR) on audio data includes a queue manager to receive a request to perform ASR on audio data, add the request to a queue of incoming requests, and determine a queue depth representing a number of requests in the queue at a given time. The system also includes a load supervisor to receive the request and the queue depth from the queue manager and assign a service level for the request based on the queue depth. In addition, the system includes a speech-to-text converter to receive the assigned service level for the request from the load supervisor, select an ASR model for the request based on the received service level, receive the audio data associated with the request, and perform ASR on the audio data using the selected ASR model.

Classes IPC  ?

  • G10L 15/30 - Reconnaissance distribuée, p. ex. dans les systèmes client-serveur, pour les applications en téléphonie mobile ou réseaux
  • G10L 15/16 - Classement ou recherche de la parole utilisant des réseaux neuronaux artificiels
  • G10L 15/26 - Systèmes de synthèse de texte à partir de la parole

62.

Method and system for controlling a graphical user interface by telephone

      
Numéro d'application 17408476
Numéro de brevet 12314991
Statut Délivré - en vigueur
Date de dépôt 2021-08-22
Date de la première publication 2023-02-23
Date d'octroi 2025-05-27
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s)
  • Mohajer, Kamyar
  • Mohajer, Keyvan
  • Hom, James
  • Jiang, Evelyn

Abrégé

A method and system for controlling a GUI on a user's network-connected device, the control being provided by a telephone call between the user and a speech recognition and speech synthesis system. An example of a restaurant ordering system is provided. The user calls a phone number and is guided through a verbal ordering process that includes one or more of: adding an item, deleting an item, changing quantities, changing sizes, and changing details of an item. The user's choices are added to a display so that a current status of the order is visible to the user. The GUI is updated as changes are made to the order. The GUI can also request additional information, upsell items, and show menus. The GUI aids the user in confirming that the order is correct. The system provides the final order to a restaurant for fulfillment.

Classes IPC  ?

63.

Differential spatial rendering of audio sources

      
Numéro d'application 17655650
Numéro de brevet 11589184
Statut Délivré - en vigueur
Date de dépôt 2022-03-21
Date de la première publication 2023-02-21
Date d'octroi 2023-02-21
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s) Mont-Reynaud, Bernard

Abrégé

Methods and systems for intuitive spatial audio rendering with improved intelligibility are disclosed. By establishing a virtual association between an audio source and a location in the listener's virtual audio space, a spatial audio rendering system can generate spatial audio signals that create a natural and immersive audio field for a listener. The system can receive the virtual location of the source as a parameter and map the source audio signal to a source-specific multi-channel audio signal. In addition, the spatial audio rendering system can be interactive and dynamically modify the rendering of the spatial audio in response to a user's active control or tracked movement.

Classes IPC  ?

  • H04S 7/00 - Dispositions pour l'indicationDispositions pour la commande, p. ex. pour la commande de l'équilibrage

64.

Using a smartphone to control another device by voice

      
Numéro d'application 17372123
Numéro de brevet 11950300
Statut Délivré - en vigueur
Date de dépôt 2021-07-09
Date de la première publication 2023-01-12
Date d'octroi 2024-04-02
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s) Tsuchida, Keisuke

Abrégé

A method and system for implementing a speech-enabled interface of a host device via an electronic mobile device in a network are provided. The method includes establishing a communication session between the host device and the mobile device via a session service provider. According to some embodiments, a barcode can be adopted to enable the pairing of the host device and mobile device. Furthermore, the present method and system employ the voice interface in conjunction with speech recognition systems and natural language processing to interpret voice input for the hosting device, which can be used to perform one or more actions related to the hosting device.

Classes IPC  ?

  • H04W 76/11 - Attribution ou utilisation d'identifiants de connexion
  • G10L 15/08 - Classement ou recherche de la parole
  • H04W 4/50 - Fourniture de services ou reconfiguration de services

65.

Sidebar conversations

      
Numéro d'application 17353639
Numéro de brevet 11539920
Statut Délivré - en vigueur
Date de dépôt 2021-06-21
Date de la première publication 2022-12-22
Date d'octroi 2022-12-27
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s) Stonehocker, Timothy P

Abrégé

A system and a method are disclosed that enable sidebar conversations between two or more attendees that are participating in a primary or main meeting. The sidebar conversation occurs in conjunction or concurrently with the primary meeting. A first attendee provides commands to indicate a desire to initiate a sidebar conversation and information about a targeted attendee. The commands are analyzed to determine if a trigger phrase is included. The commands are analyzed to determine if there is an identification of a second (targeted) attendee, who is currently participating in the main meeting. If the second attendee is available, then the sidebar conversation is initiated. Additional attendees can be added to the sidebar conversation. Additional independent and simultaneous sidebar conversations can be initiated (by attendees currently participating in the active sidebar conversation), thereby allowing one attendee to conduct multiple simultaneous sidebar conversations while being able to switch between them.

Classes IPC  ?

  • H04N 7/15 - Systèmes pour conférences
  • H04L 65/403 - Dispositions pour la communication multipartite, p. ex. pour les conférences
  • H04L 65/1069 - Établissement ou terminaison d'une session
  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G10L 25/57 - Techniques d'analyse de la parole ou de la voix qui ne se limitent pas à un seul des groupes spécialement adaptées pour un usage particulier pour comparaison ou différentiation pour le traitement des signaux vidéo
  • G06F 3/16 - Entrée acoustiqueSortie acoustique
  • G10L 15/08 - Classement ou recherche de la parole

66.

Enabling natural language interactions with user interfaces for users of a software application

      
Numéro d'application 17332927
Numéro de brevet 12008991
Statut Délivré - en vigueur
Date de dépôt 2021-05-27
Date de la première publication 2022-12-01
Date d'octroi 2024-06-11
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Yabas, Utku
  • Hubert, Philipp
  • Stahl, Karl

Abrégé

A user specifies a natural language command to a device. Software on the device generates contextual metadata about the user interface of the device, such as data about all visible elements of the user interface, and sends the contextual metadata along with the natural language command to a natural language understanding engine. The natural language understanding engine parses the natural language query using a stored grammar (e.g., a grammar provided by a maker of the device) and as a result of the parsing identifies information about the command (e.g., the user interface elements referenced by the command) and provides that information to the device. The device uses that provided information to respond to the command.

Classes IPC  ?

  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G06F 40/211 - Parsage syntaxique, p. ex. basé sur une grammaire hors contexte ou sur des grammaires d’unification
  • G06F 40/284 - Analyse lexicale, p. ex. segmentation en unités ou cooccurrence
  • G10L 15/183 - Classement ou recherche de la parole utilisant une modélisation du langage naturel selon les contextes, p. ex. modèles de langage
  • G10L 15/26 - Systèmes de synthèse de texte à partir de la parole

67.

Method for providing information, method for generating database, and program

      
Numéro d'application 17649052
Numéro de brevet 11995143
Statut Délivré - en vigueur
Date de dépôt 2022-01-26
Date de la première publication 2022-12-01
Date d'octroi 2024-05-28
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s)
  • Naito, Masaki
  • Tsuchida, Keisuke
  • Yoneyama, Jun
  • Sawada, Kaku

Abrégé

As audio (1) is input to an extension of a browser, the extension transmits the audio (1) to a language processing server. A speech recognition unit obtains a text (1) corresponding to the audio (1), and transmits the text (1) to a natural language understanding unit. In the natural language understanding unit, an information processing unit identifies a URL (1) corresponding to the text (1), and transmits the URL (1) to the browser. The extension passes the URL (1) to a browsing function. The browsing function uses the URL (1) to access a web server. The web server transmits a web page (1) corresponding to the URL (1) to the browser. The browsing function shows a screen corresponding to the web page (1) on a display.

Classes IPC  ?

  • G06F 16/95 - Recherche dans le Web
  • G06F 16/33 - Requêtes
  • G06F 16/955 - Recherche dans le Web utilisant des identifiants d’information, p. ex. des localisateurs uniformisés de ressources [uniform resource locators - URL]
  • G06F 40/40 - Traitement ou traduction du langage naturel
  • G10L 15/26 - Systèmes de synthèse de texte à partir de la parole

68.

API FOR SERVICE PROVIDER FULFILLMENT OF DATA PRIVACY REQUESTS

      
Numéro d'application 17237705
Statut En instance
Date de dépôt 2021-04-22
Date de la première publication 2022-10-27
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s)
  • Qiu, Kevin
  • Jiang, Evelyn
  • Eichstaedt, Matthias
  • Heit, Warren S.

Abrégé

A system and method are disclosed for fulfilling GDPR and other privacy requests in a client device system as well as a downstream service provider with which the client device system partners. In examples, the downstream service provider may be a voice assistant service provider providing voice recognition and language understanding capabilities to an upstream client device system.

Classes IPC  ?

  • G06F 21/62 - Protection de l’accès à des données via une plate-forme, p. ex. par clés ou règles de contrôle de l’accès

69.

ACTIVE ARBITRATION

      
Numéro de série 97568867
Statut En instance
Date de dépôt 2022-08-29
Propriétaire SOUNDHOUND AI IP, LLC ()
Classes de Nice  ? 09 - Appareils et instruments scientifiques et électriques

Produits et services

Recorded computer software for spotting wake words; Recorded computer software for recognizing speech, interpreting natural language, and providing virtual assistant functions; Downloadable computer software development kits (SDKs) for developing speech recognition, natural language understanding, and virtual assistant software; Recorded computer software for controlling speech recognition, natural language understanding, and virtual assistant cloud processing; Recorded computer software for performing text-to-speech voice audio synthesis; Downloadable electronic data files featuring neural network parameter sets for synthesizing text-to-speech voices; Downloadable electronic data files featuring neural network parameter sets for spotting wake words in audio; Recorded computer software for operating a virtual assistant device for hotels and restaurants; Recorded computer software for providing a virtual assistant using artificial intelligence technology for hotels and restaurants to make customer bookings and reservations, and answer other customer queries; Preinstalled software for operating a virtual assistant device for hotels and restaurants sold as a component of virtual assistant devices for hotels and restaurants; Recorded computer software for understanding speech for use with voice ordering kiosks, drive through ordering systems, and retail ordering systems; Recorded computer software for understanding speech for use with voice reservation kiosks; Recorded computer software for understanding speech for use with smart home devices; Recorded computer software for understanding speech for use with voice enabled robots

70.

Wake suppression for audio playing and listening devices

      
Numéro d'application 17736850
Numéro de brevet 11922939
Statut Délivré - en vigueur
Date de dépôt 2022-05-04
Date de la première publication 2022-08-18
Date d'octroi 2024-03-05
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Yang, Hsuan
  • Zhãng, Qindí
  • Heit, Warren S.

Abrégé

A system and method are disclosed for ignoring a wakeword received at a speech-enabled listening device when it is determined the wakeword is reproduced audio from an audio-playing device. Determination can be by detecting audio distortions, by an ignore flag sent locally between an audio-playing device and speech-enabled device, by and ignore flag sent from a server, by comparison of received audio played audio to a wakeword within an audio-playing device or a speech-enabled device, and other means.

Classes IPC  ?

  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G10L 15/08 - Classement ou recherche de la parole
  • G10L 15/30 - Reconnaissance distribuée, p. ex. dans les systèmes client-serveur, pour les applications en téléphonie mobile ou réseaux

71.

Wakeword selection

      
Numéro d'application 17709131
Numéro de brevet 11948571
Statut Délivré - en vigueur
Date de dépôt 2022-03-30
Date de la première publication 2022-07-14
Date d'octroi 2024-04-02
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s) Mont-Reynaud, Bernard

Abrégé

A system and method are disclosed capable of parsing a spoken utterance into a natural language request and a speech audio segment, where the natural language request directs the system to use the speech audio segment as a new wakeword. In response to this wakeword assignment directive, the system and method are further capable of immediately building a new wakeword spotter to activate the device upon matching the new wakeword in the input audio. Different approaches to promptly building a new wakeword spotter are described. Variations of wakeword assignment directives can make the new wakeword public or private. They can also add the new wakeword to earlier wakewords, or replace earlier wakewords.

Classes IPC  ?

  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G06F 3/16 - Entrée acoustiqueSortie acoustique
  • G10L 15/06 - Création de gabarits de référenceEntraînement des systèmes de reconnaissance de la parole, p. ex. adaptation aux caractéristiques de la voix du locuteur
  • G10L 15/08 - Classement ou recherche de la parole
  • G10L 17/04 - Entraînement, enrôlement ou construction de modèle

72.

Adapting an utterance cut-off period based on parse prefix detection

      
Numéro d'application 17698623
Numéro de brevet 11862162
Statut Délivré - en vigueur
Date de dépôt 2022-03-18
Date de la première publication 2022-06-30
Date d'octroi 2024-01-02
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s)
  • Aguayo, Patricia Pozon
  • Zhang, Jennifer Hee Young
  • Probell, Jonah

Abrégé

A processing system detects a period of non-voice activity and compares its duration to a cutoff period. The system adapts the cutoff period based on parsing previously-recognized speech to determine, according to a model, such as a machine-learned model, the probability that the speech recognized so far is a prefix to a longer complete utterance. The cutoff period is longer when a parse of previously recognized speech has a high probability of being a prefix of a longer utterance.

Classes IPC  ?

  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G10L 15/05 - Détection des limites de mots
  • G10L 25/78 - Détection de la présence ou de l’absence de signaux de voix
  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G10L 15/08 - Classement ou recherche de la parole
  • G10L 15/30 - Reconnaissance distribuée, p. ex. dans les systèmes client-serveur, pour les applications en téléphonie mobile ou réseaux
  • G10L 15/19 - Contexte grammatical, p. ex. désambiguïsation des hypothèses de reconnaissance par application des règles de séquence de mots

73.

SOUNDHOUND EDGELITE

      
Numéro de série 97479096
Statut En instance
Date de dépôt 2022-06-28
Propriétaire SOUNDHOUND AI IP, LLC ()
Classes de Nice  ?
  • 09 - Appareils et instruments scientifiques et électriques
  • 42 - Services scientifiques, technologiques et industriels, recherche et conception

Produits et services

Recorded computer software for spotting wake words; Recorded computer software for recognizing speech, interpreting natural language, and providing virtual assistant functions; Downloadable computer software development kits (SDKs) for developing speech recognition, natural language understanding, and virtual assistant software; Recorded computer software for performing text-to-speech voice audio synthesis; Downloadable electronic data files featuring neural network parameter sets for synthesizing text-to-speech voices; Downloadable electronic data files featuring neural network parameter sets for spotting wake words in audio; Recorded computer software for operating a virtual assistant device for hotels and restaurants; Recorded computer software for providing a virtual assistant using artificial intelligence technology for hotels and restaurants to make customer bookings and reservations, and answer other customer queries; Preinstalled software for operating a virtual assistant device for hotels and restaurants sold as a component of virtual assistant devices for hotels and restaurants; Recorded computer software for understanding speech for use with smart home devices; Recorded computer software for understanding speech for use with voice enabled robots; Recorded computer software for training of custom wake word spotters for virtual assistants; Recorded computer software for synthesis of text-to-speech voice audio Platform as a service (PaaS) featuring computer software platforms for configuring virtual assistants through a web interface; Platform as a service (PaaS) featuring computer software platforms for configuring domain-specific content for virtual assistants; Providing online non-downloadable computer software for training of custom wake word spotters for virtual assistants; Providing online non-downloadable computer software for synthesis of text-to-speech voice audio; Platform as a service (PaaS) featuring computer software platforms for configuring custom text-to-speech voices

74.

Meaning inference from speech audio

      
Numéro d'application 17653365
Numéro de brevet 11769488
Statut Délivré - en vigueur
Date de dépôt 2022-03-03
Date de la première publication 2022-06-16
Date d'octroi 2023-09-26
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Krishnaswamy, Sudharsan
  • Wieman, Maisy
  • Probell, Jonah

Abrégé

A system and method invoke virtual assistant action, which may comprise an argument. From audio, a probability of an intent is inferred. A probability of a domain and a plurality of variable values may also be inferred. Invoking the action is in response to the intent probability exceeding a threshold. Invoking the action may also be in response to the domain probability exceeding a threshold, a variable value probability exceeding a threshold, detecting an end of utterance, and a specific amount of time having elapsed. The intent probability may increase when the audio includes speech of words with the same meaning in multiple natural languages. Invoking the action may also be conditional on the variable value exceeding its threshold within a certain period of time of the intent probability exceeding its threshold.

Classes IPC  ?

  • G10L 15/06 - Création de gabarits de référenceEntraînement des systèmes de reconnaissance de la parole, p. ex. adaptation aux caractéristiques de la voix du locuteur
  • G10L 15/16 - Classement ou recherche de la parole utilisant des réseaux neuronaux artificiels
  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G10L 13/02 - Procédés d'élaboration de parole synthétiqueSynthétiseurs de parole
  • G10L 15/197 - Grammaires probabilistes, p. ex. n-grammes de mots
  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G10L 15/187 - Contexte phonémique, p. ex. règles de prononciation, contraintes phonotactiques ou n-grammes de phonèmes

75.

SYSTEM AND METHOD FOR COMPUTING REGION CENTERS BY POINT CLUSTERING

      
Numéro d'application 17549796
Statut En instance
Date de dépôt 2021-12-13
Date de la première publication 2022-06-16
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s) Pierret, Christophe

Abrégé

A system and a method are disclosed that calculate the center of a geographic region. A set of topological/geographical points is received. A set of clusters is determined. A weight for each cluster is computed. The highest weighted cluster is selected. The geographic region center is calculated using the selected cluster. The geographical points can include a key for each point and be filtered by an indicated key before calculating the center of a geographic location.

Classes IPC  ?

  • G06K 9/62 - Méthodes ou dispositions pour la reconnaissance utilisant des moyens électroniques

76.

System and Method For Achieving Interoperability Through The Use of Interconnected Voice Verification System

      
Numéro d'application 17108724
Statut En instance
Date de dépôt 2020-12-01
Date de la première publication 2022-06-02
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s)
  • Mohajer, Keyvan
  • Heit, Warren S.

Abrégé

A system and method are disclosed for achieving interoperability and access to a personal extension knowledge/preference database (PEKD) through interconnected voice verification systems. Devices from various different companies and systems can link to a voice verification system (VVS). Users can also enroll with the VSS so that the VSS can provide authentication of users by personal wake phrases. Thereafter users can access their PEKD from un-owned devices by speaking their wake phrase.

Classes IPC  ?

  • G10L 17/24 - Procédures interactivesInterfaces homme-machine l’utilisateur étant incité à prononcer un mot de passe ou une phrase prédéfinie
  • G10L 17/04 - Entraînement, enrôlement ou construction de modèle
  • G06F 21/32 - Authentification de l’utilisateur par données biométriques, p. ex. empreintes digitales, balayages de l’iris ou empreintes vocales
  • H04L 29/06 - Commande de la communication; Traitement de la communication caractérisés par un protocole
  • G06N 20/00 - Apprentissage automatique
  • G06F 16/25 - Systèmes d’intégration ou d’interfaçage impliquant les systèmes de gestion de bases de données

77.

Neural sentence generator for virtual assistants

      
Numéro d'application 17455727
Numéro de brevet 12387720
Statut Délivré - en vigueur
Date de dépôt 2021-11-19
Date de la première publication 2022-05-26
Date d'octroi 2025-08-12
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s)
  • Singh, Pranav
  • Mohajer, Keyvan
  • Zhang, Yilun

Abrégé

Methods and systems for automatically generating sample phrases or sentences that a user can say to invoke a set of defined actions performed by a virtual assistant are disclosed. By enabling finetuned general-purpose natural language models, the system can generate potential and accurate utterance sentences based on extracted keywords or the input utterance sentence. Furthermore, domain-specific datasets can be used to train the pre-trained, general-purpose natural language models via unsupervised learning. These generated sentences can improve the efficiency of configuring a virtual assistant. The system can further optimize the effectiveness of a virtual assistant in understanding the user, which can enhance the user experience of communicating with it.

Classes IPC  ?

  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G06F 40/284 - Analyse lexicale, p. ex. segmentation en unités ou cooccurrence
  • G06F 40/30 - Analyse sémantique
  • G06F 40/35 - Représentation du discours ou du dialogue
  • G10L 15/02 - Extraction de caractéristiques pour la reconnaissance de la paroleSélection d'unités de reconnaissance
  • G10L 15/06 - Création de gabarits de référenceEntraînement des systèmes de reconnaissance de la parole, p. ex. adaptation aux caractéristiques de la voix du locuteur
  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine

78.

RECOMMENDATION ENGINE FOR UPSELLING IN RESTAURANT ORDERS

      
Numéro d'application 17667535
Statut En instance
Date de dépôt 2022-02-08
Date de la première publication 2022-05-26
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s)
  • Mohajer, Kamyar
  • Macrae, Robert

Abrégé

A computer-implemented method is provided to support a food ordering system for food items from a menu of a restaurant using natural language. Expressions made for ordering are used to recommend a food item that a user has a high probability of wanting to include in an order. The recommendation engine is trained using machine learning. Expressions are collected and parsed to identify words that might indicate food items offered by the restaurant. The words are provided to a restaurant owner to identify food items on a menu, with which the words are associated.

Classes IPC  ?

  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G06F 16/2457 - Traitement des requêtes avec adaptation aux besoins de l’utilisateur
  • G10L 17/00 - Techniques d'identification ou de vérification du locuteur
  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G10L 15/30 - Reconnaissance distribuée, p. ex. dans les systèmes client-serveur, pour les applications en téléphonie mobile ou réseaux
  • G06F 16/242 - Formulation des requêtes
  • G06F 16/22 - IndexationStructures de données à cet effetStructures de stockage

79.

Text-to-Speech Adapted by Machine Learning

      
Numéro d'application 17580289
Statut En instance
Date de dépôt 2022-01-20
Date de la première publication 2022-05-12
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s)
  • Mont-Reynaud, Bernard
  • Almudafar-Depeyrot, Monika

Abrégé

Machine learned models take in vectors representing desired behaviors and generate voice vectors that provide the parameters for text-to-speech (TTS) synthesis. Models may be trained on behavior vectors that include user profile attributes, situational attributes, or semantic attributes. Situational attributes may include age of people present, music that is playing, location, noise, and mood. Semantic attributes may include presence of proper nouns, number of modifiers, emotional charge, and domain of discourse. TTS voice parameters may apply per utterance and per word as to enable contrastive emphasis.

Classes IPC  ?

  • G10L 13/10 - Règles de prosodie dérivées du texteIntonation ou accent tonique
  • G10L 13/04 - Détails des systèmes de synthèse de la parole, p. ex. structure du synthétiseur ou gestion de la mémoire
  • G10L 13/033 - Édition de voix, p. ex. transformation de la voix du synthétiseur

80.

Server supported recognition of wake phrases

      
Numéro d'application 17584780
Numéro de brevet 12051403
Statut Délivré - en vigueur
Date de dépôt 2022-01-26
Date de la première publication 2022-05-12
Date d'octroi 2024-07-30
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s)
  • Jain, Newton
  • Zaheer, Sameer Syed

Abrégé

A server supports multiple virtual assistants. It receives requests that include wake phrase audio and an identification of the source of the request, such as a virtual assistant device. Based on the identification, the server searches a database for a wake phrase detector appropriate for the identified source. The server then applies the wake phrase detector to the received wake phrase audio. If the wake phrase audio triggers the wake phrase detector, the server provides an appropriate response to the source.

Classes IPC  ?

  • G10L 15/06 - Création de gabarits de référenceEntraînement des systèmes de reconnaissance de la parole, p. ex. adaptation aux caractéristiques de la voix du locuteur
  • G06F 8/41 - Compilation
  • G10L 15/08 - Classement ou recherche de la parole
  • G10L 15/16 - Classement ou recherche de la parole utilisant des réseaux neuronaux artificiels

81.

DRIVER INTERFACE WITH VOICE AND GESTURE CONTROL

      
Numéro d'application 17547917
Statut En instance
Date de dépôt 2021-12-10
Date de la première publication 2022-05-05
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s)
  • Li, Zili
  • Vasconcelos, Cristina

Abrégé

A driver interface for use within an automobile provides responses to voice commands issued for example by a driver of the automobile. The interface includes a camera and microphone for capturing image data such as gestures and audio data from the automobile driver. The image data and audio data are processed to extract image and linguistic features from the image and audio data, which image and linguistic features are processed to interpret and infer a meaning of the voice command.

Classes IPC  ?

  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G10L 15/02 - Extraction de caractéristiques pour la reconnaissance de la paroleSélection d'unités de reconnaissance
  • G10L 15/30 - Reconnaissance distribuée, p. ex. dans les systèmes client-serveur, pour les applications en téléphonie mobile ou réseaux
  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G10L 15/187 - Contexte phonémique, p. ex. règles de prononciation, contraintes phonotactiques ou n-grammes de phonèmes
  • G10L 15/24 - Reconnaissance de la parole utilisant des caractéristiques non acoustiques
  • G10L 15/06 - Création de gabarits de référenceEntraînement des systèmes de reconnaissance de la parole, p. ex. adaptation aux caractéristiques de la voix du locuteur
  • G06K 9/62 - Méthodes ou dispositions pour la reconnaissance utilisant des moyens électroniques
  • G10L 15/16 - Classement ou recherche de la parole utilisant des réseaux neuronaux artificiels
  • G06V 10/40 - Extraction de caractéristiques d’images ou de vidéos
  • G06V 10/70 - Dispositions pour la reconnaissance ou la compréhension d’images ou de vidéos utilisant la reconnaissance de formes ou l’apprentissage automatique
  • G06V 20/40 - ScènesÉléments spécifiques à la scène dans le contenu vidéo

82.

Training a device specific acoustic model

      
Numéro d'application 17573551
Numéro de brevet 11830472
Statut Délivré - en vigueur
Date de dépôt 2022-01-11
Date de la première publication 2022-04-28
Date d'octroi 2023-11-28
Propriétaire SOUNDHOUND AI IP, LLC (USA)
Inventeur(s)
  • Mohajer, Keyvan
  • Patel, Mehul

Abrégé

Developers can configure custom acoustic models by providing audio files with custom recordings. The custom acoustic model is trained by tuning a baseline model using the audio files. Audio files may contain custom noise to apply to clean speech for training. The custom acoustic model is provided as an alternative to a standard acoustic model. Device developers can select an acoustic model by a user interface. Speech recognition is performed on speech audio using one or more acoustic models. The result can be provided to developers through the user interface, and an error rate can be computed and also provided.

Classes IPC  ?

  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G06F 3/16 - Entrée acoustiqueSortie acoustique
  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel

83.

Controlling an engagement state of an agent during a human-machine dialog

      
Numéro d'application 17562891
Numéro de brevet 12125484
Statut Délivré - en vigueur
Date de dépôt 2021-12-27
Date de la première publication 2022-04-21
Date d'octroi 2024-10-22
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Halstvedt, Scott
  • Mohajer, Keyvan
  • Mont-Reynaud, Bernard

Abrégé

A method of controlling an engagement state of an agent during a human-machine dialog is provided. The method can include receiving a spoken request that is a conditional locking request, wherein the conditional locking request uses a natural language expression to explicitly specify a locking condition, which is a predicate, storing the predicate in a format that can be evaluated when needed by the agent, entering a conditionally locked state in response to the conditional locking request, in the conditionally locked state, receiving a multiplicity of requests without a need for a wakeup indicator, and for a request from the multiplicity of requests evaluating the predicate upon receiving the request, and processing the request if the predicate is true.

Classes IPC  ?

  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G06F 3/16 - Entrée acoustiqueSortie acoustique
  • G06F 21/32 - Authentification de l’utilisateur par données biométriques, p. ex. empreintes digitales, balayages de l’iris ou empreintes vocales
  • G06V 40/16 - Visages humains, p. ex. parties du visage, croquis ou expressions
  • G10L 15/08 - Classement ou recherche de la parole
  • G10L 17/00 - Techniques d'identification ou de vérification du locuteur
  • G10L 17/04 - Entraînement, enrôlement ou construction de modèle
  • G10L 17/06 - Techniques de prise de décisionStratégies d’alignement de motifs
  • G10L 17/22 - Procédures interactivesInterfaces homme-machine

84.

Method and system for conversation transcription with metadata

      
Numéro d'application 17450551
Numéro de brevet 12125487
Statut Délivré - en vigueur
Date de dépôt 2021-10-11
Date de la première publication 2022-04-14
Date d'octroi 2024-10-22
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s)
  • Bradley, Kiersten L.
  • Coeytaux, Ethan
  • Yin, Ziming

Abrégé

Methods and systems for enabling an efficient review of meeting content via a metadata-enriched, speaker-attributed and multiuser-editable transcript are disclosed. By incorporating speaker diarization and other metadata, the system can provide a structured and effective way to review and/or edit the transcript by one or more editors. One type of metadata can be image or video data to represent the meeting content. Furthermore, the present subject matter utilizes a multimodal diarization model to identify and label different speakers. The system can synchronize various sources of data, e.g., audio channel data, voice feature vectors, acoustic beamforming, image identification, and extrinsic data, to implement speaker diarization.

Classes IPC  ?

  • G10L 15/26 - Systèmes de synthèse de texte à partir de la parole
  • G06F 40/134 - Création de liens hypertexte
  • G06F 40/166 - Édition, p. ex. insertion ou suppression
  • G06F 40/284 - Analyse lexicale, p. ex. segmentation en unités ou cooccurrence
  • G10L 15/02 - Extraction de caractéristiques pour la reconnaissance de la paroleSélection d'unités de reconnaissance
  • G10L 15/06 - Création de gabarits de référenceEntraînement des systèmes de reconnaissance de la parole, p. ex. adaptation aux caractéristiques de la voix du locuteur
  • G10L 15/07 - Adaptation au locuteur

85.

Method and system for conversation transcription with metadata

      
Numéro d'application 17450552
Numéro de brevet 12020708
Statut Délivré - en vigueur
Date de dépôt 2021-10-11
Date de la première publication 2022-04-14
Date d'octroi 2024-06-25
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s)
  • Bradley, Kiersten L.
  • Coeytaux, Ethan
  • Yin, Ziming

Abrégé

Methods and systems for enabling an efficient review of meeting content via a metadata-enriched, speaker-attributed transcript are disclosed. By incorporating speaker diarization and other metadata, the system can provide a structured and effective way to review and/or edit the transcript. One type of metadata can be image or video data to represent the meeting content. Furthermore, the present subject matter utilizes a multimodal diarization model to identify and label different speakers. The system can synchronize various sources of data, e.g., audio channel data, voice feature vectors, acoustic beamforming, image identification, and extrinsic data, to implement speaker diarization.

Classes IPC  ?

  • G10L 15/26 - Systèmes de synthèse de texte à partir de la parole
  • G06F 40/134 - Création de liens hypertexte
  • G06F 40/166 - Édition, p. ex. insertion ou suppression
  • G06F 40/284 - Analyse lexicale, p. ex. segmentation en unités ou cooccurrence
  • G10L 15/02 - Extraction de caractéristiques pour la reconnaissance de la paroleSélection d'unités de reconnaissance
  • G10L 15/06 - Création de gabarits de référenceEntraînement des systèmes de reconnaissance de la parole, p. ex. adaptation aux caractéristiques de la voix du locuteur
  • G10L 15/07 - Adaptation au locuteur

86.

Using phonetic variants in a local context to improve natural language understanding

      
Numéro d'application 16529689
Numéro de brevet 11295730
Statut Délivré - en vigueur
Date de dépôt 2019-08-01
Date de la première publication 2022-04-05
Date d'octroi 2022-04-05
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s)
  • Mohajer, Keyvan
  • Wilson, Christopher
  • Mont-Reynaud, Bernard

Abrégé

A method is described that includes processing text and speech from an input utterance using local overrides of default dictionary pronunciations. Applying this method, a word-level grammar used to process the tokens specifies at least one local word phonetic variant that applies within a specific production rule and, within a local context of the specific production rule, the local word phonetic variant overrides one or more default dictionary phonetic versions of the word. This method can be applied to parsing utterances where the pronunciation of some words depends on their syntactic or semantic context.

Classes IPC  ?

  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G10L 15/19 - Contexte grammatical, p. ex. désambiguïsation des hypothèses de reconnaissance par application des règles de séquence de mots

87.

System and method for voice morphing in a data annotator tool

      
Numéro d'application 17539182
Numéro de brevet 12086564
Statut Délivré - en vigueur
Date de dépôt 2021-11-30
Date de la première publication 2022-03-24
Date d'octroi 2024-09-10
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s) Ross, Dylan H.

Abrégé

A system and method for masking an identity of a speaker of natural language speech, such as speech clips to be labeled by humans in a system generating voice transcriptions for training an automatic speech recognition model. The natural language speech is morphed prior to being presented to the human for labeling. In one embodiment, morphing comprises pitch shifting the speech randomly either up or down, then frequency shifting the speech, then pitch shifting the speech in a direction opposite the first pitch shift. Labeling the morphed speech comprises at least one or more of transcribing the morphed speech, identifying a gender of the speaker, identifying an accent of the speaker, and identifying a noise type of the morphed speech.

Classes IPC  ?

  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G06F 40/56 - Génération de langage naturel
  • G06F 40/58 - Utilisation de traduction automatisée, p. ex. pour recherches multilingues, pour fournir aux dispositifs clients une traduction effectuée par le serveur ou pour la traduction en temps réel
  • G10L 15/06 - Création de gabarits de référenceEntraînement des systèmes de reconnaissance de la parole, p. ex. adaptation aux caractéristiques de la voix du locuteur
  • G10L 19/125 - Excitation de la hauteur tonale, p. ex. prédiction linéaire à excitation de code avec innovation synchrone de la hauteur tonale [PSI-CELP]
  • G10L 19/26 - Pré-filtrage ou post-filtrage
  • G10L 21/013 - Adaptation à la hauteur tonale ciblée

88.

System and method for providing natural language recommendations

      
Numéro d'application 16447958
Numéro de brevet 11276398
Statut Délivré - en vigueur
Date de dépôt 2019-06-20
Date de la première publication 2022-03-15
Date d'octroi 2022-03-15
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s)
  • Macrae, Robert
  • Mohajer, Kamyar

Abrégé

A system that includes a stand-alone device or a server connected client device are in communication with a server and provide recommendations. The device includes an input component, a storage component, a processor and an output component. The server-connected client device includes an input component that receives the user's request, a communication component that communicates the request to the server and receives the recommendation from the server, and an output component that provides the recommendation to user.

Classes IPC  ?

  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G06F 16/242 - Formulation des requêtes
  • G06F 16/2457 - Traitement des requêtes avec adaptation aux besoins de l’utilisateur
  • G06F 16/22 - IndexationStructures de données à cet effetStructures de stockage
  • G10L 15/30 - Reconnaissance distribuée, p. ex. dans les systèmes client-serveur, pour les applications en téléphonie mobile ou réseaux
  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G10L 17/00 - Techniques d'identification ou de vérification du locuteur

89.

Conditional responses to application commands in a client-server system

      
Numéro d'application 16791421
Numéro de brevet 11250217
Statut Délivré - en vigueur
Date de dépôt 2020-02-14
Date de la première publication 2022-02-15
Date d'octroi 2022-02-15
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s)
  • Mohajer, Keyvan
  • Wilson, Christopher S.
  • Khov, Kheng
  • Graves, Ian

Abrégé

A client device receives a user request (e.g., in natural language form) to execute a command of an application. The client device delegates interpretation of the request to a response-processing server. Using domain knowledge previously provided by a developer of the application, the response-processing server determines the various possible responses that client devices could make in response to the request based on circumstances such as the capabilities of the client devices and the state of the application data. The response-processing server accordingly generates a response package that describes a number of different conditional responses that client devices could have to the request and provides the response package to the client device. The client device selects the appropriate response from the response package based on the circumstances as determined by the client device, executes the command (if possible), and provides the user with some representation of the response.

Classes IPC  ?

  • G06F 40/30 - Analyse sémantique
  • H04L 29/08 - Procédure de commande de la transmission, p.ex. procédure de commande du niveau de la liaison

90.

System and method for interpreting natural language commands with compound criteria

      
Numéro d'application 17081996
Numéro de brevet 11238101
Statut Délivré - en vigueur
Date de dépôt 2020-10-27
Date de la première publication 2022-02-01
Date d'octroi 2022-02-01
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s) Mohajer, Keyvan

Abrégé

A command-processing server receives a natural language command from a user. The command-processing server has a set of domain command interpreters corresponding to different domains in which commands can be expressed, such as the domain of entertainment, or the domain of travel. Some or all of the domain command interpreters recognize user commands having a verbal prefix, an optional pre-filter, an object, and an optional post-filter; the pre- and post-filters may be compounded expressions involving multiple atomic filters. Different developers may independently specify the domain command interpreters and the sub-structure interpreters on which they are based.

Classes IPC  ?

  • G06F 16/9032 - Formulation de requêtes
  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G06F 16/2457 - Traitement des requêtes avec adaptation aux besoins de l’utilisateur
  • G06F 3/16 - Entrée acoustiqueSortie acoustique
  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • H04N 21/482 - Interface pour utilisateurs finaux pour la sélection de programmes
  • G10L 15/26 - Systèmes de synthèse de texte à partir de la parole

91.

Support for grammar inflections within a software development framework

      
Numéro d'application 17474680
Numéro de brevet 11797777
Statut Délivré - en vigueur
Date de dépôt 2021-09-14
Date de la première publication 2021-12-30
Date d'octroi 2023-10-24
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s)
  • Mont-Reynaud, Bernard
  • Taron, Seth

Abrégé

A natural language understanding server includes grammars specified in a modified extended Backus-Naur form (MEBNF) that includes an agglutination metasymbol not supported by conventional EBNF grammar parsers, as well as an agglutination preprocessor. The agglutination preprocessor applies one or more sets of agglutination rewrite rules to the MEBNF grammars, transforming them to EBNF grammars that can be processed by conventional EBNF grammar parsers. Permitting grammars to be specified in MEBNF form greatly simplifies the authoring and maintenance of grammars supporting inflected forms of words in the languages described by the grammars.

Classes IPC  ?

92.

Machine learning system for digital assistants

      
Numéro d'application 17350294
Numéro de brevet 12067006
Statut Délivré - en vigueur
Date de dépôt 2021-06-17
Date de la première publication 2021-12-23
Date d'octroi 2024-08-20
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s)
  • Singh, Pranav
  • Zhang, Yilun
  • Mohajer, Keyvan
  • Fazeli, Mohammadreza

Abrégé

A machine learning system for a digital assistant is described, together with a method of training such a system. The machine learning system is based on an encoder-decoder sequence-to-sequence neural network architecture trained to map input sequence data to output sequence data, where the input sequence data relates to an initial query and the output sequence data represents canonical data representation for the query. The method of training involves generating a training dataset for the machine learning system. The method involves clustering vector representations of the query data samples to generate canonical-query original-query pairs in training the machine learning system.

Classes IPC  ?

  • G06F 16/242 - Formulation des requêtes
  • G06N 3/045 - Combinaisons de réseaux
  • G06N 3/088 - Apprentissage non supervisé, p. ex. apprentissage compétitif

93.

Configurable neural speech synthesis

      
Numéro d'application 17341082
Numéro de brevet 11741941
Statut Délivré - en vigueur
Date de dépôt 2021-06-07
Date de la première publication 2021-12-16
Date d'octroi 2023-08-29
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s) Richards, Andrew

Abrégé

A discriminator trained on labeled samples of speech can compute probabilities of voice properties. A speech synthesis generative neural network that takes in text and continuous scale values of voice properties is trained to synthesize speech audio that the discriminator will infer as matching the values of the input voice properties. Voice parameters can include speaker voice parameters, accents, and attitudes, among others. Training can be done by transfer learning from an existing neural speech synthesis model or such a model can be trained with a loss function that considers speech and parameter values. A graphical user interface can allow voice designers for products to synthesize speech with a desired voice or generate a speech synthesis engine with frozen voice parameters. A vector of parameters can be used for comparison to previously registered voices in databases such as ones for trademark registration.

Classes IPC  ?

  • G10L 13/047 - Architecture des synthétiseurs de parole
  • G10L 13/08 - Analyse de texte ou génération de paramètres pour la synthèse de la parole à partir de texte, p. ex. conversion graphème-phonème, génération de prosodie ou détermination de l'intonation ou de l'accent tonique
  • G10L 13/033 - Édition de voix, p. ex. transformation de la voix du synthétiseur
  • G10L 15/26 - Systèmes de synthèse de texte à partir de la parole
  • G06N 3/084 - Rétropropagation, p. ex. suivant l’algorithme du gradient
  • G06N 3/04 - Architecture, p. ex. topologie d'interconnexion
  • G06F 3/16 - Entrée acoustiqueSortie acoustique
  • G06F 3/04847 - Techniques d’interaction pour la commande des valeurs des paramètres, p. ex. interaction avec des règles ou des cadrans

94.

Interpreting queries according to preferences

      
Numéro d'application 17389847
Numéro de brevet 12361222
Statut Délivré - en vigueur
Date de dépôt 2021-07-30
Date de la première publication 2021-11-18
Date d'octroi 2025-07-15
Propriétaire SoundHound AI IP, LLC (USA)
Inventeur(s)
  • Mohajer, Keyvan
  • Mont-Reynaud, Bernard
  • Wilson, Christopher S.

Abrégé

The present invention extends to methods, systems, and computer program products for interpreting queries according to preferences. Multi-domain natural language understanding systems can support a variety of different types of clients. Queries can be received and interpreted across one or more domains. Preferred query interpretations can be identified and query responses provided based on any of: domain preferences, preferences indicated by an identifier, or (e.g., weighted) scores exceeding a threshold.

Classes IPC  ?

  • G06F 40/00 - Maniement de données en langage naturel
  • G06F 40/30 - Analyse sémantique
  • G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G10L 15/30 - Reconnaissance distribuée, p. ex. dans les systèmes client-serveur, pour les applications en téléphonie mobile ou réseaux

95.

Virtual assistant domain functionality

      
Numéro d'application 17383097
Numéro de brevet 11836453
Statut Délivré - en vigueur
Date de dépôt 2021-07-22
Date de la première publication 2021-11-11
Date d'octroi 2023-12-05
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s)
  • Mohajer, Kamyar
  • Mohajer, Keyvan
  • Mont-Reynaud, Bernard
  • Singh, Pranav

Abrégé

Aspects include methods, systems, and computer-program products providing virtual assistant domain functionality. A natural language query including one or more words is received. A collection of natural language modules is accessed. The collection natural language modules are configured to process sets of natural language queries. A natural language module, from the collection of natural language modules, is identified to interpret the natural language query. An interpretation of the natural language query is computed using the identified natural language module. A response to the natural language query is returned using the computed interpretation.

Classes IPC  ?

  • G06F 40/40 - Traitement ou traduction du langage naturel
  • G10L 15/30 - Reconnaissance distribuée, p. ex. dans les systèmes client-serveur, pour les applications en téléphonie mobile ou réseaux
  • G06Q 30/0283 - Estimation ou détermination de prix
  • G06Q 20/10 - Architectures de paiement spécialement adaptées aux systèmes de transfert électronique de fondsArchitectures de paiement spécialement adaptées aux systèmes de banque à domicile
  • G06F 40/211 - Parsage syntaxique, p. ex. basé sur une grammaire hors contexte ou sur des grammaires d’unification

96.

Method and system for acoustic model conditioning on non-phoneme information features

      
Numéro d'application 17224967
Numéro de brevet 11741943
Statut Délivré - en vigueur
Date de dépôt 2021-04-07
Date de la première publication 2021-10-28
Date d'octroi 2023-08-29
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s)
  • Gowayyed, Zizu
  • Mohajer, Keyvan

Abrégé

A method and system for acoustic model conditioning on non-phoneme information features for optimized automatic speech recognition is provided. The method includes using an encoder model to encode sound embedding from a known key phrase of speech and conditioning an acoustic model with the sound embedding to optimize its performance in inferring the probabilities of phonemes in the speech. The sound embedding can comprise non-phoneme information related to the key phrase and the following utterance. Further, the encoder model and the acoustic model can be neural networks that are jointly trained with audio data.

Classes IPC  ?

  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G10L 15/02 - Extraction de caractéristiques pour la reconnaissance de la paroleSélection d'unités de reconnaissance
  • G10L 15/04 - SegmentationDétection des limites de mots

97.

Loudspeaker with transmitter

      
Numéro d'application 17301308
Numéro de brevet 11627405
Statut Délivré - en vigueur
Date de dépôt 2021-03-31
Date de la première publication 2021-10-07
Date d'octroi 2023-04-11
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s) Stahl, Karl

Abrégé

A speaker device includes an electroacoustic transducer configured to convert an audio signal into a set of sound waves and a transmitter configured to transmit an electromagnetic signal that carries the audio signal for receipt at distances limited to an audibility range of the set of sound waves. The audibility range of the set of sound waves corresponds to a distance at which the set of sound waves is estimated to be below a predetermined sound level.

Classes IPC  ?

  • H04R 25/00 - Appareils pour sourds
  • H04R 1/10 - ÉcouteursLeurs fixations
  • G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p. ex. dialogue homme-machine
  • G10L 21/0316 - Amélioration de l'intelligibilité de la parole, p. ex. réduction de bruit ou annulation d'écho en changeant l’amplitude
  • G10L 25/06 - Techniques d'analyse de la parole ou de la voix qui ne se limitent pas à un seul des groupes caractérisées par le type de paramètres extraits les paramètres extraits étant des coefficients de corrélation
  • G10L 25/51 - Techniques d'analyse de la parole ou de la voix qui ne se limitent pas à un seul des groupes spécialement adaptées pour un usage particulier pour comparaison ou différentiation
  • H04R 1/08 - EmbouchuresLeurs fixations
  • H04R 5/033 - Casques pour communication stéréophonique

98.

Automatic learning of entities, words, pronunciations, and parts of speech

      
Numéro d'application 17146239
Numéro de brevet 12080275
Statut Délivré - en vigueur
Date de dépôt 2021-01-11
Date de la première publication 2021-10-07
Date d'octroi 2024-09-03
Propriétaire SoundHound AI IP, LLC. (USA)
Inventeur(s) Relin, Anton V.

Abrégé

Systems for automatic speech recognition and/or natural language understanding automatically learn new words by finding subsequences of phonemes that, if they were a new word, would enable a successful tokenization of a phoneme sequence. Systems can learn alternate pronunciations of words by finding phoneme sequences with a small edit distance to existing pronunciations. Systems can learn the part of speech of words by finding part-of-speech variations that would enable parses by syntactic grammars. Systems can learn what types of entities a word describes by finding sentences that could be parsed by a semantic grammar but for the words not being on an entity list.

Classes IPC  ?

  • G10L 15/02 - Extraction de caractéristiques pour la reconnaissance de la paroleSélection d'unités de reconnaissance
  • G10L 15/14 - Classement ou recherche de la parole utilisant des modèles statistiques, p. ex. des modèles de Markov cachés [HMM]
  • G10L 15/19 - Contexte grammatical, p. ex. désambiguïsation des hypothèses de reconnaissance par application des règles de séquence de mots

99.

Framework for identifying distinct questions in a composite natural language query

      
Numéro d'application 16292190
Numéro de brevet 11138205
Statut Délivré - en vigueur
Date de dépôt 2019-03-04
Date de la première publication 2021-10-05
Date d'octroi 2021-10-05
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s)
  • Mohajer, Keyvan
  • Mont-Reynaud, Bernard
  • Hubert, Philipp

Abrégé

A query-processing server provides natural language services to applications. More specifically, the query-processing server receives and stores domain knowledge information from application developers, the domain knowledge information comprising a linguistic description of the natural language user queries that application developers wish their applications to support. A first portion of the domain knowledge information is applied to transform a natural language query received from an application to an ordered sequence of question elements. A second portion of the domain knowledge information is applied to group the ordered sequence of question elements into a plurality of distinct structured questions posed by the natural language query. The distinct structured questions may then be provided to the application, which may then execute them and obtain the corresponding data referenced by the questions.

Classes IPC  ?

  • G06F 16/00 - Recherche d’informationsStructures de bases de données à cet effetStructures de systèmes de fichiers à cet effet
  • G06F 16/2457 - Traitement des requêtes avec adaptation aux besoins de l’utilisateur
  • G06F 16/2455 - Exécution des requêtes
  • G06F 40/40 - Traitement ou traduction du langage naturel

100.

Framework for understanding complex natural language queries in a dialog context

      
Numéro d'application 16363929
Numéro de brevet 11132504
Statut Délivré - en vigueur
Date de dépôt 2019-03-25
Date de la première publication 2021-09-28
Date d'octroi 2021-09-28
Propriétaire
  • SOUNDHOUND AI IP, LLC (USA)
  • SOUNDHOUND AI IP HOLDING, LLC (USA)
Inventeur(s)
  • Mont-Reynaud, Bernard
  • Wilson, Christopher S
  • Mohajer, Keyvan

Abrégé

A domain-independent framework parses and interprets compound natural language queries in the context of a conversation between a human and an agent. Generic grammar rules and corresponding semantics support the understanding of compound queries in the conversation context. The sub-queries themselves are from one or more domains, and they are parsed and interpreted by a pre-existing grammar, covering one or more pre-existing domains. The pre-existing grammar, extended by the generic rules, recognizes all compound queries based on any queries recognized by the pre-existing grammar. Use of the disclosed framework requires little or no change in the domain-specific NLU handling code. The framework defines a generic approach to propagating context data between sub-queries of a compound query. The framework can be further extended to propagate intra-query context data in, out and across query components. Complex query results, and other data such as accounting data, can also be propagated simultaneously with dialog context data in a consolidated intra-query context data structure.

Classes IPC  ?

  1     2     3        Prochaine page