SoundHound AI, Inc. (SoundHound) ist ein weltweit führender Anbieter von Konversationsintelligenz und bietet unabhängige Voice AI-Lösungen, die es Unternehmen ermöglichen, hochwertige Konversationserlebnisse für ihre Kunden zu liefern.
Basierend auf proprietärer Technologie bietet SoundHounds Voice AI Best-in-Class-Geschwindigkeit und -Genauigkeit in zahlreichen Sprachen für Produktentwickler in den Bereichen Automobil, TV und IoT sowie für die Kundendienstbranche durch bahnbrechende KI-Produkt...
SoundHound AI, Inc. (SoundHound) ist ein weltweit führender Anbieter von Konversationsintelligenz und bietet unabhängige Voice AI-Lösungen, die es Unternehmen ermöglichen, hochwertige Konversationserlebnisse für ihre Kunden zu liefern.
Basierend auf proprietärer Technologie bietet SoundHounds Voice AI Best-in-Class-Geschwindigkeit und -Genauigkeit in zahlreichen Sprachen für Produktentwickler in den Bereichen Automobil, TV und IoT sowie für die Kundendienstbranche durch bahnbrechende KI-Produkte wie Smart Answering, Smart Ordering und Dynamic Interaction sowie Employee Assist. Zusammen mit SoundHound Chat AI, einem leistungsstarken Sprachassistenten mit integrierter Generative AI, treibt SoundHound Millionen von Produkten und Dienstleistungen an und verarbeitet jedes Jahr Milliarden von Interaktionen für erstklassige Unternehmen.
Die SoundHound-Entwicklerplattform, Houndify, ist eine offene Plattform, die es Entwicklern ermöglicht, SoundHounds Voice AI-Technologie und eine Bibliothek mit über 100 Inhaltbereichen zu nutzen, darunter häufig verwendete Bereiche wie Sehenswürdigkeiten, Wetter, Flugstatus, Sport und mehr. SoundHounds Collective AI ist eine Architektur zur Verbindung von Domänenwissen, die Zusammenarbeit und Beitrag von Entwicklern fördert. Die Architektur basiert auf proprietärer Softwaretechnologie, CaiLAN (Conversational AI Language), und maschinellem Lernen, CaiNET (Conversational AI Network), um schnelle, genaue und angemessene Antworten sicherzustellen.
Die Marktposition des Unternehmens wird durch die technischen Marktzugangsbarrieren im Voice AI-Bereich gestärkt, die dazu neigen, neue Marktteilnehmer abzuschrecken. Darüber hinaus wird die Technologie des Unternehmens durch bedeutende Investitionen in geistiges Eigentum gestützt, mit über 155 erteilten und über 115 anhängigen Patenten in mehreren Bereichen, darunter Spracherkennung, natürliche Sprachverarbeitung, maschinelles Lernen, Monetarisierung und mehr. Das Unternehmen hat diesen entscheidenden Schwung teilweise auch dank eines langjährigen Führungsteams mit fundierter Expertise und nachgewiesener Fähigkeit, Talent anzuziehen und zu halten, erreicht.
Strategie
Das Unternehmen hat IoT-Geräte mit Voice AI.
Produkte und Technologie
SoundHounds Schwung auf dem Voice AI-Markt ist zu einem großen Teil auf die Vielzahl von technologischen Durchbrüchen des Unternehmens zurückzuführen.
Houndify-Plattform
SoundHounds Voice AI-Plattform kombiniert fortschrittliche KI mit Ingenieurkompetenz, um Marken beim Aufbau von konversationsfähigen Sprachassistenten zu unterstützen. Vom proprietären Komponenten bis hin zu anpassbaren und skalierbaren Lösungen bietet das Unternehmen Tools zum Aufbau einer äußerst genauen und reaktionsschnellen Sprachbenutzeroberfläche.
Die Suite der Houndify-Tools umfasst Anwendungsprogrammierschnittstellen (API) für Text- und Sprachabfragen, Unterstützung für benutzerdefinierte Befehle, umfangreiche Bibliothek von Inhaltbereichen, inklusive Software Development Kit-Plattformen, Kollaborationsmöglichkeiten, Diagnosetools und integrierte Analysen.
Houndify bietet eine Web-API, die Textabfragen oder Audio entgegennimmt und jedem mit Internetverbindung, der Voice AI zu einem Produkt oder einer Anwendung hinzufügen möchte, handlungsfähige JavaScript Object Notation zurückgibt.
CaiNET und CaiLAN Expert Domain Selections
SoundHounds CaiNET-Software verwendet maschinelles Lernen, um zu verbessern, wie Domänen zusammenarbeiten, um komplexe Abfragen zu bewältigen, einschließlich natürlicher Sprachverarbeitung, Vorhersageanalytik und Erstellung von Sprachmodellen oder Sprachübersetzung.
SoundHounds proprietäre CaiLAN-Software vermittelt Antworten auf Expertenniveau, sodass Benutzer bessere Antworten aus der richtigen Domäne erhalten, beispielsweise für die Verwendung bei natürlicher Sprachverarbeitung, Vorhersageanalytik und Erstellung von Sprachmodellen oder Sprachübersetzung.
Automatische Spracherkennung (ASR)
Das hochgradig optimierte, einstellbare und skalierbare ASR-System des Unternehmens unterstützt Vokabulargrößen mit Millionen von Wörtern. Die maschinelle Lerninfrastruktur von Houndify ermöglicht es dem Unternehmen, das System zu optimieren, um eine optimale CPU-Leistung zu erzielen und gleichzeitig hohe Genauigkeitsraten zu liefern.
Die Sprach- und akustische Modellierungsarchitektur von Houndify verwendet ebenfalls maschinelles Lernen, um die Worterkennungsgenauigkeit zu erhöhen. Schnelle Iterationen sind aufgrund des beschleunigten Schulungspipelines und der Architektur des Unternehmens möglich, die sich verbessert, während Daten gesammelt werden. Hochgenaue Transkriptionen resultieren aus fortgeschrittenen akustischen Modellen, die darauf trainiert sind, in einer Vielzahl von Szenarien zu funktionieren - einschließlich in stark geräuschvollen Umgebungen und bei gesprochener Akzent-Sprache.
Natürliche Sprachverarbeitung (NLU)
Die proprietäre Speech-to-Meaning-Technologie des Unternehmens verfolgt Sprache in Echtzeit und versteht den Kontext, noch bevor der Benutzer mit dem Sprechen fertig ist. Anstatt des typischen zweistufigen Prozesses, bei dem die Sprache in Text transkribiert und dann der Text in ein NLU-Modell übergeben wird, kann Houndify beide Aufgaben in einem Schritt erledigen, was zu schnelleren und genaueren Ergebnissen führt.
Die Fähigkeit von Houndify, Sprache in Echtzeit zu verarbeiten und zu verstehen, sobald ein Benutzer aufhört zu sprechen, ermöglicht es Sprachassistenten, schneller zu reagieren. Das Verständnis von Sprache in Echtzeit, ohne zusätzliche Verarbeitung oder Warten auf das Ende des Sprechens des Benutzers, schafft reaktionsschnelle und natürliche Gespräche zwischen Menschen und Produkten.
Durch das Verständnis des Kontexts reagiert Houndify genau auf Benutzer, indem es zwischen ähnlichen Wörtern und Namen unterscheidet. Die NLU des Unternehmens kann den Unterschied zwischen Wörtern erkennen, die gleich klingen, aber unterschiedliche Schreibweisen und Bedeutungen haben. Wenn Benutzer beispielsweise zu 272 Hoch Street in Dayton, Ohio navigieren möchten, wird nicht nach Hawk Street gesucht.
Mit Hilfe der proprietären Deep Meaning Understanding-Technologie des Unternehmens kann ein benutzerdefinierter Sprachassistent komplexe Abfragen mit zusammengesetzten Kriterien bearbeiten, darunter konversationelle Nachfragen, Beantwortung mehrerer Fragen und gleichzeitiges Filtern von Ergebnissen - genau und schnell die komplexesten Fragen der Benutzer beantworten.
Diese Technologien werden von drei wichtigen Innovationen gestützt: Speech-to-Meaning, Deep Meaning Understanding und Collective AI.
Speech-to-Meaning bezieht sich auf die Fähigkeit von SoundHound, Sprache simultan und in Echtzeit in Bedeutung umzuwandeln. Die meisten traditionellen Ansätze wandeln zunächst Sprache in Text um und dann Text in Bedeutung. Dieser Ansatz kann sowohl langsamer als auch ungenauer sein. Er ist langsamer, weil die beiden Schritte sequenziell durchgeführt werden, und die zusätzliche Verarbeitungszeit des zweiten Schritts kann vom Endbenutzer bemerkt werden. Er kann auch ungenauer sein, weil ein Fehler im ersten Schritt der Sprache-zu-Text-Umwandlung zu einem falschen Text führt, der dann an den zweiten Schritt gesendet wird, und der Fehler sich weiter ausbreitet.
Die Entwicklung der Speech-to-Meaning-Technologie des Unternehmens wurde vom menschlichen Gehirn inspiriert. Wenn das Unternehmen jemanden sprechen hört, wandelt das Gehirn des Unternehmens die Sprache nicht in Text und dann in Bedeutung um. Stattdessen wandelt das Gehirn des Unternehmens die Sprache simultan und in Echtzeit in Bedeutung um. Mit Speech-to-Meaning führt SoundHounds Technologie bei der Interaktion mit Ihnen sowohl die Spracherkennung als auch das Sprachverständnis simultan durch, was zu schnelleren Reaktionszeiten und höherer Genauigkeit führt, da das Echtzeit-Sprachverständnis als zusätzliche Information in den Echtzeit-Spracherkenner einfließen kann, um Fehler zu reduzieren.
Deep Meaning Understanding ist der innovative Ansatz des Unternehmens zur Sprachverarbeitung, der es der Voice AI-Plattform des Unternehmens ermöglicht, hochkomplexe Gespräche zu verstehen.
Zum Beispiel kann es verstehen: „Zeige mir Hotels in San Francisco, die weniger als 600 Dollar kosten, aber nicht weniger als 300 Dollar, haustierfreundlich sind, ein Fitnessstudio und einen Pool mit mindestens drei Sternen haben, für zwei Nächte bleiben und nichts enthalten, das kein WLAN hat.“
Eine komplexe Suche wie diese würde viele Minuten dauern, um auf einer Website mit komplexen Formularen durchgeführt zu werden, aber mit der SoundHound-Technologie kann sie innerhalb von wenigen Sekunden erledigt werden, was einzigartig in ihrer Fähigkeit ist, komplexe Abfragen dieser Art im großen Maßstab zu bewältigen.
Collective AI ist eine Architektur, die SoundHound das Potenzial gibt, die Verständnisfähigkeit seiner Plattform exponentiell auf der Grundlage linearer Beiträge zu verbessern.
Die meisten anderen Plattformen fügen separate Fähigkeiten oder Domänen hinzu, die nicht miteinander interagieren. Für sie führt ein linearer Beitrag zu einem linearen Wachstum im Verständnis, was weniger skalierbar ist. Mit der Collective AI-Architektur können SoundHound-Domänen miteinander verbunden und voneinander lernen. Wenn Entwickler zur Plattform beitragen, kann die Verständnisfähigkeit der Plattform exponentiell wachsen.
Smart Ordering
SoundHound Smart Ordering bietet einen leicht verständlichen Sprachassistenten für Restaurants, der Telefonbestellungen entgegennimmt und automatisch verarbeitet, indem er nahtlos mit mehreren POS-Systemen integriert wird. Für Unternehmen bietet das Unternehmen auch ein flexibles Gateway zur Integration mit benutzerdefinierten POS-Systemen.
Dynamic Interaction
Dynamic Interaction ist ein Durchbruch auf Kategorieebene in der konversationsfähigen KI, der die Messlatte für die menschliche Computerinteraktion erhöht, indem er nicht nur Sprache erkennt und versteht, sondern auch in Echtzeit reagiert und handelt. Während bestehende Sprachtechnologien auf Weckwörter angewiesen sind und auf einen Wechsel zwischen Sprechen und Warten auf Pausen angewiesen sind, um Anfragen zu verarbeiten, verwendet Dynamic Interaction die beiden Technologien des Fragmentparsings - das Sprache in Teiläußerungen zerlegt und sie in Echtzeit verarbeitet - und der vollständigen Audio-Visual-Integration, um ein sofortiges, zukunftsweisendes Erlebnis in der menschlichen Computerinteraktion zu schaffen.
SoundHound Chat AI
Das Unternehmen hat SoundHound Chat AI eingeführt, das eine neue Phase der sprachgesteuerten, konversationsfähigen KI einleiten wird, indem es die Kraft von Softwaretechnik und maschinellem Lernen generativer KI kombiniert.
SoundHound Chat AI integriert sich mit Dutzenden von Wissensdomänen und zieht Echtzeitdaten wie Wetter, Sport, Aktien, Flugstatus, Restaurants und viele andere. Das Unternehmen kombiniert dies mit den modernsten großen Sprachmodellen wie OpenAIs ChatGPT, um die genauesten, zeitnahsten und umfassendsten Antworten zu liefern. Es gibt keine Notwendigkeit für umständliche Suchanfragen, da Sie natürlich mit SoundHound Chat AI sprechen können, wie mit einer anderen Person. Sie können auch Folgefragen und Befehle ohne umständliche Pausen stellen, um die ursprüngliche Anfrage zu filtern, zu sortieren oder weitere Informationen hinzuzufügen.
Smart Answering
SoundHound Smart Answering ist darauf ausgelegt, allen Kundenbetrieben, einschließlich Restaurants, die Möglichkeit zu bieten, einen benutzerfreundlichen, kundenspezifischen KI-gesteuerten Sprachassistenten zu erstellen, der 100% der Telefonanrufe abwickeln kann, einschließlich Begrüßungen, Öffnungszeiten, Menü, Standort, Lieferung, Wartezeit, Richtlinien, Promotionen, einschließlich SMS-Funktionalität für Reservierungen und Termine sowie viele weitere Standard- und benutzerdefinierte Optionen.
Weckwörter
Weckwörter sind der Einstiegspunkt in markenspezifische Spracherlebnisse und ermöglichen es Benutzern, den Assistenten buchstäblich durch Aussprechen des Namens des Unternehmens aufzurufen. Beispiele reichen von „Hey Pandora“ in einer mobilen App bis „Hey Peugeot“ in einem Fahrzeug.
Eine gründliche Entwicklung und Tests ermöglichen es den Weckwörtern des Unternehmens, auch in lauten Umgebungen zu funktionieren und falsch positive oder falsch negative Ergebnisse zu minimieren. Das Unternehmen verwendet fortschrittliche maschinelle Lernalgorithmen und Deep Neural Networks, um der hohen Trainingsdatenmenge des Unternehmens eine breite Robustheit zu verleihen, was zu hoher Genauigkeit führt.
Benutzerdefinierte Domänen
Die Bibliothek des Unternehmens mit über 100 öffentlichen Domänen steht Entwicklern zur Verfügung, um ihnen sofortigen Zugriff auf eine breite Palette von Inhalten für ihre einzigartigen Anwendungsfälle zu geben. Dies umfasst Mehrkategorieninhalte, die darauf abzielen, ein breites Publikum anzusprechen, darunter beispielsweise Sportergebnisse, Wetter, Podcasts, Reiseinformationen, Rezepte, Aktienkurse und viele andere.
Unternehmen können die Funktionalität ihrer Produkte oder proprietären Operationen mit Houndify Private Domains verbessern, die eine Anpassung und Entwicklung spezifischerer Inhalte ermöglichen. Kunden, die diesen Service abonnieren, haben vollen Zugriff auf ihre privaten Domänen sicher auf der Plattform des Unternehmens und behalten die Möglichkeit, Inhalte zu überarbeiten und zu aktualisieren.
Beispielsweise kann ein Automobilhersteller im Laufe der Zeit hilfreiche Updates zum Benutzerhandbuch des Autos bereitstellen. Auf diese Weise wird SoundHound zu einem langfristigen „Partner“ seiner Kunden, der Unternehmen dabei hilft, die Domänen zu erstellen, die sie benötigen, um den Markenwert für ihre eigenen Kunden oder Endbenutzer zu verbessern.
Text-to-Speech (TTS)
Ein hochwertiges TTS hilft Unternehmen dabei, eine einzigartige Stimme zu schaffen, die sie von der Konkurrenz abhebt. Marken können ihre Persönlichkeit vollständig zum Ausdruck bringen, indem sie das Geschlecht, den Ton und die Persönlichkeit wählen, die ihre stimmliche Identität bilden werden.
Die maschinellen Lernalgorithmen des Unternehmens verwandeln aufgezeichnete Stimmen in große Datenbanken gesprochener Laute, um ganze Vokabulare natürlicher Sprache zu bilden - angepasst an die Umgebung des Benutzers. Das Unternehmen kann jede Stimme umwandeln, um ein hochwertiges TTS mit einem kleinen CPU-Fußabdruck zu generieren.
Edge- und Cloud-Konnektivität
Mit Edge (Embedded) bietet das Unternehmen eine vollständig eingebettete Sprachlösung für Marken, die die Bequemlichkeit einer Sprachbenutzeroberfläche ohne die Datenschutz- oder Konnektivitätsbedenken des Internets suchen. Beinhaltet vollen Zugriff auf benutzerdefinierte Befehle und die Möglichkeit, Befehle während der Entwicklung sofort zu aktualisieren.
Mit Cloud stattet das Unternehmen Ihren Sprachassistenten mit Echtzeitdaten aus der Cloud aus, liefert die relevantesten Antworten ohne CPU- oder Speicherbeschränkungen und behält die Kontrolle über Kundenbeziehungen mit Zugang zu Daten und Analysen.
Um die Fähigkeiten der vollen Cloud-Konnektivität mit der Zuverlässigkeit der eingebetteten Edge-Voice-Technologie zu nutzen, sind Houndify Edge Hybrid-Lösungen darauf ausgelegt, sicherzustellen, dass Geräte immer aktiv und auf Befehle reagieren. Ermöglicht Over-the-Air-Produktaktualisierungen und ein breiteres Spracherlebnis mit dem Grad der Cloud-Konnektivität, der am besten zum Produkt und seinen Benutzern passt.
Vertrieb und Marketing
Das Unternehmen verfolgt