Logiciel Speech-to-Text a parcouru un long chemin ces dernières années. Une grande partie des gains de vitesse et de précision peut être attribuée à des améliorations de l’intelligence artificielle sous-jacente à ces applications.
Il n’est donc pas surprenant que deux des plus grands noms de l’IA – Microsoft et Google – soient également des acteurs majeurs dans le développement d’applications de voix-texte. Microsoft Azure Speech Service et Google Cloud Speech-to-Text sont les principales plates-formes de saisie, de transcription et de transmission vocale productivité.
Mais en fin de compte et que vous devez choisir l’une de ces plates-formes par rapport à l’autre, laquelle est la meilleure? Ce guide compare les applications vocales et textuelles de Microsoft et de Google pour vous aider à prendre une décision.
Propriétés
Microsoft Azure Speech Service et Google Cloud Speech-to-Text se chevauchent lorsque vous avez besoin d’une transcription audio de base. Mais pour une voix plus avancée Applications de dictéeles deux plates-formes ont des atouts différents.
Le logiciel de Google se caractérise par un support multilingue. Speech-to-Text peut convertir l’audio en texte dans l’une des 120 langues. En comparaison, le logiciel de synthèse vocale de Microsoft ne prend actuellement en charge que 29 langues. La plate-forme Google reconnaît même automatiquement la langue de l’enregistrement et reconnaît les noms appropriés afin que vous n’ayez plus à vous soucier du formatage et de la capitalisation plus tard.
Microsoft Azure Voice Service est plus riche en fonctionnalités lorsqu’il s’agit d’obtenir vos données transcription précisément. Vous pouvez ajouter un modèle de langue personnalisé au logiciel pour améliorer la précision pour un seul locuteur ou pour les locuteurs avec un accent régional. Ou le service vocal prend en charge les modèles acoustiques avec lesquels vous pouvez compenser le bruit dans vos enregistrements. Ceci est particulièrement utile si vous avez des bruits audio fréquents dans une salle de conférence ou sur un casque.
Vous pouvez également utiliser l’API de Speech Service pour encoder les commentaires en temps réel. Si le logiciel a du mal à reconnaître les mots, il peut amener le locuteur à parler plus lentement ou plus clairement pour de meilleurs résultats.
Les plates-formes Microsoft et Google détectent automatiquement lorsqu’un enregistrement contient plusieurs haut-parleurs. Vous pouvez donc facilement utiliser l’une de ces applications de texte vocal pour transcrire des réunions et des conférences téléphoniques.
performance
Pour une transcription audio simple, le service Microsoft Azure Speech fonctionne généralement mieux que Google Cloud Speech-to-Text. La différence est que le logiciel de Microsoft utilise l’IA pour s’assurer que ce qui est transcrit a un sens linguistique. Étant donné que ce logiciel peut accepter des modèles de langage personnalisés, il gère également les accents, les lisps et d’autres troubles du langage bien mieux que la plateforme de synthèse vocale de Google.
Google s’en tient en grande partie à la reconnaissance des mots en fonction de leurs signatures audio et à leur enchaînement. Cela signifie que la qualité de la transcription peut souffrir considérablement si le logiciel a du mal avec la qualité audio ou l’interprétation d’un accent.
Cependant, pour obtenir de meilleurs résultats avec les logiciels Microsoft, il est nécessaire d’utiliser des modèles vocaux et acoustiques de haute qualité. Si vous sautez cette étape, vous constaterez peut-être que les deux plates-formes sont beaucoup plus comparables en précision lors de la transcription d’enregistrements difficiles. De mauvais modèles de services vocaux d’alimentation peuvent également affecter votre transcription et conduire à un résultat moins précis.
Nous avons constaté que les deux applications sont très comparables même lors de la détection de plusieurs haut-parleurs. Cette fonction n’est pas toujours précise lorsque vous avez deux personnes avec un son similaire et un plan moins net. Dans la plupart des cas, cependant, le service vocal et la sortie vocale étaient capables de distinguer les orateurs d’une conférence téléphonique dans le texte transcrit.
Support
Google Cloud Speech-to-Text n’est pas pris en charge par défaut. Vous pouvez trouver des conseils de dépannage de base en ligne. Sinon, Google vous demandera de demander de l’aide à la communauté avec Stack Overflow ou Slack. Vous pouvez acheter un plan d’assistance auprès de Google si vous avez besoin de parler à un technicien. Les options commencent à 100 $ par utilisateur et par mois.
Microsoft propose davantage de documentation en ligne pour son logiciel Speech Service, notamment des vidéos explicatives et des exemples de code pour l’API de la plate-forme. Cependant, vous devrez également payer un supplément si vous souhaitez l’assistance de techniciens Microsoft. Les plans d’assistance par e-mail uniquement commencent à 29 $ par utilisateur et par mois, tandis que les plans d’assistance téléphonique commencent à 100 $ par utilisateur et par mois.
Tarifs et plans
À première vue, Microsoft Azure Speech Service est considérablement moins cher que Google Cloud Speech-to-Text. Microsoft propose cinq heures de transcription gratuite par mois, puis facture 1 USD par heure d’audio. Google ne propose qu’une heure de transcription gratuite. Après cela, le service coûte 1,44 $ l’heure d’audio.
Cependant, la tarification de l’un de ces services peut être complexe. Google offre une réduction de 30% si vous autorisez l’entreprise à enregistrer vos données audio sur leurs serveurs. Dans ce cas, Speech-to-Text est un peu moins cher que le service de parole de Microsoft. Dans le même temps, Google facture 2,16 USD par heure si vous souhaitez utiliser le modèle de langue « Avancé ». Microsoft augmente le prix à 1,40 USD par heure d’audio si vous fournissez des modèles vocaux ou acoustiques personnalisés.
jugement
Dans la plupart des cas où vous devez transcrire Speech-to-Text, nous vous recommandons le service Microsoft Azure Speech. C’est considérablement moins cher que Google Cloud Speech-to-Text si vous avez des heures d’audio. Nous avons également constaté que cela peut être beaucoup plus précis si vous prenez le temps d’ajouter des modèles vocaux et acoustiques personnalisés à vos enregistrements.
Cependant, la prise en charge linguistique de Microsoft est très limitée par rapport à Google. Donc, si vous voulez une application capable de gérer les enregistrements dans presque toutes les langues, Google Cloud Speech-to-Text pourrait être une meilleure option.