Taligenkänning med Google Speech API och Python: 4 steg

Innehållsförteckning:

Steg 1: ReSpeaker USB 4-Mic Array
Steg 2: Installera obligatoriska bibliotek
Steg 3: Text-till-tal i Python With Pyttsx3 Library
Steg 4: Sätta ihop allt: Bygga taligenkänning med Python med hjälp av Googles taligenkännings -API och Pyttsx3 -bibliotek

2025 Författare: John Day | [email protected]. Senast ändrad: 2025-01-23 15:11

Taligenkänning

Taligenkänning är en del av Natural Language Processing som är ett delområde av artificiell intelligens. För att uttrycka det enkelt är taligenkänning en dators programvarors förmåga att identifiera ord och fraser i talat språk och konvertera dem till läsbar text. Den används i flera applikationer som röstassistentsystem, hemautomation, röstbaserade chatbots, röstinteragerande robot, artificiell intelligens och etc.

Det finns olika API: er (Application Programming Interface) för att känna igen tal. De erbjuder tjänster antingen gratis eller betalt. Dessa är:

CMU Sfinx
Googles taligenkänning
Google Cloud Speech API
Wit.ai
Microsoft Bing röstigenkänning
Houndify API
IBM tal till text
Snowboy Hotword Detection

Vi kommer att använda Google taligenkänning här, eftersom det inte kräver någon API -nyckel. Denna handledning syftar till att ge en introduktion om hur du använder Googles taligenkänningsbibliotek på Python med hjälp av extern mikrofon som ReSpeaker USB 4-Mic Array från Seeed Studio. Även om det inte är obligatoriskt att använda extern mikrofon, kan även en inbyggd mikrofon på en bärbar dator användas.

Steg 1: ReSpeaker USB 4-Mic Array

ReSpeaker USB Mic är en fyrmikrofonenhet avsedd för AI- och röstapplikationer, som utvecklades av Seeed Studio. Den har 4 högpresterande, inbyggda rundstrålande mikrofoner utformade för att hämta din röst var som helst i rummet och 12 programmerbara RGB LED-indikatorer. ReSpeaker USB -mikrofon stöder Linux, macOS och Windows operativsystem. Detaljer hittar du här.

ReSpeaker USB Mic kommer i ett fint paket som innehåller följande saker:

En användarhandbok
ReSpeaker USB Mic Array
Micro USB till USB -kabel

Så vi är redo att komma igång.

Steg 2: Installera obligatoriska bibliotek

För denna handledning antar jag att du använder Python 3.x.

Låt oss installera biblioteken:

pip3 installera SpeechRecognition

För macOS måste du först installera PortAudio med Homebrew och sedan installera PyAudio med pip3:

brygga installera portaudio

Vi kör under kommandot för att installera pyaudio

pip3 installera pyaudio

För Linux kan du installera PyAudio med apt:

sudo apt-get install python-pyaudio python3-pyaudio

För Windows kan du installera PyAudio med pip:

pip installera pyaudio

Skapa en ny pythonfil

nano get_index.py

Klistra in på get_index.py nedanför kodavsnittet:

importera pyaudio

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') för i i intervall (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i). Check ('max, i). '))> 0: print ("Input Device ID", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' name '))

Kör följande kommando:

python3 get_index.py

I mitt fall ger kommandot följande utdata till skärmen:

Ingångsenhets -id 1 - ReSpeaker 4 Mic Array (UAC1.0)

Ingångsenhets -id 2 - MacBook Air -mikrofon

Ändra device_index till indexnummer enligt ditt val i kodavsnittet nedan.

importera speech_recognition som sr

r = sr. Recognizer () speech = sr. Microphone (device_index = 1) med tal som källa: print ("säg något! …") audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) försök: recog = r.recognize_google (ljud, språk = 'en-US') print ("Du sa:" + recog) utom sr. UnknownValueError: print ("Google taligenkänning kunde inte förstå ljud") utom sr. RequestError som e: print ("Det gick inte att begära resultat från Googles taligenkänningstjänst; {0}". Format (e))

Enhetsindex valdes 1 på grund av att ReSpeaker 4 Mic Array kommer att vara som huvudkälla.

Steg 3: Text-till-tal i Python With Pyttsx3 Library

Det finns flera API: er tillgängliga för att konvertera text till tal i python. Ett av sådana API: er är pyttsx3, vilket är det bästa tillgängliga text-till-tal-paketet enligt mig. Detta paket fungerar i Windows, Mac och Linux. Kontrollera den officiella dokumentationen för att se hur detta görs.

Installera paketet Använd pip för att installera paketet.

pip installera pyttsx3

Om du är i Windows behöver du ett extra paket, pypiwin32 som det kommer att behöva för att komma åt det inbyggda Windows -tal -API: t.

pip installera pypiwin32

Konvertera text till tal python script Nedan är kodavsnittet för text till tal med pyttsx3:

importera pyttsx3

motor = pyttsx3.init ()

engine.setProperty ('rate', 150) # Hastighetsprocent

engine.setProperty ('volym', 0,9) # Volym 0-1

engine.say ("Hej, värld!")

engine.runAndWait ()

Steg 4: Sätta ihop allt: Bygga taligenkänning med Python med hjälp av Googles taligenkännings -API och Pyttsx3 -bibliotek

Koden nedan är ansvarig för att känna igen mänskligt tal med Google taligenkänning och konvertera texten till tal med hjälp av pyttsx3 -biblioteket.

importera speech_recognition som sr

import pyttsx3 engine = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('volume', 0.9) r = sr. Recognizer () speech = sr. Microphone (device_index = 1) med tal som källa: audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio, language = 'en-US') print ("You said:" + recog) engine.say (" Du sa: " + recog) engine.runAndWait () utom sr. UnknownValueError: engine.say (" Google taligenkänning kunde inte förstå ljud ") engine.runAndWait () utom sr. RequestError som e: engine.say (" Kunde inte begära resultat från Googles taligenkänningstjänst; {0} ". format (e)) engine.runAndWait ()

Det skriver ut utdata på terminalen. Det kommer också att konverteras till tal också.

Du sa: London är Storbritanniens huvudstad

Jag hoppas att du nu har bättre förståelse för hur taligenkänning fungerar i allmänhet och viktigast av allt, hur man implementerar det med hjälp av Google Speech Recognition API med Python.

Om du har några frågor eller feedback? Lämna en kommentar nedan. Håll utkik!

Rekommenderad:

Taligenkänning med Arduino (Bluetooth + LCD + Android): 6 steg

Taligenkänning med Arduino (Bluetooth + LCD + Android): I det här projektet kommer vi att göra taligenkänning med Arduino, Bluetooth-modul (HC-05) och LCD. låt oss bygga din egen taligenkänningsenhet

8 Reläkontroll med NodeMCU och IR -mottagare med WiFi och IR -fjärrkontroll och Android -app: 5 steg (med bilder)

8 Reläkontroll med NodeMCU och IR -mottagare med WiFi och IR -fjärrkontroll och Android -app: Styrning av 8 reläväxlar med nodemcu och IR -mottagare via wifi och IR -fjärrkontroll och Android -app. Fjärrkontrollen fungerar oberoende av wifi -anslutning. HÄR ÄR EN UPPDATERAD VERSIONKLICK HÄR

Google Vision API med Raspberry Pi och Node: 11 steg

Google Vision API med Raspberry Pi och Node: Detta är en startguide för att använda Google Vision API. Den använder följande Raspberry Pi Zero W Arch Linux NodeJS Internet -anslutning Vet du inte Arch Linux? Eller hur installerar jag en Raspberry Pi? Oroa dig inte, jag har skrivit en serie artiklar som

Temperatur och fuktighet Display och datainsamling med Arduino och bearbetning: 13 steg (med bilder)

Temperatur- och luftfuktighetsvisning och datainsamling med Arduino och bearbetning: Intro: Detta är ett projekt som använder ett Arduino -kort, en sensor (DHT11), en Windows -dator och ett bearbetningsprogram (ett gratis nedladdningsbart) för att visa temperatur, luftfuktighetsdata i digital och stapeldiagramform, visa tid och datum och kör en räkningstid

Taligenkänning: 12 steg

Taligenkänare: Hej alla ………. Detta är min andra instruerbara som jag lägger ut. Så välkomna alla ….. I denna instruktionsbok ska jag lära dig om hur man bygger upp en röstigenkänning så jag tror att du har en erfarenhet av arduinosvin

Taligenkänning med Google Speech API och Python: 4 steg

Innehållsförteckning:

Taligenkänning

Steg 1: ReSpeaker USB 4-Mic Array

Steg 2: Installera obligatoriska bibliotek

Steg 3: Text-till-tal i Python With Pyttsx3 Library

Steg 4: Sätta ihop allt: Bygga taligenkänning med Python med hjälp av Googles taligenkännings -API och Pyttsx3 -bibliotek

Rekommenderad:

Taligenkänning med Arduino (Bluetooth + LCD + Android): 6 steg

8 Reläkontroll med NodeMCU och IR -mottagare med WiFi och IR -fjärrkontroll och Android -app: 5 steg (med bilder)

Google Vision API med Raspberry Pi och Node: 11 steg

Temperatur och fuktighet Display och datainsamling med Arduino och bearbetning: 13 steg (med bilder)

Taligenkänning: 12 steg

Inmatningsenhet för papper och tennfolie: 5 steg

Hur man konverterar din DS-1 till Keeley All Seeing Eye och Ultra Mods: 6 steg

USB Drive Heart: 4 steg

Anslut ett smält AC -hanuttag: 4 steg (med bilder)

Auto-tracking Water Blaster: 9 steg

Tredje bromsljuskamera (trådlös): 6 steg (med bilder)

Lägga till ikoner och olika EPG till Tvheadend: 11 steg

Kontrollerande LED Matrix Array med Arduino Uno (Arduino Powered Robot Face): 4 steg (med bilder)

Enkelt röststyrt dörrlås: 5 steg (med bilder)

RGB VU -mätare: 6 steg (med bilder)

Virtual Reality -kostym med Arduino: 7 steg (med bilder)

DIY LED FLASHLIGHT (SUPER BRIGHT): 12 steg (med bilder)

Så här gör du: Ekolodsgivare: 5 steg (med bilder)

Hur man använder en ljudsensor med Arduino: 5 steg

Mini RC Airsled: 6 steg

DIY -kontroll RGB LED -färg via Bluetooth: 5 steg