|
|
Az egyéni hangszínezet és a beszélő felismerésének kísérleti-fonetikai megközelítése*BevezetésHa hallunk egy szót, annak akusztikai hullámformája a fülön keresztül a hallóközpontba jut, majd a Wernicke-területre kerül, ahol a hangsor, majd annak szemantikai tartalma feldolgozódik. Egyúttal számos más döntéssorozat is történik agyunkban. Ha a szót egy számunkra jól ismert személy ejtette ki, akkor képesek vagyunk ezt a személyt azonosítani. Ez azonban nem mindig ilyen egyszerű, a sikeres felismerés csak bizonyos korlátozásokkal működik. Sokszor nem elegendő egyetlen szó, hogy felismerjünk valakit, máskor pedig a telefonvonalnak az élőszónál jóval szűkebb frekvenciatartománya is lehetővé teszi, hogy azonosítsuk, ki van a vonal másik végén. Az elmúlt évtizedek alatt a fonetikával, illetve beszédakusztikával foglalkozó szakemberek alapos és kimerítő vizsgálatokat végeztek a beszédelemzés legtöbb területén (vö. Stevens 1998). Sikerült akusztikai elemzéssel mintegy rekonstruálni a beszédet, sőt – bizonyos korlátokkal – beszédfelismerő rendszerek is működnek. Azzal a ténnyel azonban, hogy az emberi hang magában rejti az egyéni jellemzőket is, csak az utóbbi évtizedekben kezdtek behatóan és körültekintően foglalkozni. A kiinduló kérdés az volt, hogy a beszéd szegmentális vagy szupraszegmentális részében keresendő-e az egyéni hangra utaló összetevő, vagy mindkettő tartalmazza azt. Ahhoz, hogy valakit felismerjünk a hangja vagy a beszéde alapján, már többször hallanunk kellett őt. Minél „jellegzetesebb” valakinek a hangja vagy a beszédmódja, annál könnyebb a felismerés. Még a jól ismert személyt sem tudjuk azonban minden körülmények között biztosan azonosítani. Az azonos nemű testvérek, az apa és a fiú vagy az anya és a lánya könnyen összetéveszthetők, ha a körülmények nem tekinthetők ideálisnak, például rövid közlést mondanak, zajos környezetben vagy telefonban beszélnek. A probléma elméleti aspektusa az emberi hangszínezet kérdéskörében gyökerezik. Milyen mértékben jellemző az emberre a hangja, illetőleg a beszéde? Miképpen határozható meg az egyéni hangszínezet? E kérdéshez azután számos további kapcsolódik. A hangszínezet mely beszédképzési konfigurációval mutatja a legszorosabb kapcsolatot? A zönge, a toldalékcső avagy az artikulációs mozgások a meghatározóak, avagy valamennyi együtt eredményezi a hangszínezet nyújtotta percepciós élményt? Miként fejezhető ki a hangszínezet: artikulációs, akusztikai-fonetikai, percepciós-fonetikai megközelítésben avagy mindháromban együtt? A mindennapi életben jól ismert kifejezések, amelyek a beszélő hangszínezetét igyekeznek meghatározni, általában metaforák: bársonyos hang, borízű hang, lágy hang, érces, érdes hang, sipító hang, rekedtes hang, fátyolos hang, „barna” hang, éles hang, dörgő hang, csengő hang, megnyugtató hang, bántó hang, sőt „úgy beszél, mintha gombóc lenne a torkában”, és még lehetne folytatni. Mi áll ezeknek a kifejezéseknek a hátterében a fonetika szempontjából? Mielőtt megpróbálkoznánk a válasz megkeresésével, szembekerülünk a szakszó használatának problémájával is. Mára már kimondható, hogy a hangszín szót a beszédhangok jellemzésére, míg a hangszínezet szót a beszélő személy beszédének jellemzésére használjuk. A hangszínezet része annak a sajátos és összetett jelenségnek, amelynek hatására képesek vagyunk a beszélő személyt azonosítani. Az angol nyelvben például ennek az összetett jelenségnek a megnevezésére a hangminőség (voice quality) kifejezést használják (Crystal 1985). (A magyar terminológia nem egységes; a hangminőség bizonyos szövegkörnyezetben a beszédhangra is vonatkozhat, ugyanakkor a hang szó ’Stimme’ értelemben is használatos, vö. Vértes O. 1979.) Bár a hangszínezet önmagában nem fedi le azt a komplex jelenséget, amely a beszélő személy felismerését lehetővé teszi, jobb híján mégis ezt a terminust fogjuk használni – jelentésének kiszélesítésével – azért, hogy egy újabb szakszó bevezetését elkerüljük. Ebben a szélesebb értelemben a hangszínezet magában foglalja mindazokat a beszédjellemzőket, amelyek egy adott személyt kétséget kizáróan azonosítanak. Az alaphangmagasság döntő tényezője a hangszínezetnek. Vértes O. András feltételezi, hogy az utóbbi évtizedekben (esetleg azt megelőzőleg is) a nők hangfekvése mélyült (ez kapcsolatba hozható társadalmi pozíciójukkal is), de a férfiaké nem változott (1979). Lux Gyula, korát sok tekintetben meghaladó könyvében (é. n., de 1926 után), azt állítja, hogy a hangszínkülönbség teszi lehetővé számára „atyja” és barátja hangjának felismerését (101). Az énekművészettel foglalkozók már régen igyekeztek tudományosan alátámasztott magyarázatot találni a hangszínezet kérdéseire a mindennapi gyakorlati problémák megoldása érdekében. Az artikulációs gesztusok pontos leírásával azonosítottak némely hangszínezetet, például „világos” vagy „sötét”, illetőleg határoztak meg normálisnak és attól eltérőnek tartott hangszínezeteket (utóbbira: rekedtes, tompa, fedett, vö. Molnár 1942). A hangszín szón tulajdonképpen a zöngét értették; de ehhez kapcsolódva elemezték a préselt és az úgynevezett orrhangot is (Molnár 1942: 14–5). Vértes O. András történeti áttekintése szerint (1980) fonetikai munkában a hangszínezetről Regner Tivadar tesz először említést 1862-ben: a magyar nők mélyebb alaphangmagasságáról, valamint a bécsi német nyelvjárás rekedtes hangszínezetéről ír. A probléma modern alkalmazott fonetikai megközelítése a fonetika egyik legújabb ágának, az úgynevezett törvényszéki fonetikának (forensic phonetics) a tárgya (ez a kérdéskör önálló diszciplínaként első ízben 1995-ben jelent meg a Fonetikai Világkongresszusok programjában). Ezek a kutatások a beszélő személy egyértelmű, kétséget kizáró felismerésének akusztikai-fonetikai megoldási lehetőségeivel foglalkoznak. Az utóbbi évtizedben jelentős eredmények születtek ezen a területen (Coulthard 1992; Schlichting–Sullivan 1998; a magyarra: Gósy–Nikléczy 1999). A megközelítések sokfélék, a matematikai számításoktól, az akusztikai méréseken át a szoros értelemben vett kísérleti-fonetikai és percepciós kísérletekig (pl. Schroder 1985; Nolan 1995). A beszélő felismerésének alkalmazott fonetikai vizsgálata azt a célt szolgálja, hogy meghatározhatóak legyenek azok a feltételek, amelyek a) lehetővé teszik, b) korlátozzák és c) nem teszik lehetővé/gátolják a beszélő személyének azonosítását. A tudománynak arra a kérdésre kell mindenekelőtt válaszolnia, hogy vajon a beszéd valóban olyan mértékben jellemző-e az egyénre, hogy az különféle célú azonosításokban (mint kriminalisztika, biztonsági rendszerek, beléptető vagy banki azonosító rendszerek) kétséget kizáróan működtethető. Amennyiben e kérdésre igenlő a válasz, a következő kérdéssorozat a beszélő azonosításának feltételeit, az azonosítás módszertani megoldásait és az azonosítás biztonsági fokának meghatározását érinti. A központi kérdés tehát – függetlenül attól, hogy az egyéni hangszínezet elméleti igényű vagy a beszélőfelismerés alkalmazott fonetikai szempontú kutatásáról van szó – az, hogy melyek azok a paraméterek, amelyek kétséget kizáróan felidézik/meghatározzák a beszélő személyt. A nem kriminalisztikai célú alkalmazásokban (pl. banki rendszerek) a beszélő felismerésének problémája – még telefonon át is – megoldottnak tűnik. A hetvenes évektől indultak meg az erre irányuló kutatások és fejlesztések (pl. Doddington et al. 1976), mára többféle, megbízhatóan működő rendszer létezik a világban. Némelyikük állítólag 99%-os biztonsággal képes a beszélő személy azonosítására. A kutatók különböző algoritmusok alkalmazásával vagy különféle többcsatornás szűrő eljárásokkal igyekeztek meghatározni a beszélő személy azonosságát. A kidolgozott eljárásokkal sikerült – technikailag jó minőségű rögzített beszéd esetében – 90% fölötti eredményt elérni, de a vizsgálathoz általában 40–50 s hosszúságú hanganyagra volt szükség. Ahhoz, hogy megértsük, miért megoldatlan probléma mégis a törvényszéki beszélőfelismerés, nézzük meg, mit jelent az egyén azonosítása a biztonsági rendszerekben. A beszélő valamilyen módon azonosítja önmagát (kóddal, névvel stb.), vagyis azonnal csökkenti a lehetséges bejelentkezők számát. A beszéd alapján történő személyfelismerésnek tehát arra kell válaszolnia, hogy valóban a feltételezett személy jelentkezett-e be. Egy többé-kevésbé meghatározott szöveget kell a beszélőnek bemondania (pl. szókapcsolatot, szókapcsolatokat vagy rövid mondatot). Általában az úgynevezett normalizált, hosszú idejű, átlagos spektrumelemzést használják, amelynek során az aktuálisan bemondott szöveg különféle jegyvektorait vetik össze a beszélőtől korábban tárolt szöveg paramétereivel. Ezt követően egy úgynevezett hasonlósági indexet számítanak. Az egyezést a küszöbértéktől való távolság szerint határozzák meg. Ezekben az esetekben tehát a beszélő felismerését számos tényező részben megkönnyíti, részben pedig kizárólagosan lehetővé teszi. A beszélő kooperatív, ez azt jelenti, hogy azt szeretné, hogy megtörténjen a biztos azonosítása. Létezik a beszélőtől már korábban tárolt, jó akusztikai és felvételi körülmények között rögzített beszédminta. Ismert az aktuális bejelentkezés körülménye, az összevetés tehát valóban gyorsan és jó hatásfokkal elvégezhető. A törvényszéki esetekben a helyzet lényegesen bonyolultabb és bizonytalanabb. A beszélő személy ismeretlen, következésképpen nincsen „tárolt” beszédminta. Jó esetnek számít, ha van gyanúsított vagy gyanúsítottak, ez kiindulást jelenthet a személyazonosításhoz. A feltételezett eredeti beszélőnek azonban ekkor nem célja, hogy természetesen, tisztán, megfelelő hangerővel beszéljen; az akusztikai-fonetikai összevetés tehát nehezedik. Mintegy 15%-ra tehető ezekben az esetekben, hogy a beszélő akaratlagosan megváltoztatja a beszédét (Künzel 1995). A leggyakoribb ilyen torzítások a suttogás, a megemelt hangfekvés és a zárt szájjal képzett beszéd. A rögzített beszéd rendszerint zajos, szűk frekvenciatartományban jelentkezik, a hasznos paraméterek tehát erősen csökkentett számban vannak jelen (nemritkán csak 20–30 mp-nyi anyag áll az elemző rendelkezésére). A leglényegesebb különbség a kétféle beszélőazonosítás között a lehetséges beszélők számának különbsége. Az egyik esetben tulajdonképpen a beszélő személyének igazolása történik meg; a kriminalisztikai esetekben pedig a valóságos azonosítás a cél. A beszélő azonosításához rendszerint háromféle megközelítésmódot használnak:
A hallás alapján történő azonosítás tulajdonképpen percepciós tesztsorozat, amikor a hallgató a rögzített beszédet igyekszik a feltételezett személlyel azonosítani (a hallgató emlékezetében tárolt minta alapján). A beszélő személyt nem ismerő lehallgatók a feltételezett egyezéseket próbálják meghatározni a rövid idejű memóriában tárolt beszédminták összevetésével. Mindkét esetben előfordulhat olyan feladat is, amikor – kizárásos alapon – azt kell megmondani, hogy melyik az a beszélő, aki biztosan nem azonosítható az eredetivel. A szakemberek olyan kérdésekre is tudnak valószínű választ adni, mint a nyelvjárás lehetősége, beszédhiba, a szociális háttér, iskolázottság, becsléssel az életkor, a beszédbeli jártasság. A fonetikus és nem fonetikus hallgatók beszélőazonosítási eredménye között nagy különbség is lehet. Köster (1987) azt találta kísérletében, hogy míg a fonetikusok 100%-ot értek el, addig a nem fonetikusok csak 89–94%-ot. A beszélő felismerésének képességeAz anyanyelv-elsajátítás folyamán kialakulnak azok a neurális spektrogramok az agyban, amelyek lehetővé teszik, hogy a gyermek a beszélő személy artikulációs sajátosságaitól függetlenül képes legyen a beszédhangokat azonosítani, a szavakat, mondatokat felismerni. Nem tudjuk még pontosan, hogy vajon ezek a neurális spektrogramok – mint ahogy megnevezésük sejteti – valóban hasonlatosak-e a beszédről készült akusztikai regisztrátumokkal, a spektrogramokkal. A spektrogramok mindig egyediek, a neurális spektrogramok pedig szükségszerűen valamiféle általánosított képek kell, hogy legyenek. Feltételezhetően a hangsor(ok)ra szignifikánsan jellemző invariáns jegyeket tartalmaznak, amelyek egyúttal információval szolgálnak a beszélő személyére vonatkozóan is. A kísérletek tanúsága szerint, néhány hónapos csecsemők képesek azonosítani az édesanyjukat a beszédük alapján akkor is, ha nem látják őket. Minél hosszabb az ugyanazon beszélőtől származó szöveg, a hallgató annál biztosabban képes a beszélőt felismerni. Ennek alapján az is feltételezhető, hogy a beszéd hallgatásakor aktiválódó neurális spektrogramsorozatban valamiképpen hangsúlyozottabbá válnak a beszélőt azonosító paraméterek. Ezek a feltételezések vezettek a matematikai megoldások kereséséhez, amelyek azonban nem hozták meg a várt eredményt. A neurális spektrogramok kialakulásában az emlékezésnek meghatározó jelentősége van. Az emlékezés folyamatában a régebben észlelt tárgyak, jelenségek és események képét/képeit és ezek összefüggéseit felidézzük anélkül, hogy az azokat létrehozó ingerek vagy ingeregyüttesek éppen hatnának ránk. Az emlékezés az objektív valóságnak a tudatban történő visszatükröződése. Az emlékképek a múltbeli észlelések, élmények reprodukciói. A beszélő személy felismerésére vonatkoztatva két dolog alapvetően fontos: szükséges a megfelelő inger, valamint a felidézés képessége. Az észleletek, feldolgozott ingerek megjegyzéséhez az szükséges, hogy létrejöjjön az emléknyom, amely az ismétlések során bevésődik. Minél gyakoribb az ismétlődés, annál nagyobb mértékű a bevésődés. Ha ritkán hallunk valakit beszélni, lassabban, nehezebben azonosítjuk a beszédet a beszélővel. Minél gyakoribb a beszéd akusztikai élménye, annál gyorsabb és biztosabb lesz a beszélő személy felismerése. Az emléknyomok felidézése többféleképpen történhet, általában valamiféle asszociáció révén. A felidézés alapja az a kapcsolat, amely bizonyos fokig már a bevésődéskor jelen van. Az asszociáció az emlékezésben azt jelenti, hogy a kialakult szinaptikus kapcsolatok működése révén az egyik emléknyom aktiválása egy vagy több hozzá kapcsolódó emléknyomot is aktivál. A beszédre vonatkozóan általános összefüggések is megfogalmazhatók. Nem véletlen például az alaphangmagasság és a testalkat, a hangszínezet és az arcforma vagy a beszédhang és az életkor kapcsolata (utóbbira: Gocsál 1998). Valószínűsíthető, hogy az emberek között nagy különbségek vannak a beszélő azonosításához szükséges képességek tekintetében; a beszélő személyének a beszéde alapján történő felidézéséhez az emberek asszociációs képessége különböző. Vannak, akiknél gyorsan történik a bevésődés, gyors a megfelelő neurális spektrogram aktiválása és ennek következtében a beszélő felismerése. Másoknál ezek a folyamatok lényegesen lassabban alakulnak ki, illetőleg mennek végbe. Egyéni hangszínezet és a beszélő személy felismeréseA fentiekben az alapvető feltételt – a beszélő személy ismertségének megfelelő szintjét – már tárgyaltuk. A következő, egzaktan nehezen megfogható, ám a pszicholingvisztikában jól ismert tényezőt vesszük számba, az elvárás faktorát. Saját elvárásaink hatással vannak a beszélő személy sikeres felismerésére. Ha egy jól ismert személynek telefonálunk, rövid ideig egy hozzá hasonló hangú beszélőt is elfogadunk a kívánt beszélőül – az elvárás miatt. Ha várjuk valakinek a hívását, azonnal felismerjük, ha a vonal végén az illető megszólal. Ugyanennek a beszélőnek az azonosítása nehezebb, ha nem feltételeztük tőle a telefont. Kollégák beszédének 30 mp-es részletei elegendőek voltak ahhoz, hogy a személyek tökéletesen azonosíthatók legyenek (Ladefoged 1978). A beszélőre jellemző neurális spektrogram nyilvánvalóan tartalmazza mindazokat a nyelvi/beszédbeli tényezőket, amelyek alapján azonosítjuk a személyt. A hatvanas, hetvenes évek nem túlzottan széleskörű kutatásai a beszédhangok akusztikai szerkezetében jelölték meg a meghatározó paramétereket. Elsősorban a magánhangzók harmadik formánsát gondolták jelentősnek, amelyről azóta egyértelműen bebizonyosodott, hogy nem is igazán jellemző, és messze nem elegendő az egyén azonosításához. Ha azonban csak egy formánst nézünk is (jelen esetben a harmadikat), akkor is három, numerikusan kifejezhető adattal állunk szemben: a formáns frekvenciaértékével, sávszélességével és az intenzitásával. Figyelembe véve azt az egyáltalán nem elhanyagolható tényt, hogy e három összetevő állandó változása a beszéd velejárója, akkor nehéz elméletileg is feltételezni azt a számértéket, amely az egyénre jellemző lehet. Ha pedig nem tudunk meghatározni egy vagy néhány konkrét frekvenciaértéket (maximum ±30 Hz eltéréssel), akkor a személyazonosítás számértékek alapján nem valószínűsíthető. Egyelőre még nem vettük figyelembe azt, hogy a formánsok értéke függ a hang hangkörnyezetétől is. Létezik olyan kutatási eredmény is (Hollien 1977), amelyik nemcsak a harmadik formáns jelentőségét kérdőjelezi meg, hanem azt is, hogy az egyéni hangszínezet akusztikai megfelelője a telefonsávon kívülre eső összetevőkben lenne található (vagyis mintegy 300 Hz alatt és 3300 Hz fölött). A hetvenes évek végének kutatási eredményei szerint az alaphangmagasság majdnem elegendő kulcs az egyén hangjainak felismerésére (úgy vélték, hogy innentől már csak egy lépés magának a személynek az azonosítása). A pozitív eredménnyel zárult megkülönböztetési kísérletek hátterében azonban inkább a hallgatók jól működő rövid idejű memóriája állt, mint az alaphangmagasság mint egyértelmű felismerési tényező (Doehring–Ross 1972). Más kísérletek alapján azt gondolták, hogy a vokális traktus fontosabb a beszélő azonosításában, mint a larynxforrás (Hecker 1971). Ezek a laryngográfiás kísérletek is sikerrel zárultak; ismert személyek közül egy mondat alapján azonosították a kérdéses személyt. Valamennyi beszélő felismerése csak az alaphangmagasság alapján azonban csak 60–70%-os eredményt hozott. Az akusztikai elemzések döntően a spektrográfián alapszanak; a következő paramétereket vizsgálják (különböző nyelvekben): formáns sávszélesség, központi formánsfrekvenciák, maximumpontok, a rés- és zárhangok zörejfrekvenciái, átmenetek és még valami, amit úgy neveznek, hogy „sajátos spektrográfiás alakzat”, de közelebbről nem meghatározható paraméter (Künzel 1995). Tekintetbe veendők még a beszédtempó, illetőleg az artikulációs sebesség, a hezitációs jelenségek és a dallammenet. A kutatók azonban egyetértenek abban, hogy a spektrogramok elemzése nem nyújt egyértelmű kulcsot a beszélő személy felismeréséhez. Az alapvető kiindulás mégis a beszéd akusztikuma. A Los Angelesben kifejlesztett beszélőazonosító rendszer (Nakasone–Melvin 1988) például 14 paramétert használ (az időtől a spektrumig). Ezzel a rendszerrel állítólag 98%-os pontosságot lehet elérni (a kísérletek 50 férfi beszélőtől származó beszédmintát tartalmazó adatbázison folytak). A Hollien és munkatársai által kifejlesztett fonetikai alapú rendszer (SAUSI) olyan paramétereket használ az azonosításhoz, mint az F0, a csendes szünetek száma és hossza, a beszédtempó vagy a magánhangzók időtartama (Hollien 1990). A leírtakból látható, hogy meglehetősen eltérőek a vélemények abban a tekintetben, hogy melyik a beszédnek az az összetevője, amelyik egyértelmű azonosítást tesz lehetővé. Az alaphangmagasság értéke, a formánsfrekvenciák, a beszédhang mikrointonációs szerkezete, a beszédhangok egymáshoz viszonyított intenzitása, a beszéd időszerkezete mind-mind olyan paraméter, amelyeket újra és újra meg kell vizsgálni az egyéni hangszínezet szempontjából. Azt vagy azokat a paramétereket kell megtalálnunk, amelyek mind a szegmentális, mind a szupraszegmentális szerkezetet tekintve, a legkisebb értékkel változnak, azaz közel állandó jelleggel reprezentálják a beszélő személy beszédét. Több kísérletsorozatban vizsgálták a jelentés szerepét a beszélő felismerésében. Nem a nyelvi, stilisztikai sajátosságok tekintetében, a kérdés csupán az volt, hogy a szöveg érthetősége összefügg-e a beszélő személyének felismerésével. Az eredmények azt mutatják, hogy nem, a tartalom gyakorlatilag független a beszélő azonosításának sikerességétől (Janota 1967; La Riviere 1972; Schlichting–Sullivan 1998). A fizikai értelemben jó minőséggel rögzített minták összehasonlítását a beszéd teljes spektrumában el lehet végezni. Jóval nehezebb feladatot jelent, ha az összehasonlítandó hangfelvételek rossz jel/zaj viszonyúak, és a kérdéses felvétel nem egységes telefonhálózaton belül készült. A minőségen kívül fontos a szerepe a minták időtartamának, az egységnyi időtartam alatt elhangzó információnak, valamint a szöveg spontaneitásának. Állandóság és változás az artikulációbanA beszélőre jellemző neurális spektrogram nyilvánvalóan tartalmazza mindazokat a nyelvi/beszédbeli tényezőket, amelyek alapján azonosítjuk a személyt. Amennyiben ezt nem kérdőjelezzük meg, akkor valójában mi okozza az egyénre jellemző akusztikai tulajdonságok műszeres kimutatásának nehézségét? Elsősorban az, hogy a beszédinformációt továbbító akusztikus rezgések a hangképző rendszer tehetetlensége következtében kvázistacionárius jellegűek. Ez azt jelenti, hogy a rezgések paraméterei általában korlátozott ideig tekinthetők állandónak. Az előbbiekből következik, hogy a beszéd közben létrehozott hangsorok nem ismételhetők meg mégegyszer teljesen azonosan. Az 1. ábrán a Jó napot hangsor spektrogramja és hangsoron belüli intenzitásviszonyai láthatók ugyanazon személy ejtésében 1 nap eltéréssel. (A lehető legjobb, torzításmentes megjelenítés érdekében a hangsort 50000 minta/s-os mintavételezési sebességgel digitalizáltuk, és Hamming ablakfüggvényű 71 Hz-es szűrővel elemeztük.) Az ábra bal és jobb oldalának vizuális összehasonlítása alapján is megállapítható, hogy az időben később készült, jobb oldali hangfelvételről készült regisztrátumon a formánsok és az intenzitás értékei lényeges eltérést mutatnak. |
1. |
A beszéd akusztikuma oly mértékben jellemző a beszélőre, hogy az akusztikai-fonetikai paraméterek alapján a beszélő azonosíthatóvá válik. |
2. |
Az elméleti megállapítást a humán beszélőfelismerő képességünk is alátámasztja. |
3. |
A beszéd alapján történő közel objektív személyazonosítás számtalan tényező függvénye. Ezek részben külső faktorok (pl. a beszédrögzítési körülmények), és belsőnek tekinthetők (pl. a beszélő kooperációs készsége), amelyek befolyással vannak a felismerés biztonságára. |
4. |
A beszélőfelismerés során többféle eljárás is célravezető lehet; az alkalmazott módszert a konkrét cél, a beszédminta és egyéb körülmények határozzák meg. |
5. |
Jelenleg nincs tudományosan alátámasztott válasz arra vonatkozóan, hogy hány vagy mely paraméterek azok, amelyek az egyén felismerését kétséget kizáróan biztosítják. Nem zárható ki az, hogy az agyban tárolt neurális spektrogram aktiválása egészen különböző azoktól az akusztikai eljárásoktól, amelyek révén a beszéd egyéni jegyeit igyekszünk meghatározni. |
6. |
Ígéretesnek látszanak a felhangstruktúra elemzésének adatai. |
7. |
A beszélő személy felismerése multifaktoriális, azaz a hallgató a rendelkezésére álló valamennyi hangzásbeli, nyelvi, és ahol mód van, nem nyelvi információt is integrál az észlelési folyamata során a „feladat” elvégzéséhez. |
8. |
Különféle aspektusú akusztikai-fonetikai és percepciós kísérletek (és rengeteg adatfeldolgozás, -tárolás és összegzés) szükségesek ahhoz, hogy a probléma megoldásához közelebb jussunk. |
Mindezek után újra feltehető a kérdés: mit tud ma a fonetika a hangszínezetről. Elméleti aspektus ugyan, de fontos, hogy egyértelműen definiálható. A hangszínezet az elhangzó beszédnek az a jelensége, amely nagymértékben hozzájárul ahhoz, hogy a beszélő személy felismerhető. Mivel az ismert beszélőt telefonon át is azonosítjuk, a hangszínezet legjellemzőbb paraméterei a 200–3500 Hz-es sávban találhatók. A hangszínezet a beszéd akusztikumában van jelen, annak része; de összetett jelenség (nem korlátozható a zöngére), mivel minden valószínűség szerint több komponens hozza létre (beleértve a beszéd szegmentális és szupraszegmentális tényezőit egyaránt).
SZAKIRODALOM
Coulthard, M. 1992. Forensic discourse analysis. In: Advances in Spoken Discourse Analysis. Routledge. Ed.: Coulthard, M. London 242–58.
Crystal, D. 1985. A Dictionary of Linguistics and Phonetics. Blackwell. Oxford.
Doehring, D. G.–Ross, R. W. 1972. Voice recognition by matching to sample. J. of Psycholinguistic Res. 1. 233–42.
Doddington, G. R.–Helms, R. E.–Hydrick, B. M. 1976. Speaker verification III. Texas Instruments Inc. Report for RDAC, Rome, New York.
Gocsál Ákos 1998. Életkorbecslés a beszélő hangja alapján. In: Beszédkutatás ’98. Szerk.: Gósy Mária. MTA Nyelvtudományi Intézete. Budapest, 122–35.
Gordos Géza–Takács György 1983. Digitális jelfeldolgozás. Műszaki Könyvkiadó. Budapest.
Gósy Mária 1996. A beszéd akusztikai szerkezetének állandóságáról. In: Nyelv, nyelvész, társadalom. Emlékkönyv Szépe György 65. Születésnapjára barátaitól, kollégáitól, tanítványaitól. II. Szerk.: Terts István. Keraban Könyvkiadó. JPTE. Pécs, 66–75.
Gósy Mária–Nikléczy Péter 1999. A beszélő felismerése: elméleti megalapozás, módszertani közelítések. In: Beszédkutatás ’99. Szerk.: Gósy Mária. MTA Nyelvtudományi Intézete. Budapest, 1–19.
Hecker, M. 1971. Speaker recognition: an interpretative survey of the literature. A.S.H.A. Monogr. 16. Washington, D. C.
Heuvel, H. van den–Cranen, B.–Rietveld, T. 1995. Speaker characteristics in the coarticulation of three Dutch vowels [a, i, u.] Proceedings of the XIIIth ICPhS. Eds.: Elenius, K.–Branderud, P. KTH and Stockholm University. Vol. 2. Stockholm, 742–6.
Hollien, H. 1977. Speaker identification by long-term spectra under normal and distorted speech conditions. JASA 62. 975–80.
Hollien, H. 1990. The Acoustics of Crime. Plenum Press. New York, London.
Janota, P. 1967. Personal characteristics of speech. Trans. Of the Czechoslovak Academy of Sciences – Social Sciences Series 77/1.
Kempelen, W. von 1791. Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine. Degen J. V. Wien.
Künzel, H. J. 1995. Field procedures in forensic speaker recognition. In: Windsor Lewis, J.: Studies in General and English Phonetics. Essays in Honour of Professor J. D. O’Connor. Routledge. London, 68–85.
Ladefoged, P. 1978. Expectation affects identification by listening. Language and Speech 21/4. 373–5.
La Riviere, C. 1972. Acoustic and perceptual correlates to aural speaker identification. In: Rigault, A. (ed.): Proc. 7th ICPhS. The Hague, 558–64.
Lux Gyula é. n., de 1926 után. A nyelv. Athenaeum. Budapest.
Molnár Imre 1942. Eufonétika. A szép beszéd és éneklés tana. Kis Akadémia kiadása. Budapest.
Nakasone, H.–Melvin, C. 1988. Computer assisted voice identification system. Proceedings IEEE-ASSP. 587–90.
Nikléczy Péter 1996. Beszélő személy azonosítása szűk frekvenciás szavak alapján. In: Beszédkutatás ’96. Szerk.: Gósy Mária. MTA Nyelvtudományi Intézete. Budapest, 20–31.
Nolan, F. 1995. Can the definition of each speaker be expected to come from the laboratory in the next decades? Proceedings of the XIIIth ICPhS. Eds.: Elenius, K.–Branderud, P. KTH and Stockholm University. Vol. 3. Stockholm, 130–4.
Regner Tivadar 1862. A magyar nyelv kiejtése. Magyar Akadémiai Értesítő II. Budapest.
Schlichting, F.–Sullivan, K. P. H. 1998. Can voice imitation be detected in voice line-ups in a language unknown by the listeners? Phonum 6. 105–18.
Schroder, M. R. (ed.) 1985. Speech and Speaker Recognition. Karger. Basel, München.
Stevens, K. N. 1998. Acoustic Phonetics. MIT Press. Cambridge, Mass..
Vértes O. András 1979. A hang némely tulajdonságának történeti változásáról. Magyar Fonetikai Füzetek 3. 42–8.
Vértes O. András 1980. A magyar leíró hangtan története az újgrammatikusokig. Akadémiai Kiadó. Budapest.
Gósy Mária
Gósy, Mária: Phonetic aspects of voice quality and speaker recognition. The paper starts with the definition of voice quality as one of those acoustic-phonetic properties of speech that are characteristic of the speaker. The author discusses various experimental and practical data concerning the theoretical, acoustic-phonetic and perceptual aspects of speaker recognition. The results of an experiment involving the imitation of another person’s speech, and the role of harmonics and related parameters are also discussed.
![]()
* A tanulmány a T0-25965. sz. OTKA-kutatás keretében készült.
![]()