Oldalak: 47 48 49 50 51 52 53 54 55 56 57 58

 

Egy dialektológiai adatbázis és elektronikus prezentációs rendszer alapvetése*

    1. Bevezető megjegyzések. — E tanulmány néhány szomszédos tudományág, elsősorban a dialektológia és fonetika érintkezési területének informatikai vonatkozásait tárgyalja, az elméleti lehetőségek feltárását tűzi ki célul (a 4. pontban konkrétabban, majd elvontabban és szélesebb összefüggésekbe ágyazva az 5. pontban). Előbb azonban [47] röviden beszámol egy kapcsolódó pályázat indulásáról (2.) és néhány inspiráló körülményről (3.).

A nyelvtudomány különböző területein egyre elterjedtebbek az informatikai megoldások. A bambergi nemzetközi dialektológiai kongresszuson (1990.) már külön szekció foglalkozott a számítógépes adatfeldolgozással, sőt volt számítógép- és szoftverbemutató is (vö. MNy. 1991: 106). Az utóbbi évtizedek legrészletesebb, legalaposabb dialektológiai kézikönyve is, a „Dialektologie. Ein Handbuch zur deutschen und allgemeinen Dialektforschung” (Hrsg. Werner Besch, Ulrich Knopp, Wolfgang Putschke, Herbert Ernst Wiegand. Walter de Gruyter, Berlin—New York, 1982.) külön fejezetet szentel a számítógépes eljárások nyelvjárástudományi alkalmazási lehetőségeinek (Computative Arbeitsverfahren in der Dialektologie. In: Erster Halbband 724—806). Kiefer Ferenc a napjainkban zajló információs és informatikai forradalom nyelvi hatásait elemezve megjegyzi: „Ez a változás a könyvnyomtatás felfedezésénél is komolyabb következményekkel jár. Az Európai Közösség szakembereinek véleménye szerint az új nyelvi technológiák olyan hatással lesznek a kultúra fejlődésére, mint amilyen szerepet játszott az írásbeliség a kultúra megőrzésében és terjesztésében. Jelentőségük a könyvnyomtatásénál is nagyobb.” (A magyar nyelv mint a modern kommunikáció eszköze: Magyar Tudomány XXXIX. 1994/6: 631—42, az idézett részlet: 635; a nyelvi technológiák kérdéséről l. újabban tőle: Néhány gondolat a nyelvi technológiákról. In: A magyar nyelv az informatika korában. Szerk. Glatz Ferenc. MTA, Bp., 1999. 129—33.)

    2. Az indulásról. — 1996 folyamán a jelen tanulmány szerzői, Juhász Dezső (ELTE Magyar Nyelvtörténeti és Nyelvjárástani Tanszék1), Vékás Domokos és Radványi Péter (ELTE Fonetikai Tanszék) szakmai jellegű magánbeszélgetések nyomán arra az elhatározásra jutottak, hogy e fontos területen új fejezetet nyitnak az ELTE Fonetikai Tanszéke, valamint Magyar Nyelvtörténeti és Nyelvjárástani Tanszéke kapcsolatában. Az együttműködéshez a szaktudományos lehetőségeken túl alapot ad, hogy mindkét tanszék birtokában vannak olyan értékes nyelvjárási felvételek, amelyeknek megmentése, archiválása, a kutatás és oktatás szolgálatába állítása fontos tudományos érdek. A kezdeményezést örömmel és támogatólag fogadta Kiss Jenő, a Magyar Nyelvtörténeti és Nyelvjárástani Tanszék vezetője, aki az ELTE Magyar Nyelvészeti Tanszékcsoportjának irányítását is ellátta. (Támogatása nélkül e vállalkozás nem tartana ma ott, ahol tart.)

A vállalt feladat egyik technikai „kulcsszereplője” a személyi számítógép, amely a huszadik század kilencvenes éveinek közepére már félprofesszionális formában is komoly feladatok ellátására vált alkalmassá (hangtárolás, -elemzés, speciális szövegszerkesztés, adatbázis-építés, digitális kartográfia, multimédiás rendszerek stb., l. még az internet megjelenését is). Ugyanakkor a két egyetemi tanszék informatikai infrastruktúrája — mindenekelőtt a számítógépekkel való ellátottsága — igen kezdetleges volt: sem teljesítményben, sem az új feladatokra való alkalmazhatóságban nem lehetett rá számítani. Ismerve az egyetemek katasztrofális anyagi helyzetét, alulfinanszírozottságát, egyetlen reménységünk a külső pályázat volt. Pályázatot nyújtottunk be tehát az 1997—1999 közötti időszakra a Felsőoktatási Kutatási és Fejlesztési Alaphoz „Dialektológiai adatbázis és elektronikus prezentációs rendszer” címmel. Tervezetünkben hangsúlyoztuk az új nyelvészeti technológiák fejlesztésének a kutatásban és az oktatásban egyaránt kiemelkedő jelentőségét, és a hangarchívum alapgondolatának megtartása mellett megpróbáltuk tömören felvázolni a multimédiás eszközök alkalmazásának, a sokoldalú adatkezelésnek és megjelenítésnek a lehetőségeit, beleértve a videotechnikát és az elektronikus nyelvi [48] kartográfiát is. Pályázatunk sikerrel járt, mód nyílt a munka megkezdésére és a kutatócsoport kibővítésére. (Egyes számítógép-alkatrészekhez a tanszékcsoport egyéb eszközpályázatának keretéből juthattunk hozzá.)

Szövegválogatás és -lejegyzés dolgában kapunk segítséget Fodor Katalin egyetemi docenstől, Mártonfi Attila, Dömötör Edit és Nagy Anita egyetemi hallgatóktól. A nyelvjárási atlaszok számítógépes egyesítésének lehetőségeit kutatja Hegedűs Andrea (jelenleg PhD továbbképzős, az MTA Nyelvtudományi Intézetének munkatársa). Konzultációkat folytattunk külső szakemberekkel is, például Balogh Lajossal és Kiss Gáborral, akik a Nyelvtudományi Intézetben — többek között — A magyar nyelvjárások atlaszának anyagát viszik számítógépre és fogják vallatóra (l. erről bővebben: Balogh Lajos — Kiss G. Gábor, A magyar nyelvjárások atlaszának számítógépes feldolgozása. In: Kontra Miklós szerk., Társadalmi és területi változatok a magyar nyelvben. MTA Nyelvtudományi Intézete, Linguistica, Series A, Studia et Dissertationes 9. Bp., 1992. 5—17).

A kutatócsoport állandó tagjainak munkamegosztása a következőképpen alakult: Juhász Dezső vállalta a pályázat témavezetését, a dialektológiai szempontok és igények érvényesítését, a kutatás hagyományos területeinek és a most feltárt lehetőségeknek az összehangolását, a hangarchiválás menetének kijelölését és az informatikai szempontból is releváns elméleti és gyakorlati dialektológiai kérdések megoldását, mint amilyen például a nyelvjárások területi bontása és ennek számítógépes kartografikus vonatkozásai. Vékás Domokos vállalta a fonetikai szempontok érvényesítését, az informatizálási koncepció külhoni példák tanulságait is figyelembe vevő kialakítását, egy interaktív nyelvjárási keretprogram tervezését korábbi fonetikai célú fejlesztések talaján, egy működő kísérleti változat folyamatos bővítését és oktatásban való kipróbálását. Radványi Péter fő kutatási és működési területe a számítógépes nyelvi archívum kiépítése és a hanganyagok digitalizálása lett, de számos más technikai feladat megoldása is rá hárult. A közös gondolkodás egy adott pontján, miután a főbb kérdések megítélésében egyetértés alakult ki, témavezetői felkérésre a projektum egy-egy területéről résztanulmányok születtek, amelyeket a szerzők — megvitatás után — többször átdolgoztak és néhány példányban elhelyeztek az ELTE Magyar Nyelvészeti Könyvtárában, illetve az anyagot hozzáférhetővé tették az interneten is (lelőhelye: www.btk.elte.hu/fonetika/p/kozle.html). Ezek a következők: Radványi Péter—Vékás Domokos, Informatikai lehetőségek a dialektológiában, különös tekintettel a hangzó anyagok kezelésére és a különböző jellegű adatok integrációjára; Vékás Domokos, Nyelvjárási hanganyagok archiválásáról: egy informatikai alapú koncepció és szellemi kontextusa; uő., Informatikai lehetőségek a dialektológiában, különös tekintettel a fonetikai szempontokra, Radványi Péter, Multimédiás Tároló Rendszer, gyűjtemények, archívumok kezelésére, uő., Hanganyagok digitalizálása és az archiválás szintjei: az ELTE (MNyFI) hanganyagkezelési módszerének részletes technikai ismertetése, ., Hang-, kép-, videoanyagok digitalizálása és az archiválás szintjei: az ELTE (MNyFI) hang-, kép-, video-anyagkezelési módszerének részletes technikai ismertetése. — Néhány részterület előzetes kidolgozását — pl. a Magyar Nyelvjárási Hangfelvételtár megtervezését —, ill. a rendszer áttekintő tablójának (lásd 1. ábra) elkészítését a témavezető vállalta. A felsorolt dokumentumokban a jelen tanulmánynál jóval részletesebb tájékoztató olvasható.

    3. Néhány inspiráló körülmény. — a) Egyes előremutató külföldi példák (elsősorban l. Bruce, G., Elert, C.-C., Engstrand, O., Wretling, P., Phonetics and phonology of the Swedish dialects — a project presentation and a database demonstrator. Proceedings from the 14th International Congress of Phonetic Sciences (ICPhS 99), San [49] Francisco, August, 1999.) bizonyítják, hogy az eszközfonetika érdeklődése a legutóbbi időben a területileg kötött hangtani jelenségek felé is fordul. Az érintkező tudományágak egyre szorosabb együttműködésének korszakát éljük: az interdiszciplinárisként is ismert fonetika természettudományokat idéző eszköztára és informatikai szemlélete meghonosodik a dialektológiában is, ahol további módszertani megújulást inspirál. A nyelvjárási adattárak informatizálása pedig a hangtani jelenségek gazdag és rendszerezett tárházát nemcsak a dialektológiai, hanem az elméleti (egyetemes tipológiai szempontok szerinti) hangtani kutatás számára is biztosítja.

b) Jótékony hatást gyakorolt terveink fejlesztésére egy az ELTE Magyar Nyelvtörténeti és Nyelvjárástani Tanszékén párhuzamosan folyó munkálat, az új egyetemi dialektológiai tankönyv készítése. (Ebben a programunkhoz szorosabban-lazábban kapcsolódó kollégák közül Juhász Dezső, Fodor Katalin, Kiss Jenő, illetve a Nyelvtudományi Intézetből Balogh Lajos kapott megírandó fejezeteket.) Itt mindenekelőtt azt a CD-sorozatot kell megemlítenünk, amely a tankönyv kiegészítéseként különböző szempontú válogatásban nyelvjárási hangfelvételeket tartalmaz. A CD-k egy része egyszerűbb, audiováltozatban, más részük multimédiás szerelésben, lejegyzett, képernyőn olvasható szövegekkel együtt jelenik majd meg. A sorozat címe „Magyar Nyelvjárási Hangfelvételtár”, szerkesztője Juhász Dezső. Az első válogatás címe: „Szövegek a magyar nyelvterületről — nyelvjárási régiók szerint”. A későbbiekben külön CD-t kapnak az egyes régiók és nyelvjáráscsoportok, a nyelvjárásszigetek és átmeneti területek, de szükség szerint sor kerülhet egyes helyi nyelvjárások, illetőleg az óhazától távolabb (pl. Amerikába, Ausztráliába) elszármazott magyarok nyelvének reprezentálására is. Ez a sorozat tehát a működő dialektológiai archívum anyagából táplálkozik.

c) A digitális hangarchívum kiépítését nem pusztán a már birtokunkban levő hanganyagok megmentése, hanem azoknak a hasznosítása is motiválja, amelyek folyamatosan gyűlnek a magyar szakos egyetemi hallgatók nyelvjárási terepgyakorlatainak melléktermékeként. Archívumunk természetesen főleg az ELTE kutató- és oktatóhelyeinek kiszolgálására létesült, de szívesen lát és illeszt rendszerébe bármely helyről érkező, arra érdemes nyelvjárási hangfelvételt. Mindaddig, amíg létre nem jön egy nemzeti nyelvjárási hangarchívum, az ELTE olyan gyűjtőhely szerepét is betöltheti, amely a kallódó értékeket menti (l. alább a d) pontot).

d) Itt jegyezzük meg, hogy valószínűleg e kutatóhely technikai bázisára támaszkodva valósulhat meg a Nyelvtudományi Intézet tulajdonát képező, de a Zenetudományi Intézet raktárában tárolt, mintegy 400 tekercsből álló nyelvjárási hangfelvétel-gyűjtemény digitalizálása2. A felvételek a 60-as években készültek A magyar nyelvjárások atlaszának ellenőrző útjain, de napjainkra egy részük hasznavehetetlenné vált, más részük pedig kritikus állapotba került. Feltehetőleg más intézmények (egyetemek, főiskolák, múzeumok stb.) birtokában is vannak ilyen veszélyeztetett magnótekercsek. Kérdés, hogy sorsuk jobbra fordulását a helyi vagy központi kezelésbe vétel segítené jobban. (A kettő persze nem zárja ki egymást.)

e) A magyar népnyelvi hangarchívum ügyét legutóbb Sebestyén Árpád állította reflektorfénybe a Magyar Nyelvtudományi Társaság 1998-i közgyűlésén tartott előadásában „Egy nyelvészeti tartozásunk — tudománytörténeti háttérrel” címmel (l. MNy. 1999: 1—9). Drámai hangú, ugyanakkor rendkívül szakszerű okfejtésében bizonyítja a tájnyelvi hangfelvételek megőrzésének és felhasználásának jelentőségét a hangtani, alaktani, [50] mondattani, általános nyelvészeti kutatások számára. Konkrét javaslatokat is tesz a nemzeti hatókörű, határokon túlra is kiterjeszkedő hangarchívum (az ő elnevezésében „Magyar Népnyelvi Hangtár”) létrehozására, illetve az ehhez vezető lépésekre. Sebestyén Árpád ekkor még nem ismerte kutatócsoportunk terveit és kísérleteit, de sok tekintetben nagyon hasonló gondolatokat fogalmazott meg, mint amilyeneket pályázatunk tézisei tartalmaznak. A magyar népnyelvi hangarchívum kiindulópontjaként olyan dialektológiai munkaközösséget képzel el, amely az egyik egyetem kebelében alakulna, és létrehozója lehetne egy független intézménynek, amely kedvező esetben saját infrastruktúrával és költségvetéssel rendelkezne. „Egy ilyen munkaközösség kezdeményezője lehetne az MTA Magyar Nyelvészeti Munkabizottsága: ez az a testület, amelyben a hangtár létrehozásában érdekelt legtöbb intézmény, egyetemi, főiskolai magyar nyelvészeti tanszék képviselve van.” (MNy. i. h. 8—9.)

f) Nos, az MTA Magyar Nyelvészeti Munkabizottsága gyorsan reagált a kezdeményezésre, mert 1999 tavaszán napirendre tűzte a kérdést. A téma előadója ismét Sebestyén Árpád volt, de részben hivatalból (Juhász Dezső bizottsági titkárként), részben meghívottként (Vékás Domokos, Radványi Péter) az ELTE kutatócsoportja is képviseltethette magát és vázolhatta terveit, elért eredményeit. A tanácskozás végén a Munkabizottság úgy határozott, hogy amíg önálló bázisként a magyar népnyelvi hangarchívum létre nem jöhet, az ELTE kutatócsoportja foglalkozzon a rendszer kereteinek fejlesztésével, és a kidolgozott technológiát bocsássa rendelkezésre más helyi archívumok létrehozásához. Ezek hiányában vállalkozzon minél több külső helyen fellelhető hangfelvétel begyűjtésére, digitalizálására és archiválására.

g) Egyébként nem az említett akadémiai munkabizottsági ülés volt a kutatócsoport első szakmai bemutatkozása, hanem az a tanácskozás, amelyet a KLTE Magyar Nyelvtudományi Tanszéke szervezett 1998 őszén a debreceni egyetem síkfőkúti kutatóházában „Számítógépes nyelvészeti adatbázisok” címmel. Munkacsoportunkat Juhász Dezső, Vékás Domokos és Hegedűs Andrea képviselte egy-egy előadással.

h) Végül, de nem utolsó sorban munkánk egyik katalizátora A romániai magyar nyelvjárások atlaszának kiadási munkája, amely a Magyar Nyelvtudományi Társaság megbízásából, szintén az ELTE Magyar Nyelvtörténeti, Szociolingvisztikai, Dialektológiai Tanszéke bázisán folyik munkacsoporti keretben, Juhász Dezső témavezetésével. Ez az első magyar nyelvatlasz, amely számítógép segítségével készül, nagyszabású, A magyar nyelvjárások atlaszának méreteit megközelítő adatbázisra építve. Az 1994-ben induló vállalkozás lezárulása a XXI. század első évtizedében várható, és ennek eredményeképpen nemcsak egy 11 kötetes nyomtatott atlasz, illetve nyelvföldrajzi szótár születik meg, hanem olyan elektronikus nyelvi adatbázis is, amely a magyar nagyatlasz digitalizált változatával összekapcsolva páratlan forrása lesz a dialektológiának. Az eddigi öt kötet megjelentetése során számos olyan technológiai tapasztalat is összegyűlt, amely egy integrált, nyelvföldrajzi komponenst is tartalmazó adatbázis, illetve prezentációs rendszer számára is kamatoztatható. (Ezzel kapcsolatban l. Juhász Dezső, A romániai magyar nyelvjárások atlaszának kiadástörténeti, nyelvi és településtörténeti tanulságaiból: MNy. 1997: 199—207.)

    4. A dialektológiai adatbázis és elektronikus prezentációs rendszer váza, főbb szerkezeti elemei. — A digitális nyelvjárási archívum lehetséges felépítését és közvetlen környezetét (kapcsolatát különböző adatforrásokkal, illetve a rá építhető operatív rendszerekkel) — a teljesség igénye nélkül — külön tablón szemléltetjük (lásd 1. ábra). [51]

A) Mielőtt a részletekre térnénk, néhány alapvető megállapítást szükséges tennünk.

a) A számítógép nem öncélú játék: az ember — jelen esetben a nyelvész — munkájának megkönnyítését szolgálja azáltal, hogy kutatási tárgyáról, a nyelvről a korábbiaknál többet tud megmutatni, s teszi ezt a korábbi eszközöknél gyorsabban, kényelmesebben, megbízhatóbban. Szakterületfüggő technikákkal felszerelve felkínálja a lehetőséget, hogy például megszámol és táblázatban vagy grafikonon ábrázol kiválasztott jelenségeket, akár tíz- vagy százezres nagyságrendben is; meg tud keresni nagy, már rendszerezett adathalmazban rejtőző ritka, de egy hipotézis, elmélet számára kulcsfontosságú adatokat; lehetővé teszi, hogy hangzó alakban rögzített jelenségek rezgésképét, hangképét megtekinthessük, elemezhessük, vagy magunk készíthessünk színes elterjedési térképeket nyelvjárási ejtésű (illetve morfológiailag, lexikálisan variálódó) szavakról; szakirodalmi tájékoztatást nyújt egy megjelölt kérdéskörről vagy vizsgálatra kiszemelt kutatópontról. És ez csak néhány kiragadott lehetőség.

Most még talán kissé utópisztikusan hangzanak az elmondottak, de a lehetőségek belátható közelségben vannak. Ahhoz, hogy a megálmodott rendszerek működőképesek legyenek, sok kísérletezésre, komoly fejlesztő munkára van szükség. De minél hamarabb helyükre kerülnek a tartópillérek, vázelemek, annál kevesebb átszervezésre, átdolgozásra kényszerülünk. A nagyobb mennyiségű adattal való feltöltés csak ezek után célszerű.

b) A tablón ábrázolt rendszeregyüttes a maga egészében tehát egyelőre terv, de fontos elemei máris működőképesek és feltöltés alatt állnak. Ilyenek például a nyelvjárási adatbázis első lépcsőjét alkotó digitális hangarchívum és az azt hasznosító multimédiás elemek. A korábban vázolt tudománytörténeti tények és a közreműködő kutatók szakmai kompetenciája is azt kívánta, ide összpontosítsuk energiánk legnagyobb részét. Ugyancsak a szakmai kompetencia és a megfelelő előmunkálatok megléte motiválta a digitális kartográfia, a nyelvföldrajzi összetevő fejlesztését.

c) Az egyoldalú szemlélet, a szakmai elfogultság vagy a sznobizmus gyanúját elkerülendő kijelenthetjük: ha a megtervezett rendszer minden eleme működni fog és fel lesz töltve elégséges mennyiségű adattal — az adatbázisok frissítése, karbantartása egyébként folyamatos feladatot jelent — akkor sem kell félni attól, hogy bizonyos hagyományos adatforrások, például papírra nyomtatott szótárak vagy monográfiák teljesen kiszorulnának a tudományos kutatás színpadáról. Ezeknek a kézbevétele még sokaknak sokáig kényelmesebb, otthonosabb lesz, mint a virtualizált változatuké. Tervezetünk ezért több helyen számba veszi a kinyomtatás lehetőségét is. — Ugyanakkor körvonalazódik egy oktatási feladat is: a felhasználókat meg kell majd tanítani ezeknek a technikáknak a minél egyszerűbb, „fájdalommentesebb” kezelésére. (Az egyetemeken pl. a filológiai ismeretek mellé alighanem be kell majd vezetni a technológiai alapismereteket is.)

B) A tabló első oszlopára tekintve láthatjuk, hogy a digitális archívum feltöltésében egyelőre igen fontos szerepet játszanak a hagyományos adathordozókon elérhető adattárak, ezeket összefoglalóan forrástár-nak, az innen átemelendő anyagot forrásanyag-nak nevezzük. (Forrásanyag tehát minden, ami a rendszeren kívülről jön, még akkor is, ha egy idő után már nem hagyományos formában, hanem eleve pl. digitális hangként, képként vagy szövegként rögzítik.) Legfontosabb forrásaink jelenleg a magnó- vagy videószalagra rögzített nyelvjárási gyűjtések, a fonetikusan lejegyzett szövegek, a nyomtatott vagy gépiratos lexikai, frazeológiai, grammatikai adattárak (szótárak, nyelvtanok, atlaszok stb.). A dialektológusok nagy hasznát vennék egy olyan honismereti adattárnak és bibliográfiának is, amely a települések nyelvi helyzetképének minél részletesebb társadalomtudományi — néprajzi, településtörténeti, szociológiai stb. — hátteret ad. (Arról az [52] adósságunkról se feledkezzünk el, hogy a Benkő—Lőrincze-féle „Magyar nyelvjárási bibliográfia” fél évszázada jelent meg, folytatása több mint időszerű.)

A tabló második oszlopa az archívum „előszobája”, amit nyersanyagtár-nak nevezünk. Nyersanyagnak tekintünk minden forrásanyagot a rendszerbe lépéstől. A nyersanyagok legfontosabb fajtái a hanganyagok, képanyagok, videoanyagok, illetve alfabetikusan vagy egyéb módon kódolt nyelvi anyagok. Ezek a számítógépen az anyagok természetéhez igazodó (hang-, kép-, szöveg- stb.) fájlokban öltenek testet. A fájlba öntéshez természetesen a nyersanyagot technikailag tagolni kell, majd a fájlokhoz olyan adatlapokat csatolni, amelyek a tárolt anyagot több szempontból azonosíthatóvá teszik. A hang- és képanyag beléptetése a nyilvántarási kódoláson túl első renden gépi digitalizálást jelent és ennek megfelelő technikát igényel, a nyelvjárási szövegek alfabetikus rögzítése, „beírása” pedig mindenekelőtt speciális szövegszerkesztést. Ez utóbbinak csak egyik kívánalma az, hogy bármikor egy fonetikai átírás köntösében megtekinthető, illetve kinyomtatható legyen. (Rendszerünk a magyar nyelvjárások tanulmányozására kidolgozott egyezményes átírást használja; ennek részletes indoklására l. Vékás Domokos, Informatikai lehetőségek a dialektológiában különös tekintettel a fonetikai szempontokra: a 2. pontban idézett webhelyen.) A másik, nem kevésbé fontos kívánalom az, hogy az alfabetikus rögzítés informatikailag is hasznosítható legyen, tehát összetett hangtani keresésekre is alkalmas legyen. (A nyomdai célokra kifejlesztett szövegrögzítő programok nem vagy csak részben felelnek meg ilyen elvárásoknak.) A kódolás munkafázisa kiegészülhet sajátos igényeket kielégítő jelölésekkel (pl. rögzíthető az is, hogy egy nyelvjárási hang milyen köznyelvi hang helyén jelenik meg, vagy milyen asszociatív változás eredménye), de ezek az igények nehezen jósolhatók meg előre.

A tabló harmadik oszlopa az adatbázisnak azt a szintjét ábrázolja, amit készenléti tár-nak neveztünk el. (A nyersasnyagtár és készenléti tár működését a hangzó anyagok feldolgozásában a 2. ábra szemlélteti.) A nyersanyagból itt válik könnyen mobilizálható, nyelvileg, tartalmilag jól tagolt informatikai anyag. Hang- és videoanyag esetében ezeket a tartalmilag tagolt egységeket (archívum)felvétel-nek nevezzük. Nyelvjárási szövegekben általában egy tematikailag körülhatárolható részletről van szó, egyébként pedig lexikográfiailag vagy grammatikailag felszerelt egységekről, amelyek szótári vagy nyelvtani elrendezettséget is ölthetnek. Itt is megjegyezhetjük: természetesen a készenléti tárban elhelyezett anyagok is a szervezettség és informatizáltság különböző fokain állhatnak; egy digitális nyelvföldrajzi szótárból például nyelvi térképek, a térképekből atlaszok állíthatók elő. — A nyersanyagtár és készenléti tár anyagainak legpraktikusabb tárolási módja jelenleg a CD-lemez (de később még korszerűbb, nagyobb kapacitású adathordozók is, pl. DVD, ill. szervergépek is alkalmazhatók). Az adatlapokon tárolt és egyéb archivális jellegű információkat különböző gépi listák tartják nyilván. Bázislista készül például a CD-lemezekről, a tárhelyekről, a hanganyagokról, kutatópontokról, hang- és egyéb felvételekről. Egy hangfelvétel adatlapja a következő információkat rögzíti: a kutatópont neve, a megye/táj neve; az ország kódja, az eredet kódja, a felvétel kódja, a kutatópont kódja; a felvétel sorszáma, kiegészítő kódja, hossza, rögzítésének dátuma; az adatközlő(k) neve, kora, születési helye, foglalkozása, vallása; a gyűjtő neve, a lejegyző neve, a megjelenés helye (ha megjelent), a felvétel nyelvjárásiasságának foka, technikai minősége; a jogvédő intézmény neve, a hangtechnika kezelője, az archiválás dátuma, az adatlapot ellenőrző személy neve; a felvétel (szövegdarab) témája; egyéb megjegyzések.

A tabló negyedik oszlopában az archívumra építhető néhány jellegzetes operatív rendszert tüntettünk fel. A legáltalánosabb feladat a különböző szempontok szerinti keresés (lekérdezés). A keresési „képesség” elsősorban a kódoláskor rögzített információk mennyiségétől és jellegétől függ. A keresések révén, amelyek hierarchikusan egymásra [53]

tabdha.gif (21004 bytes)

2. ábra

A dialektológiai archívum hangfájlkezelésének technikai blokksémája [54]

épülhetnek, grafikusan is ábrázolható jelenségegyüttesek állhatnak elő, prezentálódhatnak. A prezentáció egyik látványos területe a nyelvjárási kartográfia. A készenléti tárban tárolt egyedi térképlapok felhasználásával jelenségtérképek vagy összesítő térképek készíthetők. Az ábrázolásban mindazok a megoldások (pl. színek, szimbólumok, izoglosszavonalak stb.) alkalmazhatók, amelyekkel a hagyományos nyomdatechnika eddig élt, de előállításuk professzionális hátteret és rengeteg pénzt igényelt. Deme László „Nyelvatlaszunk funkciója és további problémái” című könyvében (Bp., 1956. 335—8, 346—7) az opponenseknek adott válaszában többek közt megjegyzi, hogy a tőle elképzelt térképi szemléltető megoldások nem azért kaptak kritikát, mivel tévesek vagy rosszak lennének, hanem jelentős részben a kivitelezés időigényessége és technikai bonyodalmai miatt. Nos, remélhetőleg nincs messze az az idő, amikor a nyelvész sajátkezűleg is színvonalas szemléltető térképeket készíthet, neki tetsző grafikai megoldásokkal, azaz szakmai elképzelését közvetlenül megvalósíthatja és tesztelheti. Ennek a vívmánynak az oktatásban is jól hasznosítható végtermékei lesznek. — A magyar dialektológia több mint húsz kisebb-nagyobb nyelvjárási atlasszal dicsekedhet, és még közel fél tucat vár befejezésre, illetve kiadásra. Komplex hasznosításukat nemcsak az segítené, ha a bennük levő anyag könnyen elérhető lenne, hanem az is, ha az egyesítés kartográfiailag is megoldható lenne.

    5. — A nyelvjárási hanganyagok archiválásának átfogó informatikai koncepciójához. — A már rögzített, illetve új gyűjtésekből származó hanganyagok digitalizálása és tárolása nem minősülhet önálló feladatnak. A hanganyagok kezelésének kérdését gyakorlati és elméleti vonatkozások határozzák meg a nyelvjárástan informatikai fejlesztésének tágabb keretében. A hagyományos hordozók pusztulása gyakorlati szempontból követeli meg, hogy a digitális feldolgozás folyamatában a sürgős értékmentést, a tűzoltómunkát is el lehessen végezni. A dialektológia most kibontakozó informatikai lehetőségei pedig elméleti szempontból támasztanak igényeket az archívummal szemben, elsősorban az elérhetőség és más adatokhoz való integrálás tekintetében. Az archívum tervezése és építése során meg kell felelni e sokrétű kívánalmaknak.

Mit értettünk régebben archívumon? Az egy helyre összehordott, biztonságosan elzárt, esetleg valamilyen szempontból sorrendezett és minimálisan katalogizált anyagokat akár így is nevezhettük. Ilyen gyűjtemények építése nem kecsegtetett tehát a széles körű hozzáférés biztosításával, mára viszont gyökeresen új helyzet állt elő: az értékmentés régi kényszerűsége az informatika új lehetőségeivel, a dialektológia új igényeivel párosul. Az archívumokkal szemben támasztott mai elvárások a fentebb mondottak értelmében: rendezettség, feldolgozottság, könnyű kereshetőség, gyors elérhetőség, hozzáférhetőség távolról is, hivatkozhatóság, referenciaanyag-funkció, adatbázisok összekapcsolása. Figyelembe véve a más területeken megvalósult korszerű archiválási munkák tapasztalatait is, a nyelvjárástan speciális helyzetének is megfelelő elképzeléseket kell kidolgozni.

Noha az archiválás kapcsán állagmegőrzésről, értékmentésről, digitalizálásról, CD-lemezek előállításáról is beszélünk, e fogalmak és munkafolyamatok kizárólag az archívum feltöltésével, nyelvészeti vonatkozásokkal nem feltétlenül bíró technikai kérdésekkel függenek össze. Egy nyelvjárási hangarchívum lényegét jobban megragadhatjuk, ha a felhasználó (a holnap nyelvésze vagy akár a ma érdeklődő egyetemistája) oldaláról közelítjük meg. Mire akarjuk használni az archívumot az ezredforduló tájékán és a következő évtizedekben? [55]

a) A hanganyagokat — a szaktudományos feladatunk szempontjából releváns ismérvek alapján keresve — könnyedén meg akarjuk találni, és használatba akarjuk venni (tehát részletében vagy egészében meg akarjuk hallgatni, és esetleg akusztikailag elemezni).

b) A kiválasztott anyaghoz tartozó adatokat (lejegyzést, mérési eredményeket, illetve további kapcsolódó adatokat, amelyek például az adott kutatópont nyelvváltozatáról rendelkezésre állnak) azonnal el kívánjuk érni.

c) Vizsgálódásunk eredményeként ezen adatokat, tehát magát az archívumot gazdagítani szeretnénk, hogy munkánk azonnal hasznosuljon a tudományág számára.

d) Egy-egy vizsgált jelenség archívumbeli helyére a másodperc töredékének pontosságával kell tudnunk hivatkozni, hogy állításaink könnyen ellenőrizhetők, tehát nagyobb súlyúak legyenek.

e) Mindezt a legkorszerűbb felhasználói felületeket alkalmazó szoftverek segítségével kívánjuk megoldani.

Koncepciónk tehát feladatközpontú: a felhasználás során jelentkező és jól prognosztizálható igényekből indul ki.

Az archívumot — mint minden digitális adattárat — informatikai eszközök birtokában használhatjuk. Noha a CD-n tárolt, az archívumhoz tartozó hangfájlokat egy közönséges multimédiás számítógépen is meghallgathatjuk, és a legfontosabb információkat a mellékelt adatlap-fájlokból megtudhatjuk, a magasabb szintű, hatékonyabb használatnak további feltétele van. A különböző fajtájú és jellegű adatok egymáshoz kapcsolása érdekében az archívum feltételez egy nyelvjárástani informatikai környezetet, amelynek szerves része.

Az archiválás megtervezése csak akkor lehet sikeres, ha elképzelést alakítunk ki a kutatói munka várható tendenciáiról, és ha figyelembe vesszük az újonnan jelentkező igényeket. Koncepciónkat arra alapozzuk, hogy a dialektológia, más rokon tudományágakat is valamelyest megelőzve, informatikai fejlesztések által a következő évtizedekben új fejlődési szakaszba léphet. Számítástechnikai ismeretekkel, amelyek egyre inkább az alapműveltség részévé is válnak, újszerű feladatmegközelítési és problémamegoldási lehetőségeket biztosíthatunk; az informatika a kutatási és oktatási környezet szervezésének egyetemes, infrastrukturális háttérrendszerévé válik. E felismerés következménye, hogy a magyar nyelvjáráskutatás és névtan több központjában már évek óta hatalmas mennyiségű adat számítógépre vitele folyik (az ELTE-n kívül pl. a KLTE Magyar Nyelvtudományi Tanszékén), a hangzó és akár a képi anyag relevanciája folytán pedig szinte maguktól kínálkoznak a már sokak által megálmodott és mára lehetségessé váló multimédiás megoldások: a digitális archívumok ideje tehát éppen most jött el. Feltételezzük, hogy az egyes műhelyekben szoftverek készülnek, a helyi (és minden bizonnyal egymástól eltérő) kutatási és oktatási célkitűzésekhez optimalizáltan; a különböző szoftvereknek kapcsolatba kell tudni lépni a nyelvjárási adatrendszerekkel, köztük a hangarchívummal. Az archívumot tehát világosan rögzített, alapjaiban minél egyszerűbb szabványokra építjük, hogy az azt kezelő szoftverek minél könnyebben használhassák. Koncepciónk értelmében tehát az archívum magas szintű kezelését nem egy szoftverre, hanem egy — természetesen nyelvészeti szempontú — szabványrendszerre bízzuk, amelyet tetszőleges számú szoftver különböző mélységben alkalmazhat. A szabványoknak megfelelően előállított hangfájlokat és a vonatkozó adatokat az erre felkészített különböző szoftverek a (dialektológiai) rendszer elemeiként felismerik, és így használni tudják.

Az archívum nagyfokú nyelvészeti feldolgozottságot sugall, tehát óriási emberi munkával és a megvalósításra szánt évek hosszú sorával számolhatunk, az új gyűjtések [56] befogadása pedig állandó bővülést jelent. Mikor válik használhatóvá? Ha a kezelés valamelyik szintjének informatikai feltételei a felhasználónál biztosítva vannak, akkor az egyes hangfelvételek archívumba kerülésüktől, a regisztrálás pillanatától rendelkezésre állnak. A hangfelvételekre vonatkozó adatok is folyamatosan gyarapodnak, tehát a kezdetektől lehetséges felhasználás a későbbiekben egyre mélyebb lehet.

Az archívum egységei és a vonatkozó adatok tehát nem egy helyen készülnek és nem egyetlen helyen gyűlnek. Digitálisak lévén, korlátlan számú egyenértékű példányban sokszorosíthatók, és — gyakorlati megfontolások alapján — több helyen is tárolhatók. Mivel a hangfájlok képezik az alapegységeket, újracsoportosított formában való CD-re írásuk (tematikus adat-CD-k írása) is a rendszer lehetősége, a sokszorosítás speciális válfajaként. A sokszorosításnak persze technikai és pénzügyi korlátai vannak. Mivel modellünk szétválasztja az archívum elemeit (a nagy tárigényű hangfelvételeket) a hozzáférés eszközeitől (a jóval kisebb tárigényű vonatkozó adatoktól, digitális katalógusoktól), utóbbiak minél szélesebb körű elterjesztése (számítógépek merevlemezére telepítése és rendszeres frissítése az Interneten keresztül) a fő feladat, így az archívumbeli keresés minden nyelvjárástani célokra használt gépen (hálózati kapcsolat hiányában is) gyorsan elvégezhető. A keresés eredményeként megtalált hangfájlok konkrét elérése az adott technikai színvonal és a pénzügyi lehetőségek függvényében (helyi tárolókapacitás, hálózati kapcsolat stabilitása és sebessége, CD-sokszorosítás és terjesztés mértéke) lesz lassúbb vagy gyorsabb.

Az archívumnak több, egymással hierarchikus viszonyban nem álló központja is lehet, mint ahogyan a világhálónak sem egyetlen központja van. Az archívumot is több műhelyben építhetik egyszerre, az eredményeket pedig mindenki használhatja. Az egységes rendszer építésének azonban feltétele van: a különböző helyeken, de azonos formában létrehozott elemeket (hangfájlokat és vonatkozó adatokat) regisztrálni kell; az elnevezési sémáknak megfelelő, szabványos neveket csak egy információs és regisztrációs központ szolgáltathatja. E központ fő megjelenési formája egy hálószem (egy tájékoztatási csomópont) lehet a legfontosabb információk nyilvánossá tételével. Bármelyik másik központ ide fordulhat a fájlformátumokra, az egyes kutatópontok kódolására stb. vonatkozó információkért, ha az adott központ a saját helyi hangarchívumát úgy kívánja építeni, hogy az egyúttal egy nagyobb, nemzeti keretet kitöltő rendszer részévé váljon. A regisztrációs központ feladata tehát mindössze annyi, hogy az építéshez kért információkat szolgáltassa, és hogy a létrehozott rendszerelemekről az összes érintettet (a dialektológus közösséget) folyamatosan tájékoztassa a hálószemen tartott, alapinformációkat tároló adatbázis folyamatos frissítésével.

Mit tudunk kezdeni más eljárással létrehozott digitális hangtárakkal? Más gyűjtemények felvételszerű fájljait puszta névadással és adatlap kitöltésével regisztrálhatjuk (integrálhatjuk), ugyanakkor más archívumok számára anyagot szolgáltathatunk. Amennyiben az egységes szabványrendszert a különböző műhelyek nem fogadják el, ha saját koncepciót dolgoznak ki, és saját munkafolyamatot határoznak meg, az archívumok közötti jó együttműködést feltételezve még így is, központi koordinálás nélkül is integrálódhatnak a különböző intézményekben nem azonos (de lehetőleg összeegyeztethető) módszerrel archivált hanganyagok. Az ELTE-n folyó előkészítés kezdetben az információs és regisztrációs központ nélküli helyzetből indult ki, a különböző központok közötti technikai együttműködés viszont a fejlesztési források összehangolt, hatékony kihasználását tenné/teszi lehetővé.

Végezetül néhány gyakorlati kérdés. A hanganyagok szabványos fájlformátuma csak közismert és egyszerű formátum lehet, hogy mindenhol elő lehessen állítani, és hogy a hangkezelő szoftverek — szinte platform-megszorítások nélkül — használni tudják. Az [57] adathordozók (CD-lemezek) formátuma is feleljen meg a minél nagyobb kompatibilitás elvárásának. A folyamat sikerét előmozdíthatja, ha az egyes műhelyek jól kiválasztott sorrendben látnak hozzá a hanganyagok digitalizálásához (előbb a nagyobb értéket képviselő vagy minőségében veszélyeztetettebb anyagok kerüljenek sorra). A digitalizálás előre nem látható nehézségeket is rejteget az eredeti hordozók sérülékenysége miatt, nagyobb mennyiségű tapasztalat még sehol nem áll rendelkezésre. A végeredményben nem kellőképpen érdekelt külső cégek bevonása még szerencsés pénzügyi körülmények között sem lenne tanácsos. Ez annál is kevésbé lenne kivitelezhető, mivel igen munkaidőfaló és szaktudásigényes a munkafolyamatok konkrét tervezése, az anyagok előkészítése digitalizálásra, az előrehaladás figyelése, a minőségellenőrzés. Vállalni kell, hogy a különböző színvonalú hangtechnikai körülményeket biztosító helyszíneken az egységes forma (például mintavételezési sebesség, fájlformátum) ellenére sem lesz teljesen egységes minőségű a digitalizálás. Külön kérdést vet fel a digitális másolat és az eredetileg rögzített, analóg hordozón tárolt forrásanyag viszonya: szabad-e a jobb hallhatóságra szűréssel, dinamikakorrekcióval stb. törekedni? Vagy írjuk elő az archívum szintjén az eredetiség megőrzését, a javításokat pedig bízzuk a felhasználóra? Milyen szerepe lehet az adatsűrítésnek (kompressziónak)? Az ilyen technikai és gyakorlati kérdésekre is konkrét útmutatást kell kidolgozni, hiszen ez is feltétele a koncepció megvalósíthatóságának.

    6. Záró megjegyzések. — Aki aratni akar, annak vetnie is kell. A magyar tudomány anyagi ellátottsága napjainkban is rendkívül szerény. Témánknál maradva: egyelőre az is nagy gondot okoz, hogy a végveszélybe került nagy értékű hangfelvételeket pusztán átjátszással megmentsük a megsemmisüléstől. Mégsem helyezkedhetünk arra az álláspontra, hogy „ha majd lesz pénzünk, dolgozunk”. A tudománya iránt felelősséget érző kutatónak most a jövőbe vezető utakat is keresnie kell — talán még nagyobb erőfeszítéssel, mint eddig. A hagyományok, a kulturális és nyelvi értékek őrzésével egyetemben3.

 

* Tanulmányunk elkészítését a Felsőoktatási Kutatási és Fejlesztési Pályázatok keretében elnyert FKFP 0574/1997. nyilvántartási számú pályázat (témavezető: Juhász Dezső, főmunkatársak: Radványi Péter, Vékás Domokos; a további közreműködőket l. a jelen tanulmány 2. pontjában), továbbá a „Multimédiás, interaktív nyelvészeti oktatás (alapozás)” (PFP 3022/1997, témavezető: Kiss Jenő, közreműködők: Radványi Péter, Vékás Domokos, Fodor Katalin) projektum támogatta.

1 1999 óta Magyar Nyelvtörténeti, Szociolingvisztikai, Dialektológiai Tanszék.

2 Az előkészítő munka megindítására szerény összeget biztosított a „Képi és hangzó emlékeink gyűjtése” c. pályázat (404/SZÖP /Szellemi Örökség Program/, témavezető: Kiss Jenő, közreműködő: Radványi Péter).

3 A korrektúra javításakor kaptuk az FKFP kuratóriumának levelét: a források szűkösségére való hivatkozással a Felsőoktatási Kutatásfejlesztési Alap nem támogatja vállalkozásunk 2000-től kezdődő második szakaszát.

Juhász Dezső—Radványi Péter—Vékás Domokos

Vissza a Tartalomhoz

 

nyitólap

 

Prolegomena to a dialectological data base
and electronic presentation system

The currency of personal computers, their fast-growing capacity, and the permanent development of software used in scientific research and data management marks the beginning of a new era in dialectology, as in many other areas. Three years ago, in the Institute of Hungarian and Finno-Ugric Linguistics of Eötvös Loránd University, a research team of dialectologists, phoneticians and information experts — supported by a Higher Education Support Program — was formed to investigate the possibilities of establishing an up-to-date multimedia language archive or data base for the interpretation of a large body of sound and video material, as well as encoded texts and language geographical data. The present paper summarises preliminary results of these attempts.

Dezső Juhász —Péter Radványi —Domokos Vékás

Beck to Contents

 

Main page