A performancia alapú nyelvtechnológiai kutatás legfőbb célkitűzései

 

Az informatika napjainkra kialakult legjelentősebb vívmányai közé tartozik az emberi nyelvek szövegeinek kezelése: nyelvtechnológiai megoldások támogatják a szövegek létrehozását, a bennük való keresést, a szövegek értelmezését, kivonatolását, fordítását. A feladat viszont nem oldható meg az egyes nyelvek informatikai szempontok alapján való alapos kutatása nélkül. Ez esetünkben elsősorban a magyar nyelv, melynek ilyen irányú, átfogó kutatásával mind a mai napig adós a hazai tudomány. A modern magyar nyelvtudomány az utóbbi évtizedekben elsősorban a generatív koncepció valamely változatát felhasználva írja le formális eszközökkel a magyar nyelvet. A generatív modellek azonban nem nyújtanak informatikai szempontból hatékony megoldást a szövegek elemzésére. A kutatócsoport egyik célja, hogy olyan algoritmikus megoldásokat találjon a magyar nyelvű szövegek teljességre törekvő elemzésére, mely sebességében és hatékonyságában összemérhető az emberi információfeldolgozással.


A nyelvi elemzési feladat hatékony megoldásához a párhuzamos feldolgozás megkerülhetetlenné válik, ha például arra gondolunk, hogy az emberek számára nem jelent problémát a grammatikailag lehetséges, de a gyakorlatban értelmetlennek tűnő elemzések kiszűrése. A humán információfeldolgozásban egyidejűleg és szorosan működnek együtt a nyelvi elemzést és az értelmezést végző agyi területek. A kutatandó modellt tehát – a neurolingvisztika és a pszicholingvisztika ide vonatkozó eredményeit lehetőség szerint figyelembe vevő – performancia-alapúság jellemzi, miközben a modern nyelvészet által vizsgált problémák minél nagyobb körét szándékozik lefedni. A párhuzamosság kezelését ma már több rendelkezésünkre álló architektúra is támogatni látszik: a többmagos gépek erőteljes elterjedése, a grafikus processzorok nem-grafikus feladatokra való egyre gyakoribb használata, valamint a PPKE Információs Technológiai Karának egyik „specialitása”, a hullámszámítógépek működtetése mind kínál új kutatási lehetőségeket. Ezen párhuzamos eszközök nyelvi feladatokra való használatának módja még nem ismert. Ezek kutatása is a csoport feladata.


A tervezett kutatások a korpusznyelvészetet is újabb irányokkal szándékoznak bővíteni. Mivel arra vonatkozó közvetlen adataink nincsenek, hogy az emberek „hogy értik” az egyes többértelmű nyelvi fordulatokat, ezért párhuzamos szövegkorpuszokat hívunk segítségül a fenti – önmagukban nem többnyelvű – problémák megoldásához.


Az elkészítendő nyelvtechnológiai eljárásokat adaptálni kívánjuk fontos szaknyelvi területek meglehetősen zajos szövegeire, elsődlegesen a Pázmány Péter Katolikus Egyetem Információs Technológiai Karán folyó orvosi–biotechnológiai kutatások szaknyelvére, ahol ez által többek közt a keresési feladatok hatékonyságának növekedése várható. A tervezett megoldás egyébként nemcsak a magyarra, hanem sok hasonló struktúrájú nyelvre is megfelelő számítógépes elemzési módszert szolgáltathat. Így mondattani szinten várhatóan jobban feldolgozhatóvá válnak az eddig kevésbé részletesen vizsgált, kevés beszélővel rendelkező és technológiailag is kevésbé támogatott rokon (uráli), valamint a gazdag toldalékrendszerű, szabad szórendű, több beszélő által beszélt, de nem feltétlenül rokon nyelvek szövegei is.