Programrendszer magyar nyelvű szövegek szavainak tövesítéséhez

Balogh Zoltán

Absztrakt


A magyar nyelv szerkezete a prefixek és szuffixek alkalmazása miatt nem teszi lehetővé az angol nyelvterületen alkalmazható szöveganalizáló módszerek alkalmazását. Az információtároló és -kereső rendszerek, a szöveges információkat tároló adatbázisok szóanyagának elemzésénél gyakori probléma a szövegekben előforduló szóformátumok visszavezetése a szótövekre; a szuffixek előtt gyakori kötőhangok felismerése és leválasztása; a szuffixek és prefixek levágása; a szófajok felismerése; a már létező szótárakban található szavakkal való azonosításuk.
A programrendszer a jelzett problémák megoldását teszi lehetővé magyar nyelvű szövegeknél.
Segédeszközül felhasználja:
a szuffixek és prefixek táblázatát;
a szövegek formaszavainak ún. nullszótárát;
a tartalmat hordozó szótövek szótárát.
Mindezek a szótárak automatikusan bővíthetők a feldolgozások eredményeként. Ehhez azonban már az emberi kontroll szükséges. További problémát jelent a szuffixek hasonulása, valamint a szótövekből való hangkiesesek, tőhangváltások megoldása,
A programrendszer IBM 360 gépen OS PL/1./F/ nyelven üzemel.
A rendszer szerkezetét és kísérleti feldolgozásának eredményét mutatja be a cikk.

Tárgyszavak



Full Text:

PDF