Programrendszer magyar nyelvű szövegek szavainak tövesítéséhez

  • Balogh Zoltán

Absztrakt

A magyar nyelv szerkezete a prefixek és szuffixek alkalmazása miatt nem teszi lehetővé az angol nyelvterületen alkalmazható szöveganalizáló módszerek alkalmazását. Az információtároló és -kereső rendszerek, a szöveges információkat tároló adatbázisok szóanyagának elemzésénél gyakori probléma a szövegekben előforduló szóformátumok visszavezetése a szótövekre; a szuffixek előtt gyakori kötőhangok felismerése és leválasztása; a szuffixek és prefixek levágása; a szófajok felismerése; a már létező szótárakban található szavakkal való azonosításuk.A programrendszer a jelzett problémák megoldását teszi lehetővé magyar nyelvű szövegeknél.Segédeszközül felhasználja:a szuffixek és prefixek táblázatát;a szövegek formaszavainak ún. nullszótárát;a tartalmat hordozó szótövek szótárát.Mindezek a szótárak automatikusan bővíthetők a feldolgozások eredményeként. Ehhez azonban már az emberi kontroll szükséges. További problémát jelent a szuffixek hasonulása, valamint a szótövekből való hangkiesesek, tőhangváltások megoldása,A programrendszer IBM 360 gépen OS PL/1./F/ nyelven üzemel.A rendszer szerkezetét és kísérleti feldolgozásának eredményét mutatja be a cikk.
Megjelent
2019-01-17
Rovat
Cikkek