РОЗРОБКА ІНСТРУМЕНТУ ДЛЯ ОБРОБКИ ТЕКСТІВ З НЕОДНОРІДНОЮ СТРУКТУРОЮ
Анотація
Представлен підхід в розробці системи для обробки неструктурованих текстових даних румунської мови. Метою даного проекту є розробка інструменту SoFTcrates, системи програмного забезпечення
для обробки неструктурованих текстових даних для створення структурованих вихідних даних в якості комп'ютерних лінгвістичних ресурсів. Ми описали деякі математичні аспекти в текстовому поданні і представили деякі етапи обробки неструктурованих текстових даних. Крім того, інтерфейс програми проілюстровано.
В майбутньому ми постараємося реалізувати механізми диверсифікації заснованих слів за допомогою словотворчих механізмів і семантичної мережі WordNet. Більш того, ми будемо оптимізувати інтерфейс, щоб мати
можливість шукати не тільки завдяки одному слову за раз, а й завдяки кількох слів, які користувач вважає
більш відповідними до тексту.
