Гл. ас. д-р Георги Чолаков 1), доц. д-р Емил Дойчев 1) ,
проф. д-р Светла Коева 2)
1)Факултет по математика и информатика – ПУ „Паисий Хилендарски“ (България)
2)Институт за български език „Проф. Любомир Андрейчин“ – БАН (България)
https://doi.org/10.53656/math2024-1-1-cha
Резюме. Статията представя предизвикателствата при реализацията на Система за извличане и визуализация на данни от интернет посредством обхождането на езикови ресурси от хранилището Hugging Face и извличането на данни, свързани с тях. Данните в системата периодично се обновяват, за да се проследява динамиката при създаването на езикови ресурси за различни периоди. Статията представя анализа на достъпните данни, тяхната структура и избрания начин за обхождане на страниците и извличане на данните. Споделеният опит при преодоляването на конкретните предизвикателства може да послужи прирешаването на сходни проблеми, свързани с извличането на данни от интернет, задача, която често стои за разрешаване в различни проекти (включително ученически). Придобитият опит вследствие на описаната разработка показва, че подобен тип системи са силно зависими от имплементацията на обхождания източник на данни и при промяна в неговата структура на данни извличането трябва също да се актуализира, за да продължи да работи.
Ключови думи: уебобхождане; автоматично извличане на данни; набори от езикови данни