"Az-buki" National Publishing House
Ministry of Education and Science
Wikipedia
  • Login
  • Registration
Аз-букиAz-buki National Publishing House for Education and Science
Няма резултати
Вижте всички резултати
  • Main Page
  • About us
    • About us
    • Who we are
    • Team
    • Ethics
    • Documents
  • Az-buki Weekly
  • Journals
    • Strategies for Policy in Science and Education
    • Bulgarian Language and Literature
    • Pedagogika-Pedagogy
    • Mathematics and Informatics
    • Natural Science and Advanced Technology Education – Scientific journal
    • Vocational Education
    • Istoriya-History journal
    • Chuzhdoezikovo Obuchenie-Foreign Language Teaching
    • Filosofiya-Philosophy
  • Editions
  • Projects
  • Advertising
  • Subscribe
  • Contact
  • en_US
  • bg_BG
  • Main Page
  • About us
    • About us
    • Who we are
    • Team
    • Ethics
    • Documents
  • Az-buki Weekly
  • Journals
    • Strategies for Policy in Science and Education
    • Bulgarian Language and Literature
    • Pedagogika-Pedagogy
    • Mathematics and Informatics
    • Natural Science and Advanced Technology Education – Scientific journal
    • Vocational Education
    • Istoriya-History journal
    • Chuzhdoezikovo Obuchenie-Foreign Language Teaching
    • Filosofiya-Philosophy
  • Editions
  • Projects
  • Advertising
  • Subscribe
  • Contact
  • en_US
  • bg_BG
Няма резултати
Вижте всички резултати
Аз-буки Az-buki National Publishing House for Education and Science
Няма резултати
Вижте всички резултати
  • Home
  • Editions
Main Page Uncategorized

Challenges in Web Crawling for Data Collection

„Аз-буки“ by „Аз-буки“
08-03-2024
in Uncategorized
A A

Georgi Cholakov 1), Emil Doychev 1),
Svetla Koeva 2)
1) Plovdiv University „Paisii Hilendarski“ Faculty of Mathematics and Informatics
2) Institute for Bulgarian Language „Prof. Lyubomir Andreychin“ - Bulgarian Academy of Sciences

https://doi.org/10.53656/math2024-1-1-cha

Abstract. The article presents the challenges of implementing a System for data retrieval and visualisation from the Internet by crawling language resources from the Hugging Face repository and extracting the associated data. The data in the system is updated at regular intervals to track the dynamics of language resource creation for different time periods. The article presents: a) the analysis of the available data and its structure; b) the chosen method for crawling the pages and extracting the data. The shared experience of overcoming the specific challenges can serve to solve similar problems related to the extraction of data from the Internet, a task that often has to be solved in various projects (including school projects).
Keywords: web crawling; automatic data extraction; linguistic datasets

 

Log in to read the full text Your Image Description

Свързани статии:

Default ThumbnailTwo-Parametric Problem for Optimal Distribution of Resources Default ThumbnailDeveloping a Positive Mindset to Entrepreneurship and Social Activity through the Innovative Learning System (InnoSchool) Default ThumbnailRESULTS OF THE EXTERNAL ASSESSMENT IN BIOLOGY AND HEALTH EDUCATION – VIII GRADE (2018/2019 SCHOOL YEAR) Default ThumbnailIs there a Place for a “New Art” in the Classroom? Is the 1:1 Model an Alternative
Tags автоматично извличане на даннинабори от езикови данниуебобхождане

Последвайте ни в социалните мрежи

shareTweet
Previous article

Видеопослание за Левски

Next article

An Approach and a Tool for Euclidean Geometry

Next article

An Approach and a Tool for Euclidean Geometry

Are Established Taxonomies Relevant for e-Learning?

Student Satisfaction with the Quality of a Blended Learning Course

Последни публикации

  • През призмата на трите „П“, или за работата на университетския преподавател като професия, призвание и предизвикателство
  • Сп. „История“, книжка 2/2026, година XXXIV
  • Темата за интеграцията, протекционизма и национализма в стопанско-историческите изследвания
  • Впечатления от конференцията „Кримската война. Глобална и локална“, проведена на 2 април 2026 г. в Софийския университет „Св. Климент Охридски“
  • Към историята на предприемачеството в България
  • Ролята на изкуствения интелект в преподаването на история в средното образование: перспективи и тревоги
  • Концептуални основи на обучението по история и география в България и Република Кипър – сравнителен анализ и перспективи за развитие
  • Съвременни технологии в обучението по история: възможности и предизвикателства при използването на интерактивни бели дъски от преподаватели в Историческия факултет на СУ„Св. Климент Охридски“
  • Антична Сердика в западните пътеписи oт XVI – XVIII в.
  • The Merchant Tsvyatko Radoslavov Kanev (Sahatchiev) from Svishtov and His Will from 1876
  • МОН публикува верните отговори на държавния зрелостен изпит по български език и литература
  • Кампанията „Дигитален будител“ отваря вратите на 1296 читалища
  • МОН започва проект с Хайделбергския университет
  • Генерират изпитния вариант за матурата по български език от 5 859 375 възможни комбинации
  • Над 220 участници в конкурса „Светлината в нашия живот“
  • С музика са лекували още в древността
  • Здравка Минчева, началник на РУО – Велико Търново: Пет нови професии влизат в държавния план-прием за областта
  • 250 педагози са удостоени с отличието „Неофит Рилски“ на МОН
  • Златен и сребърен медал от Международната олимпиада по философия
  • Микробиологът Ася Асенова е победител в конкурса за комуникация на наука FameLab
  • Над 2800 кандидати за летен стаж в INSAIT
  • Преподавателката в ОУ „Св. св. Кирил и Методий“ в село Горни Дъбник Йоханна Цветанова се стреми да развива въображението и творчеството у учениците

София 1113, бул. “Цариградско шосе” № 125, бл. 5

+0700 18466

izdatelstvo.mon@azbuki.bg
azbuki@mon.bg

Полезни линкове

  • Къде можете да намерите изданията?
  • Вход за абонати
  • Main Page
  • Contact
  • Subscribe
  • Projects
  • Advertising

Az-buki Weekly

  • Вестник “Аз-буки”
  • Subscribe
  • Archive

Scientific Journals

  • Strategies for Policy in Science and Education
  • Bulgarian Language and Literature
  • Pedagogika-Pedagogy
  • Mathematics and Informatics
  • Natural Science and Advanced Technology Education – Scientific journal
  • Vocational Education
  • Istoriya-History journal
  • Chuzhdoezikovo Obuchenie-Foreign Language Teaching
  • Filosofiya-Philosophy

Newsletter

  • Accsess to public information
  • Условия за ползване
  • Профил на купувача

© 2012-2025 Национално издателство "Аз-буки"

Welcome Back!

Login to your account below

Forgotten Password? Sign Up

Create New Account!

Fill the forms bellow to register

All fields are required. Log In

Retrieve your password

Please enter your username or email address to reset your password.

Log In
en_US
bg_BG en_US
  • Login
  • Sign Up
Няма резултати
Вижте всички резултати
  • Main Page
  • About us
    • About us
    • Who we are
    • Team
    • Ethics
    • Documents
  • Az-buki Weekly
  • Journals
    • Strategies for Policy in Science and Education
    • Bulgarian Language and Literature
    • Pedagogika-Pedagogy
    • Mathematics and Informatics
    • Natural Science and Advanced Technology Education – Scientific journal
    • Vocational Education
    • Istoriya-History journal
    • Chuzhdoezikovo Obuchenie-Foreign Language Teaching
    • Filosofiya-Philosophy
  • Editions
  • Projects
  • Advertising
  • Subscribe
  • Contact
  • en_US
  • bg_BG

© 2012-2025 Национално издателство "Аз-буки"