Европейската езикова мрежа разработва платформа, която се очаква да отприщи огромен потенциал за иновации
Виктория ПЕТРОВА
Организирана бе първата инициатива за популяризиране на Европейската езикова мрежа (ELG) в България. Програмата включва два семинара на теми „Европейска езикова мрежа“ и „Многоезиков корпус от изображения“. В тях взеха участие представители на Немския изследователски център за изкуствен интелект, Атинския институт за обработка на езика и речта, Института за български език към БАН, Техническия университет в София и представители на бизнеса.
Европейската езикова мрежа е създадена през 2019 г. на базата на регламент на Европейския парламент (ЕП) от 2018 г., който има за цел да формира равенство между европейските езици в дигиталната епоха. В Европа има 24 официални езика с един и същ статут. Многоезичието е в сърцето на европейската идея. Езиковата пъстрота на Стария континент е източник на изключително културно предимство, но води след себе си и редица предизвикателства от различен характер – икономически, социален, технологичен. Комуникацията на цифровия единен пазар в Европа трябва да е едновременно многоезична, трансгранична, междуезична и междукултурна. Фрагментацията на пазара на езикови технологии води до много проблеми. Препоръката на ЕП е да се създаде европейска езиковотехнологична платформа за споделено ползване.
Различни изследвания показват, че пазарният дял на езикови технологии в Европа е близо 1 млрд. евро, но изостава съществено от лидерите в световен мащаб – Съединените щати и Китай. Към 2025 г. се очаква делът на този пазар да се разшири до 29,5 млрд. долара.
Повечето европейски компании, работещи в областта, са малки или средни, с до 50 служители. Препоръките на ЕП са да се запълнят празнините на пазара на езиковите технологии, така че Европа да отхвърли зависимостта си от САЩ и Китай. Една от целите на проекта е Европейската езикова мрежа да се превърне в основна езиковотехнологична платформа, чрез която да се преодолее фрагментацията на пазара. Новата програма ще събере множество заинтересовани страни от индустрията, които заедно ще създадат масив от данни. Европейската езикова мрежа ще отприщи огромен потенциал за иновации, вярват евродепутатите.
В момента проектът е към своя край. Разработени са различни версии на платформата, но работата не е приключила. Целта е да заработи така, че да продължи да съществува и да се развива самостоятелно във времето. Към момента в сайта на Европейската езикова мрежа има близо 1800 организации, включващи компании, университети, изследователски центрове, които предоставят инструменти и данни за споделено и безплатно ползване. Наличните ресурси могат да се използват от отделни потребители, от други компании, от европейската администрация и администрацията на страните членки, от научните институти и други. Към момента са налични над 11 000 източника корпоративни данни, услуги и езикови инструменти, лексикални ресурси, словесни описания, граматични правила, автоматизирани речеви и визуални модели.
Една от българските компании, която се ползва от бенефициентите на Европейската езикова мрежа, е „Айдентрикс“. Технологичното дружество е разработчик на автоматизирани решения, които помагат на хората да се фокусират върху задачи с по-висока добавена стойност, делегирайки по-леките от тях на машини. То е и един от най-големите колекционери на новини в страната, което генерира медийни оценки чрез изкуствен интелект. Компанията има повече от пет години опит в областта на науката за данни. Дейността ѝ включва събиране и организиране на информация от много източници. За да се автоматизира процесът по извличане и оценка на текстово съдържание, трябва да се започне от думата и разбирането на нейното значение, казват от компанията. То може да варира на локално, регионално, национално и международно ниво. Значенията на думите се променят според местата, в които се употребяват, като традиционни и социални медии, както и според жанровата форма: правни, медицински, финансови новини и други. Разработеният софтуер може да добие знание от неструктурирано съдържание, да генерира и класифицира текст по автоматичен начин. Така създадените отчети съдържат количествен и качествен анализ на данните, като помагат да се спестят време и усилие на ползвателите.
Информацията от изкуствения интелект дава възможност да се идентифицират потенциалните рискове
при комуникация в реално време, да се намерят хора в обхвата на интерес. Например, ако българското Министерство на отбраната иска да разбере къде и как е споменато в медиите, изкуственият интелект търси всички медийни публикации, в които се споменава Министерството. След това обработва получената информация, намира отговор за популярността на текста, обобщава заглавията и предава резултата от анализа в подходяща за ползване от клиента форма.
От компанията оценяват високо платформата, създадена от Европейската езикова мрежа, защото запазва езиковото многообразие на континента. Най-ценен за тях е каталогът с налични източници и готови технологии, които са достъпни и лесни за ползване. Но има и нерешени задачи, като празнините между частния и академичния сектор. По-важното е, че Европейската езикова мрежа е основа за създаване на солидарна и взаимно полезна общност.
Един от приносите в платформата от българска страна ще бъде резултатът от пилотния проект към Европейската езикова мрежа, разработван от Секцията за компютърна лингвистика на Института за български език към БАН, за модели за автоматично разпознаване на обекти в изображение.
Те могат да идентифицират и интерпретират визуално съдържание по автоматичен начин, след което генерират текст към него. Програмата съдържа хиляди изображения, които са анотирани и разпределени по предварително обособени анотационни класове. Всеки един от тези класове е снабден с многоезиково описание и допълнителна информация под формата на кратки текстове. В процеса на работа са реализирани голям брой проби, създадени с помощта на разработената технология. Направена е и експертна оценка на резултатите. Всички придобити данни и модели ще бъдат предоставени за комерсиално и академично ползване на сайта на Европейската езикова платформа.
Уважаеми читатели, в. „Аз-буки“ и научните списания на издателството може да закупите от НИОН "Аз-буки":
Адрес: София 1113, бул. “Цариградско шосе” № 125, бл. 5
Телефон: 0700 18466
Е-mail: izdatelstvo.mon@azbuki.bg | azbuki@mon.bg