Чатботовете не са безгрешни

Шестата международна конференция „Компютърната лингвистика в България“ (Computational Linguistics in Bulgaria, CLIB), проведена в София, събра много изтъкнати учени от цял свят.

На форума бяха представени научните постижения и новите методи и подходи в областта на компютърната лингвистика и компютърното описание на езика, с фокус върху езиците с малък брой носители и недостатъчно добре развити ресурси и програми за автоматична обработка на различни лингвистични нива.

Акцент в работата на конференцията са огромните възможности на големите езикови модели (Large Language Models – LLM)

– от създаване на асистенти и чатботове на базата на изкуствен интелект до включването в разговори с данни на потребителите и подобряване на възможностите за търсене. Потенциалните приложения са неограничени.

Приоритет на конференцията е и развитието на научната общност в областта чрез насърчаване на сътрудничеството между български и чуждестранни учени. Атестат за високата научна стойност на приетите доклади е фактът, че издания на сборника с доклади от конференцията са включени в Web of Science, а от 2020 г. поредицата се индексира в Scopus.

В рамките на конференцията се проведе и специална сесия, посветена на „Уърднет“, „Фреймнет“ и онтологиите. Това е четвъртото поредно издание на специалната сесия след нейния успех през 2018 г.

Конференцията се организира от Секцията по компютърна лингвистика към Института за български език „Проф. Любомир Андрейчин“ на Българската академия на науките. Форумът е подкрепен и от Фонд „Научни изследвания“, Европейската асоциация за езикови ресурси (European Language Resources Association) и Фондация LERAI.

Участие в научния форум взеха около 40 учени. В този брой на „Аз-буки“ представяме двама от тях.

Големите езикови модели са като черни кутии

Христо Танев работи в Обединения изследователски център на Европейската комисия от 16 години, в Центъра за обработка на текстова информация. Преди това е работил в група за изкуствен интелект във фондация „Бруно Кеслер“, Тренто, Италия. Занимава се с научни разработки и създаване на модели и софтуер за обработване на информация от новините и социалните мрежи. Неговата работа и научните му изследвания са свързани с Европейската система за мониторинг на медиите (Europe Media Monitor). Това е система, която чете информацията от европейските издания в мрежата. Използва методи от изкуствения интелект за автоматични анализи на новинарските статии.

Христо Танев работи върху анализа на събития в новините и това беше темата на лекцията му на Международната конференция по компютърна лингвистика в София.

„Това, което правим, се използва от Европейската комисия, за да се създаде картина за ситуацията в света и в Европа на базата на софтуера, който създаваме, и научните изследвания, които правим в областта на изкуствения интелект – казва Христо Танев. – С това се занимавам от 16 години. От две-три години използваме големите езикови модели (LLM). Методите, които разработваме, са за английски и други езици и те работят изключително добре. Нашите модели са много по-бързи от LLM. Освен това са базирани на модели, които познаваме.

Докато големите езикови модели (LLM) са създадени в САЩ от няколко големи компании като „Фейсбук“, „Гугъл“ и още няколко. Те са изключително интелигентни и много, много нива над съществуващите до този момент модели. Те дават отговори, демонстрирайки интелигентност, която може да се възприеме като интелигентност на човек. Тези модели могат да изкарат дори теста на Алън Тюринг за системите с изкуствен интелект. Ако някоя система с изкуствен интелект може да обърка жури от специалисти например, тогава този модел се справя и с теста на Тюринг.

Разликата между големите езикови модели и по-класическите модели за машинно обучение (machine learning) е, че големите модели нямат ясно документирана структура. И в повечето случаи заявката за анализ на текста отива до компанията, която ги е създала, и само тя знае за какво става дума. Те са като затворени черни кутии и никой не знае как работят. И все още не са достатъчно приети в научната общност. Не мисля, че тяхната структура ще бъде открита скоро. Има иновативни и уникални решения, но те се пазят като индустриална тайна. Затова тези генеративни модели имат ограничено приложение – няма прозрачност върху тяхната същност, върху тяхната структура.“

Другият проблем е, че поради сложността си те са много бавни, подчертава ученият. Отговарят хиляда пъти по-бавно от други модели. И затова другите модели продължават да съществуват и ще съществуват много години преди LLM да заемат полето на изкуствения интелект. Но в бъдеще те ще го заемат със сигурност, убеден е Христо Танев. Просто е въпрос на време. Важното е, че има място и поле за действие и за двата типа – и за класическия изкуствен интелект, и за големите генеративни системи, тренирани върху трилиони документи. Те могат да генерират текст и да изпълняват задачи, които до този момент са били възприемани като възможни само за човек или за много специализирани модели. Така те изземват работата на по-класическите модели. Проблем остава много по-бавната скорост, с която могат да реагират при зададена задача.

„Наскоро в Обединения изследователски център на ЕК проведохме изследване за обработка на неевропейски езици и LLM моделът се справя много добре с mfof/kd специфична задача – казва Христо Танев. – Друг техен недостатък е, че могат да правят грешки, разпознаваеми само за хора. Това е изключително опасно, защото, ако от 100 примера при 99 всичко е точно, а само при един – не, това много трудно може да се хване. Но рано или късно тези модели ще заемат своето място, както стана с интернет.“

Фина настройка учи моделите да следват инструкции

Д-р Веселин Стоянов е учил една година във Факултета по математика и информатика на Софийския университет. После заминава с цялото си семейство в САЩ. Има бакалавърска степен от Университета в Делауер, докторска от Корнелския университет и постдокторска от Университета „Джонс Хопкинс“. Той е изследовател с опит в иновациите в областта на изкуствения интелект и компютърната обработка на естествен език (NLP) за решаване на проблеми от реалния свят.

В момента е ръководител на отдела за изкуствен интелект в стартъп компанията Tome, изграждайки практични приложения на големите езикови модели (Large Language Models – LLM). Преди това е бил в отдела за изкуствен интелект във „Фейсбук“, където е ръководил разработването на индустриални стандартни методи за големи LM като RoBERTa, XLM-R и MultiRay и тяхното приложение за подобряване на онлайн преживяванията, например намаляване на разпространението на речта на омразата и публикациите за тормоз.

Отскоро ученият се занимава с по-практични апликации на големите езикови модели (Large Language Models) в Tome. Фирмата предлага със средствата на изкуствения интелект помощ за хора, които се занимават с продажби на продукти и услуги на други компании. Това изисква много познания за компаниите, а изкуственият интелект дава възможност да се събере и да се обобщи тази информация.

„Ние сме към 30-ина човека. Изследваме как да направим големите езикови модели по-практични – казва д-р Веселин Стоянов. – Те имат много възможности, но имат и ограничения и те често ги правят по-трудни за използване във всекидневната работа. Всички знаем, че понякога самите модели измислят неща, които не са истински. Ако отидете в ChatGPT и го попитате за нещо, може да ви даде вярна информация, но понякога може и да ви подведе. Тренираме тези модели да вадят информацията от документите, които им се дават, и да посочват местата, откъдето са взели информацията, за да може да я проверяваме. Така, доколкото можем, контролираме изкуствения интелект. Опитваме се да намалим дела на грешките и да увеличим процента на достоверност. В продуктите, които разработваме, се опитваме да ги направим по такъв начин, че хората да могат да проверяват откъде е дадена информация.“

Компютърната лингвистика означава големите езикови модели да бъдат по-способни и по-практични. И повечето не са специфично лингвистични. Големите езикови модели, прилагани от OpenAI ChatGPT, Anthropic Claude и други системи, са тренирани с много текстове и данни, имат много параметри. Трябват им много изчисления, за да станат добри. Но когато се увеличи размерът, когато бъдат обучавани с повече данни за по-дълго време на повече компютри, те се  усъвършенстват, казва д-р Стоянов. Започват да се приближават до нивото на хората, дори ги надминават при изпълнението на някои задачи.

„Големите езикови модели се тренират с голямо количество текст, с много параметри, за да могат да предскажат следващата дума в даден текст, защото когато ти трябва да предвидиш следващата дума, трябва да знаеш отговора  –  обяснява ученият. – И по този начин, когато ги тренираш с много текст с милиарди думи и много часове обучение на големите GPU машини, те се научават да отговарят вярно и да генерират текст, който не са виждали преди това. И след като са тренирани по този начин, се прави фина настройка (fine tuning), за да се научат да следват инструкции. Ако се зададе задача – коя е столицата на България с въпросителен знак, и се даде команда да продължават да генерират, системата може да продължи да отговарят коя е столицата на Румъния и т.н. С фината настройка те се учат да следват инструкциите. И по този начин се правят модели като ChatGPT, който може да изпълнява различни задачи.

Езикът има връзка със съзнанието и начина на разсъждение. И когато научаваш езика, научаваш и много други неща. Бумът на изкуствения интелект е построен върху тези големи езикови модели.“