Единна анотация на етапите в българския език

Проектът

Съдържание

Резюме
Анализ на състоянието на изследванията по проблема
Състояние на изследванията по проблема
Цели и хипотези
Подходи
Изследователски методи и техники
Предходни изследвания на колектива
Очаквани резултати от изпълнението на проекта
План за реализация и разпространение на резултатите

Резюме

Една от съществените, ако не и най-важните задачи на филологическите изследвания днес, е трансформирането на историческите източници в цифрови ресурси. Дигитализираните документи са достъпни чрез интернет за изследователи от далечни места по всяко време; предоставянето на документите с необходимите метаданни дава възможност за търсене; комбинирането им в корпуси и бази от данни позволява извличане на данни в голям мащаб. Всичко това разкрива нови изследователски възможности в различни области на изследване.

С този проект искаме да поставим основите на онлайн корпус на българския език в неговата история от Средновековието до ранното Ново време. Ще бъдат обработени редица характерни текстове от Второто българско царство и периода на османското владичество.

Като първа стъпка ръкописите, съдържащи съответните произведения, ще бъдат дигитализирани. След това ще бъдат създадени дигитални издания, предоставени както с исторически, така и с граматически метаданни, и ще бъдат комбинирани в примерен корпус. Това се постига с общи усилия на специалисти от австрийски и български научни и образователни институции, изискващи интензивен професионален обмен.

От австрийска страна изследователи от Института за славистика на Университета в Инсбрук ще предадат своето ноу-хау в прилагането на софтуер за разпознаване на ръкописен текст към славянски текстове и своя опит в граматическите анотации на българските си колеги. От българска страна ще участват три институции, а именно Катедрата по кирилометодиевстика при Факултета по славянски филологии на Софийския университет „Св. Климент Охридски“, Институтът за български език и Институтът за литература (и двете от Българската академия на науките). Специалисти от тези институции ще споделят с австрийските участници знанията си за историческия контекст и описанието на документите и за синтактичните анотации. Заедно двете страни ще създадат цялостна анотационна схема в интернет като предпоставка за исторически корпус на български език. Първата версия на този корпус ще бъде достъпна в интернет в края на проекта.

Проектът цели да приложи компютърните технологии за създаване за пръв път на единна анотация на историческите етапи в развитието на българския език от Средновековието и прехода към Ново време чрез следните научни подходи:

Идентифициране, извличане и транскрибиране на неизследвани и непубликувани първични среднобългарски (XIV-XV в.) и ранни новобългарски източници (XVII-XVIII в.).
Издирване, събиране, систематизиране на изворите и библиография;
Анализ на изворите, транскрипция на текстове и създаване на метаданни на извлечените източници.
Създаване на анотиран корпус и интегриране в дигиталнен портал.
Изработване принципите и структурата на лингвистичната анотация в електронен формат и създаване на предварителна схема;
Съставяне на граматичен речник, извлечен от лингвистичния корпус; експониране в уеб-пространството в Университета в Инсбрук;
Съставяне на лексикален речник въз основа на граматичните форми на среднобългарските и ранните новобългарски текстове; експониране в уеб-пространството в Университета в Инсбрук;
Усвояване на актуални компютърни приложения от студенти и млади учени и разпространение на резултатите от проекта в образованието.
Организиране на уебинари (всеки 6 месеца) и лекции за студенти и преподаватели за обмен на знания;
Организиране на международна работна среща с участието на студенти и преподаватели;
Съвместни публикации в научната периодика (индексирани и реферирани).

Анализ на състоянието на изследванията по проблема

Проектът стъпва върху взаимния интерес на австрийската и българската страна към приложение на съвременните компютърни методи за анализ на езикови явления въз основа на корпус от среднобългарски и ранни новобългарски текстове. В досегашните изследвания и проекти липсват проучвания и решения, свързани с изграждането на единна електронна среда, която да обединява информацията за текстовете, тяхното описание и анотация на граматичните явления, чрез която да се генерира речник, в съчетание на електронна публикация на изворите. Чрез възприемането на идеите за единна лингвистична схема за анотация, стандартизиран начин за описание на ръкописи и текстове ще се създаде електронна инфраструктура за изследване на езика и текстовете в среднобългарския и ранния новобългарски период. Тази инфраструктура е новост и ще позволи възможност за сравняване на резултатите от други периоди на българския език, както и сравнение по езикови явления с други езици. От изключително значение е електронното приложение, което почива на отворен код, а получените данни могат да се съхраняват и предоставят във формат, подходящ за обмен.

Състояние на изследванията по проблема

Досега изследванията върху среднобългарските и ранните новобългарски текстове не следват системно прилагани методи на корпусната лингвистика, както и не са правени опити за интеграция с електронни описания на текстове и ръкописи. Отделните корпуси от текстове по историята на българския език са част от големи корпуси заедно с тези на староруски или старосръбски извори (Манускриптъ), славянският материал е включван в моделите за гръцки, латински и други индоевропейски езици (Syntacticus. Annotation principles) или е част от корпуса от български текстове от периода X–XVII в. (Текстов корпус). Схемите за анотация във всички тези проекти са различни и не могат да бъдат прилагани по еднакъв начин. Това означава, че резултатите от индексирането и анализа на данните не може да почива на единни критерии и не може да служи за сравнение. В някои от тях съществуват само текстове, в които се търси, но без възможност за откриване на различни граматични явления и без връзка с речник. Проектът стъпва на анотационните принципи на PROIEL като добавя възможността за използване на лингвистичната анотация за среднобългарски и ранни новобългарски текстове. Така се генерира речник на думи и техните словоформи. Към тази възможност се дoбaвя интеграцията с модел за описания на текстове и ръкописи (Repertorium), както и възможност за електронна публикация на текстовете в съчетание с метаданни. В Университета на Инсбрук се разработва проектът за среднобългарския превод на съчинението Диоптра на Филип Монотроп през XIV в. под ръководството на Юрген Фуксбауер (Bilingual Edition of the Dioptra ), с участието на докторант Фабио Майон.

Цели и хипотези

Целта на проекта е да създаде модел за инфраструктура, достъпна в интернет, който да интегрира в себе си няколко компонента:

Корпус от текстове на кирилица, които са оформени по единни критерии, подходящи както за електронна публикация, така и за добавяне към тях на лингвистична анотация;
Лингвистична анотация, която следва стандартизирани методи, приети в корпусната лингвистика и установени от практиката;
Връзка на текстовете в корпуса с тяхното електронно описание, както и каталог на изворите, от които те произхождат;
Метаданни към текстовете – информация за автори, дати и места, срещани в текстовете или необходими за разбирането на техния контекст.

Проектът е основан на идеята, че само подобен интегриран подход, посветен на извори от една епоха и почиващ на стандартизирани практики и решения, може да даде нови данни за историята на езика и литературата, които да бъдат сравнявани с подобни феномени от други култури.

Акцентът на проекта е чрез подбор на различни по тип и жанр средновековни текстове, които да бъдат тествани за възможността върху тях да бъдат приложени принципите на корпусната и компютърната лингвистика. В резултат целта е да се създаде единен модел за описание на езика и текста на изворите през среднобългарския (XIII–XIV в.) и ранния новобългарски език (XVII–XVIII в.) в неговата народна основа. Една от хипотезите е, че е възможно чрез следване на единни принципи на електронна лингвистична анотация да бъдат сравнявани и анализирани различни явления в развоя на граматичната система и по- специално на лексиката спрямо гръцките образци. Повечето от южнославянските текстове са преводи от гръцки, затова откриването на точните им гръцки еквиваленти и възможността за търсене на съотвествия спрямо славянските думи и форми е съществена част от проекта.

Подходи

Проектът изцяло е интердисциплинарен. Той обединява в себе си подходи от различни области на хуманитаристиката и от информационните технологии.

1. Описанието на изворите се осъществява в електронна среда, като почива на установени практики за каталогизиране на ръкописите и текстовете. Така знанията в палеографията, езика и историята на текста се съчетават с електронните модели, изработени от различни проекти в годините, например: Repertorium of Old Bulgarian Literature and Letters, Text Encoding Initiative, A digital catalogue of Medieval and Early Modern manuscripts in Sweden и др.

2. Цел на проекта е този модел на електронно описание да бъде интегриран с електронната лингвистична анотация, прилагана в последните години върху стари езици – латински, старогръцки и частично върху старобългарски, за да се тества възможността за прилагането му върху материал от среднобългарски и ранни новобългарски текстове (вж. напр. http://dev.syntacticus.org/proiel.html). Крайният резултат е чрез прилагането на стандартизиран модел на лингвистична анотация за да бъдат разкрити нови явления в историята на езика в сравнителен план. Подобен подход е възможен чрез сравняване на думи и сровоформи, като те се добавят и сравняват с вече съществуващи анотации, напр. с анотациите на старобългари текстове. За илюстрация на този подход вж. анотираният корпус на Мариинското евангелие.

3. Прилагането на тези два подхода и идеята за създаване на модел за единна инфраструктура в областта на езика и текста за среднобългарския и ранния новобългарски период предполага съчетаването на тези два подстъпа към средновековния текст и езика му през различни периоди с възможността на набор от метаданни, които да създадат необходимия контекст за разбирането на реалиите в изворите.

Общата насоченост при формирането на инфраструктурата на проекта е съчетаване на традиционните подходи в хуманитаристиката с възможностите на съвременните средства за изграждане на бази от данни и електронни публикации в областта на старите езици, към които продължава да има голям интерес в университетите на Европа и света.

Изследователски методи и техники

Усвояване от страна на българските участници с помощта на австрийските учени на подходите за разпознаване на текст, транскрипция и анализ на писмени източници от средновековната епоха и прехода към Ново време чрез платформата Транскрибус.

Описание на ръкописни източници и съставяне на корпус от транкрибирани текстове заедно с метаданни към тях, както и възможност за обработка чрез компютърни средства. Участници – учените от двете страни.

Изграждане на инфраструктура чрез приложение на съществуващия опит за анотация на проекта PROIEL, за който има знания и опит Цветана Димитрова. Участници – учените от двете страни.

Обмяна на опит и знания за съвременни методи за анализ на езикови явления чрез уебинари (на всеки 6 месеца) и една работна среща с достъп на широк кръг студенти и преподаватели от двете страни. Лекциите ще бъдат изнесени от учени от двете страни.

Създаване на публикации в научната периодика (индексирана и реферирана). Участници – учените от двете страни.

Предходни изследвания на колектива

В Университета в Инсбрук работи научен център за цифровизация Digital Science Center (DiSC) основан през 2019 г., който обединява и усъвършенства цифровизацията в научните изследвания, включително във филологията. Научният персонал в Digital Science Center идва от различни дисциплини, което допринася за формирането на синергии между дисциплините. Българските млади учени д-р Екатерина Тодорова и магистрант Анета Йотова ще специализират в Университета в Инсбрук и ще усвоят ноу-хау за приложението на нови методи в разчитането на текстовете и тяхното предаване чрез компютърни приложения.

Проф. Юрген Фуксбауер е специалист в областта на медиевистиката, който е автор на фундаментално изследване на среднобългарския превод на съчинението Диоптра на Филип Монотроп, извършен през XIV век, неговата традиция на текста и спецификата на неговия език.

Проф. Юрген Фуксбауер и докторант Фабио Майон са в екипа в Университета в Инсбрук, който разработва проекта за автоматично разпознаване и транскрибиране на текстове от средновековната епоха и прехода към Ново време чрез платформата Транскрибус. В рамките на този проект вече са разработени методи за автоматична лематизация и морфологична анотация на славянския и гръцкия текст на съчинението Диоптра. Платформата има определени предимства и вече са постигнати резултати, които бяха представени успешно в няколко конференции (2021, 2022) и в редица публикации в научната периодика (Scripta & e-Scripta 20, 21, 22).

Проф. Андрей Бояджиев (СУ) е специалист в областта на старобългарския език и приложението на компютърни методи за представяне и анализ на старобългарското литературно наследство. Инициатор е на няколко проекта за съставяне на корпуси от старобългарски текстове и на речници към тях.

Проф. Анисава Милтенова (ИЛ) е специалист в областта на средновековната литература, ръководител на международни проекти в областта на дигиталната хуманитаристика (напр.: Repertorium, Slovo, Scripta Bulgarica, SesDiva) и гл. редактор на годишника Scripta & e-Scripta приет в Scopus.

Гл. ас. Цветана Димитрова (ИБЕ) е езиковед със специален интерес и постижения в анотацията на славянски текстове от различни периоди на развоя на езика от Средновековието и прехода към Ново време, следвайки принципите на проекта PROIEL.

Гл. ас. Екатерина Тодорова (ИЛ) е млад учен, защитил дисертация през 2019 г., с интерес към преводни и оригинални текстове, свързани с различни аспекти на средновековната медицина.

Иван Илиев е учен с класическо образование, защитил дисертация през 2016 г. върху старобългарския превод на Тълкуванието върху Книга на пророк Даниил от Иполит Римски; изследването му, придружено от двуезичен речник (старобългарско-гръцки), е издадено (2017).

Анета Йотова е студент, с интерес към преводите от византийски гръцки на старобългарски и техният анализ.

Участници в проекта и от двете страни – проф. Бояджиев, проф. Милтенова, проф. Фуксбауер и доц. Димитрова са членове на международната комисия за дигитализация на славянски ръкописи към международния комитет на славистите – Commission for Computer Processing of Medieval Slavic Manuscripts and Early Printed Books при Международния Комитет на славистите(основан през 1998) и настоящият проект е част от дейностите на комисията. Проектът ще бъде представен на следващия Конгрес на славистите (2024) в Париж.

Очаквани резултати от изпълнението на проекта

1. Обмен на знания в областта на славистичната медиевистика между австрийски и български учени. Опитът, подходите и методите, използвани от предишни проекти ще бъдат съчетани в този фундаментален проект, за да се създаде интегриран модел и инфраструктура за подобни инициативи в бъдеще. Този подход ще доведе до стандартизирани решения с отворен код, които да се въведат при проучване на текста и езика на ръкописни извори. Моделът може да бъде използван и при проучване на други средновековни книжовни култури.

2. Проектът има фундаментален характер като за първи път ще осъществи интеграция на лингвистичната анотация за средновековни български текстове с морфологичната и синтактична характеристика на изворите от ранната новобългарска епоха – XVII и XVIII в. в електронна среда.

3. Предварителната инфраструктура на проекта е съчетание от следните интердисциплинарни подходи:

разпознаване на ръкописни текстове (OCR) чрез платформата Транскрибус;
описание на извори – текстове и ръкописи в електронна форма;
електронно издание на текстове;
изграждане на корпус на текстове от среднобългарски и ранни новобългарски извори с лингвистична анотация;
метаданни, включително и библиография;
интеграция на отделните части от инфраструктурата.

4. За да се постигнат тези резултати, екипът залага на подбрани образци от текстове от разнородни жанрове и ръкописни източници от различен тип, за да се тества моделът и след проверка да се получи обратна връзка към изследователите и ползвателите. Новаторският подход се състои в интеграцията на различни методи в областта на лингвистиката, литературознанието, историята на текста, палеографията, кодикологията и компютърните технологии.

5. В резултат на добавянето на метаданни към електронните издания на текстовете, тяхното описание и лингвистичната анотация ще бъде осигурен така необходимият културен контекст. Добавянето на библиография от своя страна ще е полезно допълнение както към този проект, така и за бъдещи инициативи в областта.

6. Съществена част от резултатите на проекта е възможността данните да бъдат използвани в различни университетски курсове на бакалавърско, магистърско и докторантско ниво. Те ще бъдат приложими не само в области като история на езика и на преводната литература в славянската преводна книжовност, но чрез своите решения в областта на компютърните технологии да разкрият нови възможности в дигиталната хуманитаристика.

План за реализация и разпространение на резултатите

Реализация и разпространение:

Създаване условия за разгласяване и все по-разширяващо се използване на уеб-портала (AUSBUL) с текстовете и анотирания корпус на свободен достъп в образованието и науката на двете страни;
Публикуване на резултатите от проекта в не по-малко от 4 публикации в научната периодика с импакт фактор;
Представяне на проекта в международни научни форуми и на резултатите от него пред научната аудитория;
Участие на учените от екипа с доклади и научни съобщения в конференции и конгреси;
Сътрудничество с университетите на Инсбрук, София и Българска академия на науките за популяризиране резултатите от проекта в тях;
Представяне на проекта пред широката общественост чрез масмедиите

Резултатите от проекта ще се използват непрекъснато чрез разширяване на научното сътрудничество извън екипа от участници, членове на различни научни институции, както в университета на Инсбрук, така и в София. Резултатите ще се разгласяват чрез изнасяне на онлайн лекции с широк достъп, вкючително чрез покана на международни учени на планираните уебинари и колоквиум, чрез публикации в научната периодика и чрез участие в международен конгрес (по славистика, планиран 2024 г.).

Проектът е част от дейността на Комисията за компютърна обработка на средновековни славянски ръкописи и старопечатни книги към Международния комитет на славистите (). С оглед на въздействието и използването уеб-порталът (AUSBUL) ще бъде представен на дигиталната хуманитарна общност не само в България и Австрия, но в Европа.

Екипите ще продължат контактите си със заинтересованите страни след края на проекта. Ще продължат да наблюдават обратната връзка на посетителите на уеб страницага (AUSBUL) и да докладват резултатите както на заинтересованите страни, така и на академичната общност, за да подобрят междуинституционално сътрудничество. По този начин проектът ще допринесе за синергията между Софийския университет, институтите на БАН и Университета на Инсбрук.

Крайният резултат от проекта – модел за анотиран корпус – ще предложи по-ясна и рационализирана формулировка на проблемите на писменото културно наследство в Европа. Дългосрочното въздействие на проекта идва от неговите констатации, свързани с междукултурния характер на книжовното наследство (превод от византийски гръцки), не на последно място от демонстрирането на знаковите културни взаимодействия между носители на различни пластове в културата, които понякога имат различни потребители. По този начин значението на портала ще бъде в представянето на анотиран корпус, който не е реализиран досега и в който намират отражение неизследвани процеси и явления.

Цитиране

Бояджиев, Андрей (ред.). 2023-10-05 (revised: 2024-01-30). 'Проектът'. In: AUSBUL Team (eds),Единна анотация на етапите в българския език / A Unified Annotation of the Stages of the Bulgarian Language (AUSBUL) . URL: https://slav.uni-sofia.bg/exist/apps/ausbul/pages/show.html?document=project.xml. Посетен на: 25.11.2024

Автор
Редактор	Бояджиев, Андрей
Лиценз	http://creativecommons.org/licenses/by-nc-nd/4.0/