Езикови бази данни, корпуси и електронни ресурси за българската устна реч

Йовка Тишева

Надеждните и представителни данни за съвременното състояние на българския език като единство от писмена (кодифицирана) и различни устни форми са обективната основа за системните задълбочени лингвистични анализи. В статията е направен преглед на достъпните електронни ресурси за българската устна реч, като особено внимание е отделено на данните, публикувани в рамките на инициативата BgSpeech на www.bgspeech.net. Особеностите на устната комуникация определят избора на стратегия за структуриране на транскрибираните текстове, като при това се цели в най-висока степен да се запазят лингвистично значимите характеристики на устната звучаща реч при предаването й под формата на текстов архив.

Reliable and representative data on the current state of Bulgarian language as a unity of written (codified) and various spoken forms are objective basis for systematic in-depth linguistic analysis. The article reviews the available electronic resources for Spoken Bulgarian. Special attention is paid to the resources published by the initiative of BgSpeech (on www.bgspeech.net). The choice of a strategy for structuring the transcribed texts is determined by the features of spoken language and oral communication.

Съдържание

Бази данни за българската устна реч
Езиковите ресурси
Специфика на ресурсите за устната реч
Възможности за развитие и приложение на езиковите ресурси, представящи българската устна реч
Цитирана литература

Вариантите, чрез които се реализира съвременният български език, могат да бъдат определени според различни принципи (териториален, социален, хронологичен и т.н.), както и според формата на реализация (писмена или устна). В класическата традиция на българското езикознание вариатите се свързват или с различните функционални сфери – и съответно се представя чрез функционалните стилове на книжовния език, или с териториалните говори, а специално на лексикално равнище – и с груповите говори, жаргона и сленга. Чрез прилагането на теорията и методите на социолингвистика за изследване на българския език разбирането за езиковите варианти се допълва не само с идеята за лектите (социолекти, мезолекти и т.н.), а и с разграничаването на стандарт (езиков стандарт, стандартен език, който най-общо съответства на книжовен или литературен език) и езикови варианти извън стандарта – субстандарт и нонстандарт. Връзката между социалните фактори и езиковото поведение още по-тясно е представена в разбирането за езиковите варианти като система от регистри, зависими от комуникативната ситуация, комуникативната цел, степента на подготвеност и социалните роли на говорещите.

Обект на представяне в настоящата статия са езиковите ресурси, даващи сведения за един от вариантите на съвременния български език - българската устна реч.

С термина устна реч се означава съвкупността от езикови средства, използвани за устно общуване в различни комуникативни ситуации и сфери. Термините разговорна реч, книжовна разговорна реч или битова (същинска) разговорна реч се свързват само с езиковите средства за спонтанно неподготвено общуване в неофициална среда. На другия полюс е устната книжовна реч, за която е характерно последователното следване на книжовния правоговор и голямата близост до правоговорната изговорна норма. В този контекст обектът, за който се дават сведения в представяните тук ресурси, е значително по-широк и включва целия спектър от езикови средства за официално и за неофициално, за подготвено или за неподготвено устно общуване при спазване или при по-свободно прилагане на правоговорните норми. Възможно е на фонетично, лексикално и граматично равнище в системата от езикови средства за устно общуване да има диалектни влияния, без обаче диалектът изцяло да я подменя. Това, което може да се посочи като най-съществено за устната реч, е свързано с нейната форма - първична по отношение на по-широко и по-детайлно анализираната от лингвистите писмена реч от различните функционални стилове и/или регистри. Случаите, в които предварително подготвени в писмена форма текстове се произнасят, артикулират, тоест реализацията им в устна форма е вторична по отношение на «оригинала», се свързват с по-ограничен брой ситуации и сфери на общуването (напр. в медийната сфера, при ритуали и церемонии от различен тип и под.) в сравнение с комуникативното пространство, в което се проявява първичната по форма устна реч.

За българския език съществуват корпуси, представителни за съвременното състояние именно на писмената реч. Българският национален корпус <ibl.bas.bg/BGNC_bg.htm> отразява състоянието на българския език най-вече в неговата писмена форма от средата на ХХ в. до наши дни, а устната реч е доста слабо застъпена – под 1% (Коева, Стоянова 2009), като данните представляват аудиоархив, а записите са направени в ограничен брой еднотипни комуникативни ситуации.

Бази данни за българската устна реч

Съществуващите към момента данни за българската устна реч са два типа:

„институционални“ бази данни, свързани с университетски програми или курсове по устна комуникация, политическа и журналистическа реч или по разговорна реч, например във Великотърновския или в Софийския университет;
„авторски“ бази данни, представящи материали, събирани по конкретен повод, във връзка с конкретна разработка от отделни изследователи или колективи.

Трябва да се отбележи, че началото на изучаването на българската устна реч се свързва на първо място с работа на езиковедите българисти от Великотърновския университет в областта на (книжовно)разговорната реч. В тази връзка събирането на богат емпиричен материал за езиковите средства, с които се реализира спонтанното устно общуване, беше една от основните им задачи. Поради спецификата на формата, в която се съхраняват данните – аудиозаписи и текстове на хартиен носител, няма възможност за дистантен или електронен достъп до тях. В този смисъл данните, събрани от изследователите от ВТУ, не могат да се разглеждат като част от електронните езикови ресурси за устната българска реч.

Първите материали за българската разговорна реч, публикувани в интернет на адрес http://folk.uio.no/kjetilrh/bulg, са резултат от съвместната работа на Хетил Ро Хауге от Университета в Осло, Норвегия с няколко български учени, които в различни периоди и по различни поводи са създали свои авторски бази данни.

- Корпус от разговорен български език, събран от Цветанка Николова при съставянето на „Честотен речник на българската разговорна реч“ (Николова 1987). Записите са направени в периода 1975 - 1977 г. предимно в София (три записа са направени в Самоков, два - в Пловдив), в различни комуникативни ситуации, на различни места - в магазини, учреждения, в градския транспорт, в домашна среда. Аудиозаписите са транскрибирани от Цв. Николова на хартиен носител (фишове), а по-късно, за целите на електронното публикуване, са въведени от Цв. Венкова в 25 файла от по 2000 словоформи. В (1) е представено началото на първия файл от корпуса (http://folk.uio.no/kjetilrh/bulg/Nikolova/R01.html):

(1)

Ще направиш ли една услуга? Не, виж какво бих ти дала една,

ако искаш и… Аз имам същото "Бамбино" бе, полски… Не бачкат

бе… А то е изкарало десет сватби и има ергенски стаж от шейсе

и втора до настоящия момент. И служи вярно. Обаче и той, на

него Маринов съм го карал да му прай горе, има една сачма, три

сачми на които виси онуй чудо… Те се изяждат… Да, те се

изяждат. Требвало да се смазват, аз не съм знаял. Не мога да ти

откажа, много фини цигари са. Седни де, седни, дай сега тука да

си кажем два лафа. "Слим" ли е това, какво е? Любо седни, два

лафа… То е нещо от типа на ментолите а? Не, не, не, не е

т'ва. И чуй сега да ти кажа що искам от тебе. Имах два

магнитофона, единия го продадох щото ми омръзна да ми седи така

без да го ползвам. Втория магнетофон го дадох на моя братовчед,

прай си записи за едно такова къдет бутат само касетките.

Както личи от примера, в текстовете не е запазена структурната организация на реалното речево общуване (диалог, размяна на реплики между говорещите, застъпване на реплики и под.). Поради това „корпусът на Николова“ може да намери приложение за сравнително ограничен кръг изследователски задачи, ориентирани към лексикални или граматични особености на устната реч, но не и към изследване на организацията на общуването или комуникативното взаимодействие между говорещите. От друга страна, наблюденията върху актуалното състояние на устната реч през последното десетилетие дават основание да се говори за динамика в системата от средства за устна комуникация. В този смисъл данните на Цв. Николова вероятно не отразяват всички особености на съвременната устна реч, но биха могли да се използват като база за сравнение с цел установяване на изменения и иновации в средствата, с които се реализира реалната устна комуникация.

Корпус от разговорен български език включва транскрибирани текстове на аудиозаписи на разговори в семейната среда, събрани и обработени от Красимира Алексова. В (2) е представено началото на първия текст от този корпус (http://folk.uio.no/kjetilrh/bulg/Aleksova/1.1.html):

(2) СТ [//(жжжжжж)(показва детето на снимката) а тъзи е по

малко дето йа дадох/ т'а е//

Л //(кашля) на девет месеца//

СТ //тука е пад\нал /та се е убил /пък...Н...

Л //(кашля) тука е на девет месеца /на десет//

СТ //е//

Л //на година и два три месеца май//

СТ //на година и/

Л //зимата/ чай сеа на октонври е роден/ а/ тва е н'акъде

йануари//

СТ //беше паднал//

Л //паднал и се ожулил/ т'а не го вид'ала и го

влачила и бузата му тука (жжжжжж)(показва на снимката

ожулената буза) ц'алата въф рани// разбираш ли/ от

шейната//

СТ //пад\нал зат шей\нътъ и съ ожулил значи и/

Л //и така//стефи нарежи малко саламче за тайа ракийка

върви// айде както си//

СТ //ас сиренце нарезах//

жжжжжж)(посочва чинията със сиренето)

Корпусът е съставен за изпълнение на специфични изследователски задачи – проследаване на езиковите процеси в столичните семейства, извеждане на социолингвистичните променливи, които се съотнасят със системата от социални характеристики на говорещите, както и на маркерите на речевата нивелация. Това е причината в началото на всеки файл са представени в систематизиран вид данни за социалния статус на говорещите лица. Използвана е и специална система за транскрибиране, която във висока степен отразява фонетичните и морфологичните особености на речта на всеки от членовете на изследваните семейства. Всичко това повишава информативността на данните от корпуса; от друга страна обаче, изобилието от специални знаци и означения в някаква степен може да доведе до затруднения в работата с текстовете. Ако не изследват фонетичните особености в идиолекта, потребителите на данни от този корпус дори ги презаписват във вариант, близък до книжовния правопис, когато ги включват в свои разработки. Пак поради спецификата на задачите обектът за наблюдение е ограничен – само общуване в семейна среда, и то само на територията на столицата. Това води и до ограничаване на представителността на данните както по отношение на територията, така и с оглед на речевите ситуации и сфери на общуване.

В базата данни за българската устна реч, публикувана от Х. Р. Хауге, са включени и още два подкорпуса с по-частен характер:

- транскрибирани записи на дебати в Седмото велико народно събрание от 31 октомври 1990 г. Транскрипциите са направени от Иванка Мавродиева и са публикувани със съдействието на Ангел Ангелов. Те са организирани в 3 файла с общ обем около 20000 думи. В (3) е представено началото на първия файл (http://folk.uio.no/kjetilrh/bulg/Parliament):

(3)

Георги Пирински днес ми се струва / че в днешните разискванийъ по тази

точка от дневния рет / всеки ясно трябва да поеме своята отговоронс // И /

би било престъпление / ако не кажа няколко думи тази вечер прет вас сега //

убеден съм / и искам да ми повярвате / че днес тези дни / прет нас е /

последния ни шанс // да направим един управляем прехот / да направиме една

управляема адаптация / на нашата икономика / към новите условия / ф които

ще трябва да живеем да се развива нашта страна / оттукнататък // проблемите

които имаме да решаваме / са свързани със три главни фактора // едният е

дълбоките структурни промени и равновесието в нашта икономика и наследеното

прес последните десетилетия // и тук има въпрос затова / плот на какво са

решенията / които съ довели до тези структурни нарушения в равновесието /

така или иначе тва е единия фактор // другия фактор / това са новите

външноикономически условия / за които тук нееднократно бе говорено //

За разлика от корпуса на Николова и на Алексова, които представят общуването най-вече в семейна среда или в неофициални ситуации, транскрипциите на Мавродиева дават сведения за първоначалния период от формирането на политическия език в България. Въпреки липсата на системност и последователност при отразяване на фонетичните и морфологичните особености на речта, тези текстове допринасят за разширяване на представителността на данните за българската устна реч, достъпни в интернет.

- база данни от чатове, записани през 2001 г. и предоставени за публикуване от Марина Джонова. Текстовете дават сведения за компютърно опосредстваната комуникация в един сравнително ранен етап от установяването й у нас, при това извън специализираните групи потребители, каквито са напр. компютърните специалисти, геймърите и под. В (4) е представено началото на първия файл от тази база данни (http://folk.uio.no/kjetilrh/bulg/ICQ/ALPHA.html):

(4)

ALPHA06.2.200 13:24 koi ti;-)
BRAVO 06.2.200 13:27 az sum mitko a ti
ALPHA 06.2.200 13:27 Petja;-)

BRAVO 06.2.200 13:28 priqtno mi e da si polalame
ALPHA 06.2.200 13:28 i na men nadiavam se
BRAVO 06.2.200 13:29 a taka
ALPHA 06.2.200 13:29 ;-)
BRAVO 06.2.200 13:30 kavi ne[to interesno za sebe si
ALPHA 06.2.200 13:30 ;-)) mai niama kak me izbra
BRAVO 06.2.200 13:31 nasluki
ALPHA 06.2.200 13:32 aha;-))
a da poznavash ECHO;-)))
BRAVO 06.2.200 13:33 да :-))))
BRAVO 06.2.200 13:35 и все пак как така няма ништо интресно :-))
ALPHA 06.2.200 13:35 ;-)) aha ami znach ne e chak tolkova nasluki;-)
BRAVO 06.2.200 13:36 е всущност да ама като гледам инфото сме на едни години.

Текстовете дават интересни сведения както за спецификите на самата „вторична, компютърно опосредствана устност“, така и за отношението между графичните средства, използвани от участниците в комуникацията, за търснето на различни начини за представяне на устната реч в писмен вид (на латиница или на кирилица, със или без употребата на емотикони и т.н.). Все пак обаче тази база данни има доста частен характер и специфично приложение и може по-скоро да допълва представата за актуалната устна реч, а не да представя основните данни за нея.

Представените по-горе електронни бази данни могат да се определят като „авторски“, тъй като са събирани от отделни изследователи във връзка с конкретни научни цели и задачи. Създаването на корпуси с данни за устната реч е или част от практико-приложната страна на разработките, или част от дейностите по събиране на емпирични данни за лингвистичен анализ. За разлика от тях, събирането, обработката, поддържането и обновяването на данните за българската устна реч е основна цел на Лабораторията за изследване на устната комуникация към Катедрата по български език във Факултета по славянски филологии на Софийския университет. В резултат на работата на студенти от бакалавърските и магистърските програми във Факултета по славянски филологии, на докторанти и преподаватели беше създаден сайт за българската разговорна реч bgspeech.net, на който се публикуват както данни за устната реч (транскрипции), така и теоретични разработки по въпросите на устната реч – особености на разговорната реч и на някои диалекти. Важно е да се отбележи още тук, че ресурсите, публикувани от Х. Хауге, не се обновяват и развиват, нито са обект на по-нататъшна обработка, докато базата данни на BgSpeech се попълва периодично с нови файлове1. В (5) е представен пример за това как изглеждат едни от най-рано публикуваните текстове на сайта за българска разговорна реч (http://bgspeech.net/bg/resources/archive/0002.txt):

(5)

Б: //…и \ванче/ из\лизъме ний да \купим на де\тето/ \чудо сре\бро:// и \почваме да съ раз\хождъме пу \пиротска// у\баче \цялуто се\мейству +

А: // а\ма ко\га тва?

Б: // тва / тва/ тва// \онйъ ден //в \събутъ// (Ф - смее се) и из\лизъме \ние/ \почвъме да се раз\хождъме/ \хора/ \къщи/ съл\танати (Ф - смее се) и свето\слав кът \почнъ дъ \мрънка…\чакъй си\я//тя \версията \колкот \пъти ти я раз\кажа шъ \има пудо\брения//и \почвъми ний// пу \пиротска е\ни разпро\дажби/ и\ни чуде\са:// \влизаме в е\дин мага\зин …\пише// ту\тална разпро\дажба (ммм – завърта очи)//

А: // то\тална!(Ф - смее се)

Б: // то\тална…(Ф - смее се) пей\се про\цента//и \викъм ча:й дъ \видя ква: тъз то\талнъ разпро\дажба…(жжж – повдига рамене) кво дъ ти \кажъ… е\дин пан\талон \струваши сто и \трийсе \лева!

А: // че то без пъ\ри бе! (Ф - смее се)

Б: (Ф – м-м – знак за съгласие)// то без пъ\ри бе/ ам аз \трийси \имах// а\ма сто\те ги бях зъ\брайлъ (Ф - смее се)…и уби\кал’ъми/ уби\кал’ъми/ \гледъме \якита// \гледъми…\бlузи… (Ф – тц-тц – замисля се) най/ на\края си ха\ресъ той ъ: \дънку:ва \ризъ// и му йъ \купихъ \тяхните//

Системата за записване на речта – на практика доста близка до модела, използван от Кр. Алексова, е не само подробна, но и сложна, натоварена с условни означения, защото се цели и в писмените текстове да се представят най-характерните фонетични и граматични особеноси на устната реч, независимо дали те са резултат от диалектно влияние, или са отлики на самата устна форма на езика. Ударението на всички думи се изписва, което поради технически причини се прави не със знак над ударената гласна, а с наклонена черта пред ударената сричка. Така при многосрични думи с ударение, което не е на първата сричка, знакът за ударение на практика разделя думата на две. Вътре в самите текстове се записват паралингвистичните особености, както и шумовете в канала за комуникация. В началото на всеки файл са представени метаданни за говорещите и за комуникативната ситуация, при която протича общуването.

В базата данни BgSpeech от периода 2001 – 2004 г. преобладават текстове от неподготвено битово общуване, тъй като целта през този пероид е да се изследва на първо място българската разговорна реч. В малка степен са представени други сфери и ситуации, напр. медийно общуване и комуникация в академична среда. В начален етап е и работата по стандартизация на системата за транскрибиране, както и на формата за публикуване на езиковите и метаезиковите данни.

Направеният кратък преглед показва, че съществуващите бази данни за устната реч са доста разнородни като системи за транскрибиране и форма за публикуване и невинаги следват добрите практики и установените вече (международни) стандарти за разработване на езикови ресурси от такъв тип. Публикуваните електронни „корпус“ по-скоро са колекции от данни, представящи сравнително тесен кръг от комуникативни ситуации (най-вече неформално битово общуване). В този смисъл текстовете не са представителни за всички сфери на устната комуникация. От друга страна, някои от данните вече не представят актуалното състояние на разговорната реч през 21. век, а имат по-скоро „историческа” стойност. Освен липсата на представителност и актуалност, друг недостатък на съществуващите ресурси е, че те не ползват общ формат за записване на устната реч. Данните са представени във вид на текстови файлове и не предполагат търсене по анотирани елементи, например части на речта, части на изречението, изказвания, синтактични конструкции, или по явления, типични за устната реч, напр. застъпвания, едновременно говорене, непълни изказвания и т.н. Във вида, в който съществуват, те не са подходящи за автоматична (машинна) обработка с цел извличане на специфични данни. Поради това текстовете не могат да бъдат включени без допълнителна обработка в рамките на съществуващите корпуси на българския език, например в Българския национален корпус.

Търсенето на нови, по-ефективни и разнообразни начини за представяне на устната реч, при това не само под формата на текстови файлове (транскрипции), доведе до съществено обогатяване на данните, публикувани на сайта bgspeech.net. Включването на нови материали беше част от работата на екипа2 на инициативата BgSpeech по проекта IST PSO N 271022 CESAR: CEntral and South-East EuropeAn Resources, част от проекта META-NET. Съчетаването на различни начини за представяне на устната реч – транскрибирани устни текстове, аудио- и видеозаписи, както и представянето на данни от различни комуникативни сфери – официално делово общуване, медийна реч, общуване на работното място, наред с традиционната разговорна реч превърнаха първоначалната база данни в представителен електронен ресурс за тази форма на съвременния български език.

↑

Езиковите ресурси

Според определението, дадено от Европейската асоциация на езиковите ресурси (European Language Resources Association; ELRA), с термина езиков ресурс се означава системата от речеви/езикови данни или описанията на такива данни, които са достъпни за машинна обработка с различна цел. Езиковите ресурси се различават от споменатите вече езикови корпуси по това, че са по-мащабни системи от еднородни или различни по форма данни за конкретен език или езици(Коева 2009).

В най-общ план езиковите ресурси може да се класифицират според структурата, в която са представени езиковите данни, или според конкретното съдържание на включените данни. От гледна точка на начина, по който са структурирани, езиковите рсурси могат да представляват списъци от думи, корпуси, електронни речници, тезауруси, тематични речници или бази от данни. Ресурсите може да съдържат само писмени текстове или да имат комплексно съдържание, ако включват и изображения, аудио- или видеоматериали. При по-детайлна класификация на езиковите ресурси се отчитат формата, езика и тематичната област на включените данни. Според формата, в която са представени данните, се определят три вида ресурси: речеви – включват записи на диалектна или разговорна реч, радио- или телевизионни предавания; писмени и многомодални (мултимодални; мултимедийни). Според представените езици ресурсите се делят на едноезични, двуезични или многоезични, а според тематичната област, с която са свързани езиковите данни – общоезикови и специализирани, например ресурси, които дават сведения за медийното общуване, за езика на правото, общуването между лекар и пациент и т.н.

Прилагането на тези класификационни критерии към представените по-горе корпуси, публикувани от Х. Хауге, позволява тези бази данни да се определят като едноезични (само за българския език), писмени (включват само транскрипции) и специализирани (представят общуването в отделни функционални сфери). До началото на 2013 г. и езиковите ресурси, публикувани на сайта bgspeech.net, бяха със същите характеристики. В края на месец януари 2013 г. към едноезичните писмени специализирани ресурси бяха добавени нови данни, които по формат и по форма се различават от досега използваните модели за представяне на българската устна реч. Най-съществената промяна беше свързана с публикуването на първия мултимедиен корпус на българската устра реч, обединяващ аудио- и видеозаписи с писмени записи (транскрипции). Включването на такъв ресурс позволява на потребителите едновременно да слушат аудиозаписа и да следят транскрипцията, да прослушват определени, избрани от тях, места от записа, да проверяват какъв е реалният изговор на определени думи или форми и т.н. По-долу е даден пример за това как изглеждат файловете от мултимедийния корпус:

Текстовете, с които беше разширена и обогатена базата данни за българската устна реч, са записани с нова, по-опростена система за транскрибиране на речта, като се означават само онези речеви прояви, които не са свързани с нормативните фонетични/фонологични редувания или със съвременните звукови закони. Такъв тип нормативни промени са например редукцията на широките гласни извън ударение или редуването на звучни и беззвучни съгласни в краесловието или в групи от съгласни; те са представени като нормативни, част са от книжовния правоговор и в този смисъл не отразяват специфични особености на произношението в дадена речева ситуация от конкретни участници в комуникацията. В такива случаи записването на елементите в транскрипцията става според правописната норма, тоест без означаване на редукцията или без означаване на обеззвучаването на звучните съгласни. Познавайки актуалните правоговорни норми на българския език, потребителите имат представа за реалното произношение в подобни случаи. Така текстовите файлове не се претоварват с условни знаци и сравнително лесно, дори чисто визуално, може да се откроят специфичните речеви явления. В (6) е представен пример за приложението на тази по-опростена система за текстов запис на устната реч (файлът, от който е част примерът, е достъпен на адрес <http://bgspeech.net/bg/resources/spoken/2004001.html>):

(6)

Участник 1:	така [кратка пауза] дай да си говориме как ше се напиеме във събота [средна пауза]
Участник 2:	аз на свети Валентин няам намерение...
Участник 1:	аз не празнувам свети Валентин аз празнувам Трифон [кратка пауза] отрезан
Участник 2:	аз ги празнувам и двете заедно [кратка пауза] не бе [кратка пауза] не [кратка пауза] аз ако се напия
Участник 1:	аз ти знаеш ли аз ако се напия ше ги пребия и двамата [кратка пауза] Огнян и Илиян [кратка пауза] беборанка [средна пауза]
Участник 2:	тя как й е името?
Участник 1:	ъъъ
Участник 2:	как й е името? [средна пауза]
Участник 1:	е са го каз\ах преди малко [средна пауза] със съ беше нещо [средна пауза]

Третият ресурс, с който беше обогатена базата данни за устната реч, е означен като паралелен корпус. По този начин обикновено се представят ресурси, вклюващи дву- или многоезични корпуси; в случая е избрано точно това название за едноезични данни, защото са представени успоредени (визуално във вид на таблица) текстови записи на един и същ изходен аудиозапис, които са получени в резултат на редактиране на варианти, публикувани на bgspeech.net в раздела Транскрибирана разговорна реч (2001-2004). Графичното, правописното и частичното морфологично обработване на изходните файлове беше свързано с идеята да се улесни както извличането на данни за граматиката и прагматиката на устната реч, така и по-нататъшната автоматична обработка на ресурса. Ръчно и автоматично бяха обработени предимно текстове, представяще неофициална разговорна реч, както и две интервюта и един медиен текст. Запазена беше оригиналната номерация от първото публикуване на транскрипцията, така че файл №1 от паралелния корпус представя обработен вариант на файл №1, публикуван в Транскрибирана разговорна реч (2001-2004) на bgspeech.net, и т.н. Първоначалната обработка на тези файлове беше свързана с отстраняване на различни „шумове“ в текстовете – празни редове, графични и други знаци, свързани с метаданни и под. Получените междинни варианти са представени в дясната колона на таблиците тук, означена условно като Оригинал/Original. Тези текстове са подложени на по-нататъшна редакция по стандартизиране на изписването на думи и форми според правописните норми. Крайният резултат е представен в лявата колона на таблиците, означена като Редактиран текст/Edited text. Графичното успоредяване на абзаците в двете колони позволява да се проследят етапите при редактирането. В пример (7) е включена част от такъв паралелен текст (файлът, от който е взет примерът, е достъпен на адрес <http://bgspeech.net/bg/resources/archive/ed/2.html>):

(7)

Редактиран текст/Edited text

Оригинал/Original

Б: …и ванче/ излизаме ние да купим на детето/ чудо сребро. и почваме да се разхождаме по пиротска. обаче цялото семейство

А: ама кога това?

Б: това / това/ това. оня ден .в събота. (Ф - смее се) и излизаме ние/ почваме да се разхождаме/ хора/ къщи/ салтанати (Ф - смее се) и светослав като почна да мрънка…чакай сега.тя версията колкото пъти ти я разкажа ще има подобрения.и почваме ние. по пиротска едни разпродажби/ едни чудеса:. влизаме в един магазин …пише. тотална разпродажба ( – завърта очи).

Б: .…и ванче/ излизаме ние да купим на детето/ чудо сребро. и почваме да са разхождъме по пиротска. обаче цялото семейство -

А: . ама кога това?

Б: . това / това/ това. оня ден .в събута. (Ф - смее се) и излизаме ние/ почваме да се разхождъме/ хора/ къщи/ сълтанати (Ф - смее се) и светослав като почна да мрънка…чакъй сега.тя версията колкото пъти ти я разкажа ще има пудубрения.и почвъми ние. по пиротска едни разпродажби/ едни чудеса:. влизаме в един магазин …пише. тутална разпродажба ( – завърта очи).

Сравнение с изходния вариант, в който текстът е записан според първоначално избраната система за транскрибиране, а не според книжовните правописни норми, може да се прави чрез преглед на оригиналните файлове. Първоначалният вариант на паралелните текстове, представени в (7), е включен в текста на този доклад по-горе като пример (5). Визуализацията беше оптимизирана, като в дясната колона от таблицата (Оригинал) всички случаи на отклонения от граматичните или лексикалните норми са оцветени в червено. По този начин се улеснява ориентацията при неавтоматично („ръчно“) търсене на определени думи или форми в корпуса.

↑

Специфика на ресурсите за устната реч

Ресурсите, представящи устната реч, може да съдържат само речеви данни (аудио- и видеозаписи), само текстови данни (транскрипции) или комбинация от двата типа данни. Комплексният характер на включените материали, както и спецификите на тази устна форма на езика пораждат редица въпроси: за системата за транскрибиране; за компютърните платформи и програми за публикуване и обработка на данните; за организацията и структурирането на данните; за включването на метаданните в корпусите и т.н.

При устно общуване нормите на книжовно произношение, както и граматичните и лексикалните норми се прилагат в голяма степен избирателно за различните речеви ситуации. При официално общуване и при висока степен на подготвеност устната реч обикновено се реализира в т.н. пълен произносителен стил и показва голяма близост до книжовната норма. При неофициално общуване в битовата сфера вариантите при прилагане на нормите са значително повече, като при това може да се наблюдава и превключване на кодовете. Системата от езикови средства, която обслужва устната реч, притежава основните черти на националния (официален) език, защото тя е част от него. Фонетиката и граматиката й обаче не покриват изцяло всички специфични особености на писмения книжовен език, нито следват изцяло някоя от диалектните норми. Затова един от основните въпроси при създаване и поддържане на езикови ресурси за устната българска реч е свързан със системата за транскрибиране – тя трябва да е достатъчно гъвкава, за да може да отрази спецификите на устната реч, без текстовете да се претоварват с графични знаци, но наред с това да показва и приемственост с установените традиции при създаване на корпуси с разговорна реч(Тишева, Джонова 2011). Не на последно място, системата трябва да е съобразена и с последващата автоматична обработка и публикуване на данните в електронен формат. Разработената система за транскрибиране, прилагана към настоящия момент за новите текстове на bgspeech.net, е адаптирана към моделите в програмата Ексмаралда (http://www.exmaralda.org/), която в момента се използва при синхронизирането на транскрибираната реч със съответния дигитален запис на реч.

Друга съществена характеристика на ресурсите за устната реч произтича от формата, в която се реализира устното общуване: диалог или монолог. В реалната речева комуникация доминира диалогът; монологични блокове се срещат сравнително рядко, и то в определени ситуации или речеви жанрове: лекция, изявление, публично изказване и т.н. В ресурсите, представени на bgspeech.net, тестовете се състоят от реплики на отделните участници (turns), в рамките на които се отделят изказвания (utterances) и интонационни единства (phrases). Репликата се състои поне от едно изказване, произведено от един говорещ. Важно да се прецени дали при структурирането на данните няколко последователни реплики на един и същ говорещ, разделени от паузи, но без смяна на ролите (без включване на реплика на нов говорещ), трябва да бъдат записани като една реплика, или ще оформят няколко последователни реплики на един и същ участник. В ресурсите на BgSpeech присъстват и двата варианта, като при последните мултимедийни данни преобладават текстовете с единично посочване на говорещия и последователно изреждане на изказванията в рамките на една реплика до момента, в който в общуването се включва реплика на друг говорещ.

Информативността на ресурса се повишава и с включването на метаданни, съдържащи екстралингвистична информация за речевата ситуация – сфера на общуването, място, тема или теми на разговора, комуникативен канал, и информация за социално-демографските характеристики на участниците в нея (ако, разбира се, такава информация е налице). Така освен за лингвистични анализи, ориентирани към фонетичните и граматичните особености на устната реч, ресурсите стават надеждно средство за представяне на връзката между социалните фактори и езиковите явления, за влиянието на сферата на общуване (частна или публична), на степента на подготвеност на участниците в комуникацията (подготвено и/или спонтанно общуване), като и на социалните роли върху избора на езикови модели и средства за устно общуване. Данните от представителните ресурси за българската устна реч, а не интуицията на отделни изследователи или единично регистрираните примери могат да потвърдят или да опровергаят твърденията, че речта на съвременния българин става по-бедна и по-неправилна.

↑

Възможности за развитие и приложение на езиковите ресурси, представящи българската устна реч

Нови данни за най-динамичния вариант на съвременния български език – устната реч, бяха събрани в рамките на проекта „Изследване на модели и средства в различни речеви ситуации и сфери на общуването в съвременния български език“, финансиран от Фонд „Научни изследвания“, дог. № ДТК 02/ 11 от 16.12.2009 г., разработен от екип от преподаватели от Факултета по славянски филологии на СУ и администриран от фондация “Фокус”. Основната цел на проекта беше свързана с изследването на речевата комуникация в различни речеви ситуации и сфери на общуването. Реализирането на тази цел изискваше събирането на надеждни данни, представителни за различни по тип речеви прояви. Водещите критерии при избора на обекти за наблюдение и анализ бяха свързани със степента на официалност на ситуацията и на подготвеност на речта. В резултат на проведените теренни проучвания беше събран масив от аудиоматериали с общ обем 309 часа.

В рамките на проекта беше проведено и мониторингово изследване на медийния език – месечно изследване на телевизионни формати, в които участниците общуват без или с минимална предварителна езикова подготвеност на изказванията. Допълнително бяха направени записи и от радиопредавания от национални и регионални медии с цел разширяване и обективиране на изследванията във връзка с устната медийна реч изобщо. В резултат на тези дейности беше събран масив от данни за речевата комуникация на български език в медийна среда (аудио- и видеоматериали): 550 часа записи от телевизионни предавания и 200 часа записи от радиопредавания. Двата масива от записи бяха подложени на първоначална селекция, чрез която да се направи извадка от представителни материали за различни по тип комуникативни ситуации и говорещи. Към настоящия момент част от тези записи са транскрибирани и верифицирани и предстои включването им към съответните езикови ресурси за подготвената и за спонтанната официална и неофициална реч. Събраната богатата по обем и разнообразна по тип база данни може да се определи като представителна за актуалното състояние на българската устна реч.

Изходната методологична база, приета от членовете на екипа на проекта при изследване на устната реч, се различава от доминиращата нормативистично ориентирана гледна точка, според която речевата комуникация се оценява през призмата на кодифицираните (най-често правописни) правила. Текстовите данни, както и целият масив от аудио- и видеозаписи бяха използвани от членовете на екипа на проекта при проведените проучвания на фонетичните, морфологичните, синтактичните, паралингвистичните и прагматичните особености на съвременната българска устна реч и създаването на теоретичен модел за описание на езиковите средства в речевата комуникация. Анализът на данните, събрани в рамките на проекта, даде основание да се твърди, че в устната реч се открояват тенденции, които ще окажат влияние и върху състоянието на писмената форма на съвременния български език. Изводите за високата честота и системността на определени речеви прояви, регистрирани в масива от емпирични данни, бяха подкрепени и от данните от представително анкетно проучване на езикови нагласи на съвременните българи, проведено в рамките на проекта. Надеждните ресурси, представителни за състоянието на устната реч в настоящия момент, подпомогнаха лингвистичните анализи и обективираха направените изводи за речевата комуникация в различни сфери и ситуации.

↑

Цитирана литература

Коева, С. авт, 2009. Езикови ресурси и компютърни програми с приложениe в лингвистичните изследвания. В IT наръчник за хуманитаристи. Пловдив: Пловдивски университет „Паисий Хилендарски“, с-ци 30–53. Available at: http://dcl.bas.bg/PDF/LanguageResources.pdf [Отворен на 20.10.2014AD].

Коева, С. & Стоянова, И. авт-ри, 2009. Български национален корпус. Български език, (3), с-ци135–150.

Николова, Ц. авт, 1987. Честотен речник на българската разговорна реч, София: Наука и изкуство.

Тишева, Й. & Джонова, М. авт-ри, 2011. Корпус с устна българска реч – специфика и структура. Български език, 58, с-ци34 – 53.

1. Изказвам благодарност на НИС на СУ за подкрепата, благодарение на която и през 2013 г. и 2014 г. работата по обогатяване на ресурсите, публикувани на bgspeech.net, беше продължена
2. Данни за екипа вж. на <http://bgspeech.net/bg/team/about_us_bg.html>.

Етикети:

електронни езикови ресурси