СИД “Компютърна лингвистика за филолози”

 

Лектор: доц. Екатерина Търпоманова

 

Курсът цели да информира студентите за компютърната лингвистика като модерна, иновативна, високотехнологична област на науката с нейните теоретични и приложни аспекти. Основната цел е да създаде у тях базови познания в тази перспективна област, която предлага широки възможности за реализация в България и чужбина. Курсът е с филологическа насоченост, акцентира върху лингвистичната страна на тази интердисциплинарна област, а именно – върху езиковите ресурси, изграждането и приложението им. В програмата се предвиждат няколко практически упражнения, в които студентите ще имат възможност сами да участват в създаването на езикови ресурси във формат, подходящ за компютърна обработка. Могат да се запишат студенти от филологическите факултети – ФСФ, ФКНФ, а също и студенти от други хуманитарни специалности.

 

1. Компютърна лингвистика – теория и практика за компютърна обработка на естествените езици. Естествен и изкуствен език. Теоретична и приложна страна на компютърната лингвистика. Съвременни компютърни приложения с участието на компютърна лингвистика.

2. История на компютърната лингвистика. Опити за създаване на системи за автоматичен превод – предизвикателства, неуспехи, успехи.

3. Подходи за компютърна обработка на естествените езици: статистически методи; методи въз основа на лингвистични правила; хибридни методи. Предимства и недостатъци на всеки от подходите.

4. Езикови ресурси и тяхното приложение в компютърната лингвистика. Корпуси, електронни речници, тезауруси, уърднет.

5. Корпус – определение. Характеристики на корпуса – обем, баланс, представителност. Видове корпуси. Корпусна лингвистика.

6. Българският национален корпус (БНК) – концепция при изграждането, характеристики. Структура на БНК. Метаданни.

7. Системата за търсене в Българския национален корпус. Особености на езика за заявки. Търсене с регулярни изрази и формули.

8. Търсене в БНК – упражнение.

9. Лингвистична анотация. Анотирани корпуси. Приложения на анотираните корпуси. Програми за анотация.

10. Анотиране на корпус – упражнение.

11. Уърднет – концептуална рамка, изграждане на уърднет. Синонимно множество. Семантични релации. Междуезиков индекс. Уърднет като тълковен и междуезиков речник. Приложения в компютърната лингвистика.

12. Българският уърднет (БулНет). Системата “Хидра”. Търсене в БулНет. Въвеждане на синонимни множества.

13. Създаване на синонимни множества в БулНет – упражнение.

14. Области на приложение на компютърната лингвистика – програми за проверка и корекция на правопис; технологии за обработка на реч; търсене на информация; извличане на информация.

15. Области на приложение на компютърната лингвистика – генериране на текст; отговаряне на въпроси; резюмиране на текст; машинен превод.