КОРПУСНАЯ ЛИНГВИСТИКА В СИСТЕМЕ ЛИНГВИСТИЧЕСКИХ ДИСЦИПЛИН
КОРПУСНАЯ ЛИНГВИСТИКА В СИСТЕМЕ ЛИНГВИСТИЧЕСКИХ ДИСЦИПЛИН
Мелконян Эгине Азатовна
канд. филол. наук, доц., Ванадзорский государственный университет, Республика Армения, г. Ванадзор
CORPUS LINGUISTICS IN THE SYSTEM OF LINGUISTIC DISCIPLINES
Heghine Melkonyan
Candidate of Philological Sciences, Associate Professor, Vanadzor State University,
Republic of Armenia, Vanadzor
АННОТАЦИЯ
Статья посвящена дисциплинарной характеристике корпусной лингвистики, ее месту в системе современных лингвистических дисциплин. Как нам кажется, корпусная лингвистика является одним из самых синкретных дисциплин, чем и обусловлена необходимость правильной характеристики дисциплинарной роли и междисциплинарных соотношений этой научной области. Для классификации лингвистических дисциплин в статье принята теория, выдвинутая академиком Г. Джаукяном. Для оценки места корпусной лингвистики был проведен анализ публикаций в данной области, в особенности материалов периодических тематических конференций, организованных СПбГУ, целью которого было выявление того, чем именно на практике занимаются корпусисты.
ABSTRACT
The article is devoted to the disciplinary characteristics of Corpus Linguistics, its place in the system of modern linguistic disciplines. It seems to us that corpus linguistics is one of the most syncretic disciplines, which justifies the need to correctly characterize the disciplinary role and interdisciplinary relations of this scientific field. For the classification of linguistic disciplines, the article adopts the theory put forward by Academician G. Jahukyan. To assess the place of Corpus Linguistics, an analysis of publications in this field, especially the materials of periodic thematic conferences were organized by St. Petersburg State University, was conducted, the purpose of which was to identify what exactly corpus linguists do in practice.
Ключевые слова: лингвистические дисциплины, междисциплинарные соотношения, корпус, текст, корпусология.
Keywords. linguistic disciplines, interdisciplinary relations, corpus, text, Corpusology.
1.Классификация лингвистических дисциплин по теории Г. Джаукяна [2, с. 38-43]
Классификация лингвистических дисциплин является одним из ключевых моментов лингвистической теории. В данном случае мы применили классификацию, выдвинутую академиком Г. Джаукяном. Сначала выделяются 2 крупные сферы лингвистических учений: макролингвистика (всевозможные дисциплины, занимающиеся лингвопроблематикой и, тем самым, каким-либо образом соотносящиеся с лингвистикой) и микролингвистика//центролингвистика (узко-лингвистические дисциплины). Если макролингвистические дисциплины классифицируются по общенаучным принципам, то микролингвистические – по узко-лингвистическим (1. степень обобщенности, 2. историчность/ неисторичность подхода, 3. инвариантности/ вариантности объекта). В макролингвистике разделяются 4 научных сферы, у каждой из которых намечен отдельный тип отношения с микролингвистикой (рис. 1): отношение к… (пролингвистика), отношение от… (аполингвистика), отношение взаимности: и от…, и к… (перилингвистика), отношение к самому себе – возвратность (металингвистика). Предлагая такую классификацию, Джаукян все же допускает, что могут быть дисциплины, место которых можно оценить неоднозначно, включая их одновременно в разные отрасли данной схемы. Несмотря на то, что свой подход автор оценивает как грубое обобщение, но, по нашему мнению, данная схема, все-таки способна предложить самый рациональный путь для ориентации во множестве лингвистических дисциплин.
Рисунок 1. Лингвистические дисциплины по Г. Джаукяну
Пролингвистика: набор а) естественных, б) общенаучных и синтетических дициплин, из которых лингвистика черпает знания для решения своих – лингвистических – задач (лингвоакустика, лингвогеография, лингвобиология, лингвоантропология, лингвофилософия, лингвоматематика/ математическая лингвистика, лингвокибернетика/ «лингвоника», лингвосемиотика). Аполингвистика: набор прикладных дисциплин (лингвопедагогика/педолингвистика, аполексикология, технолингвистика/ инженерная лингвистика, патолингвистика). Перилингвистика: набор междисциплин (палеолингвистика, социолингвистика, этнолингвистика, психолингвистика, юрислингвитика*[1], когнитивная лингвистика*). Металингвистика: набор дисциплин, не входящих в область микролингвистики и других упомянутых направлений макролингвистики (история лингвистики, лингвистическая терминология, лингвистическая методология, лингвистическая структурология).
Множество узко-лингвистических дисциплин можно представить следующим списком: общая Л, частная, отдельная Л, диалектология, стилистика, типология, контрастивная, сопоставительная Л, историко-сравнительная Л, Лингвистическая текстология, переводоведение, порождающая Л, теория коммуникации.
2. Корпусная лингвистика как научная область
2.1. Что и как?
Что нам говорят эксперты о роли КЛ и о «главном герое сферы» – о корпусе? «Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с применением компьютерных технологий. Под лингвистическим, или языковым, корпусом текстов (или обычно просто корпусом текстов) понимается большой, представленный в машиночитаемом формате, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач» [3, с. 11]. А задаваясь вопросом о месте корпусной лингвистики в лингвистике вообще, там же дается двоякий ответ: а) КЛ – это, скорее всего, методология лингвистического исследования, применимая практически к любой области лингвистики (corpus-based – корпусно-ориентированный подход): корпусы используются для проверки лингвистических теорий или гипотез, с целью их подкрепления, подтверждения, опровержения или уточнения; б) КЛ – это настоящая научная лингвистика (corpus-driven – корпусно-управляемый подход): корпус сам является главным и единственным источником теорий о языке – это теория [3, с. 14].
В нашей предыдущей публикации корпус был оценен как одновременно объект и «продукт» исследования КЛ со следующей характеристикой: корпус – набор электронных текстов, с поисковыми возможностями и разными фильтрами [5, с. 72-73]. Там же главные миссии КЛ были сведены к следующим: а) обеспечение речевым материалом исследователя (ведь изучать сущность языка, а не его структуру, можно лишь путем изучения языка в действии – в речевых-текстовых материалах), б)разработка меры для оценки узуальности языковых явлений. К указанным миссиям необходимо добавить еще одну – в) возможность проверки и усовершенствования лингвистических теорий.
Обобщая наше понимание о предмете КЛ, можно зафиксировать, что КЛ сам же создает предмет своего изучения – корпус: сначала создает его, а потом изучает.
Являясь одной из самых синкретных дисциплин, в КЛ можно наблюдать применение самых разных по своему происхождению методов: 1)общенаучных, 2)филологических, 3) узко-лингвистических, 4) математических, 5) компьютерных, 6) междисциплинарных/отдельно научных (при междисциплинарных исследованиях).
Название КЛ тесно связано особенно с названиями таких дисциплин, как «компьютерная лингвистика», «математическая лингвистика», «прикладная лингвистика». Что касается прикладной лингвистики, то она является самой объемной из вышеупомянутых научных сфер: в нее входят всевозможные лингвистические дисциплины, которые «изучают и разрабатывают способы оптимизации функционирования языка» [1]. КЛ прикладная, компьютерно-лингвистическая дисциплина, в которой активно применяются методы математической лингвистики, особенно при моделировании и при квантитативных задачах.
2.2. Обзор практики современной корпусной лингвистики
К ответу на вопрос Чем же на практике реально занимаются корпусисты? мы решили проанализировать научные публикации в области КЛ, и для нас на этом пути стал приятной находкой сайт периодических конференций «Корпусная лингвистика», проходящих в СПбГУ [6]. В результате наблюдения в общем фонде публикаций выделялись работы, посвященные решению таких задач (список – по убыванию встречаемости):
а) Вопросы моделирования и програмирования: проблемы с разметкой, лемматизацией или токензиацией; аннотация и извлечение имен собственных, биграмм, аналитических форм, нулевых синтаксических явлений; выявление симметричности-асимметричности коллокатов в параллельном корпусе; создание компьютерной онтологии предлогов; обработка машинного перевода; создание частотной грамматики; распознавание авторства; выявление близости языков; объединение открытых корпусов; аннотация текстов со старой графикой; аппроксимация; тематическое моделирование художественного текста; создание поливариантных корпусов (для разных переводов текста на один и тот же язык); выявление структуры нарратива (текстология); автоматическое редактирование текстов; описание опыта создания или эксплуатаций разных корпусов; синхронизация корпуса с электронным словарем; создание и эксплуатация биографической базы данных, авторских корпусов, снятие неоднозначности (омонимия, многозначность, морфологические формы), автоматическое извлечение неологизмов или фразеологизмов, выявление и аннотация эллипсиса, извлечение ключевых слов или терминологии, создание электронных словарей или тезаурусов, реализация транскрипции устного текста, перекодировка английских слов в МФА, упрощение библиотечного дела и т.д.
б) Узко-лингвистические вопросы: создание индо-европейского тезауруса, выявление коррелятов фонетического слова, изучение контекстов синонимии, изучение особенностей детской речи, изучение длины синтаксических связей, изучение параллелей глагольных форм в сопоставляемых языках, выявление вариантности винительного падежа, диахроническое исследование лексико-семантического поля (враги) или конверба, количественный анализ предложно-падежных сочетаний; изучение топонимов, структуры научного текста (текстология) пауз хезитации; выявление частотности употребления значений слова (BREXIT) и т.д.
в) Междисциплинарные вопросы: 1) лингво-культурологическое исследование топонимов, текстов романсов, 2) изучение психолингвистических явлений (эмоции, жесты) на материале устных корпусов, 3) обработка лингво-дидактических инновационных технологий: выявление и анализ речевых ошибок при изучении языка; концепция и методика создания иллюстративно-текстового корпуса учебников языка для начальных классов; мониторинг (!) уровня знания иностранного языка (в Китае), обработка учебного сайта, направленная на изучение языков с применением корпусных технологий (REVITA).
г) Теоретические вопросы: соотношение КЛ и типологии, КЛ и фундаментальной лингвистики; классификация корпусных текстов, возможности специальных корпусов; роль корпусов в лингвистических исследованиях; КЛ и перевод; КЛ и источниковедение; критерии сопоставимости параллельных корпусов[2], корпус как инструмент исследования художественного текста, контекстная роль интернет ссылок (текстология).
Обобщая весь материал сайта, можно констатировать следующие наблюдения:
- Содержание статей в большинстве случаев имеет апостериористический, нежели априорный характер. В них представлен опыт создания или эксплуатации корпусов.
- Язык статей часто оснащен узкой метаязычностью, а метаязык этот, чаще всего, информатико-математического содержания, что может создавать некий барьер доступности этих текстов для широко лингвистической аудитории.
- Языковой материал был извлечен не только из современного литературного языка, но и из древних текстов, из диалектов, из авторского текста, из Евангелия, из иностранных языков, разных функциональных стилей языков.
- Исследования посвящены как одноязычным, так и параллельным (многоязычным, поливариантным, вариантным) корпусам.
- Корпусы могут быть применены не только в лингвистических целях, но и в интересах самых разных научных сфер, что нам дает основание задуматься: Правильно ли считать все корпусные исследования корпусно-лингвистическими? На наш взгляд, можно иметь общую науку о корпусах, под названием Корпусология, в которой могли бы разделятся отдельные поддисциплины, в числе которых КЛ была бы одной из самых обработанных (ср. общие и лингвистические текстология, переводоведение, теория коммуникации, семиология).
- Остается главный вопрос – Кого нужно, прежде всего, считать корпусным лингвистом? Того, кто обрабатывает техническую часть корпуса? Того, кто занимается лингвистическим оформлением корпусов? Того, кто активно эксплуатирует корпус в своих профессиональных целях? Того, кто занимается теорией корпуса?
- Корпусно-лингвистические исследования порой оставляют впечатление соавторской работы. И чем глубже размечен корпус, тем учебней он становится и тем выше процент участия «соавтора».
- Материал данного сайта конференций может быть перевоплощен в профессиональный корпус, для изучения сферы КЛ со своим тезаузусом, поисковым аппаратом, прикрепленным к терминам, лингвистическим явлениям, к моделям, к схемам, заглавиям, именам деятелей, сайтам, языкам и т.д. И это нам дает основание задуматься о том, что такие профессиональные корпусы могут быть разработаны для всех профессий, для всех сфер человеческой деятельности.
3. Место корпусной лингвистики в джаукяновской системе лингвистических дисциплин
Если КЛ – это методология, то мы имеем дело с металингвистической дисциплиной. Металингвистической нужно считать еще и связь с теорией: проверить теорию и возвратить это обратно в теорию, по существу и есть возвратное отношение к микролингвистике. Если же КЛ считать областью обработки и эксплуатации корпусного материала (с лингвистической или лингводидактической позиции), с применением взятых у микролингвистики знаний о языке, то это у нас уже аполингвистика, задача которой, как уже было сказано выше о прикладной лингвистике, отвечать за оптимизацию функционирования языка. Анализируя публикации КЛ, можно сказать, возникает еще и впечатление полулингвистики или полуинформатики: КЛ может претендовать на перилингвистику, но КЛ не может быть оценен в качестве междисциплины, так как, в отличии от нее, объект исследования односторонний – лингвистический, а информатика лишь играет вспомогательную роль, на языковом материале практикуя теории информатики. Если связь КЛ с информатикой односторонна, может ли КЛ быть отнесен к пролингвистике? Нам так не кажется, так как в пролингвистических дисциплинах знания других наук имеют долингвистический характер – в то время как в КЛ лингвистические знания и предшествуют (в виде аннотаций) и сопутствуют, и следуют нелингвистическим.
Синкретность КЛ требует неоднозначной оценки его дисциплинарного места. Принимая некую условность данной теории и пытаясь разносторонне охарактеризовать КЛ, необходимо все-таки принять, что КЛ, скорее всего, аполингвистическая – прикладная дисциплина.
Список литературы:
- Баранов А.Н. (2001), Введение в прикладную лингвистику, Москва, изд. «Эдиториал УРСС», 360 с.
- Джаукян Г.Б. (1978), Общее и армянское языкознание, Ереван, изд. АН АССР, 335 с..
- Захаров В.П., Богданова С.Ю. (2020), Корпусная лингвистика, Санкт-Петербург, изд. СПбГУ, 234 с..
- Захаров В.П, Мелконян Э.А. (2020), Важность и методология создания единого корпуса произведений писателя и их переводов (к созданию многоязычного корпуса текстов Гранта Матевосяна), «Матевосяновский резонанс – 3», Материалы международной научной конференции, прошедшей в ВГУ (23.05.2020), Ереван, изд. «Мисма», 2020, 456 стр., СС. 159-182.
- Мелконян Э.А. (2019) Соотношение корпусной лингвистики и типологии, «Корпусная лингвистика – 2019», Сборник статей международной конференции, СПбГУ, Санкт-Петербург, изд. СпбГУ, 2019, 448 стр., СС. 72-79.
- Электронный ресурс: https://events.spbu.ru/events/anons/corpora-2019/previous.html (для 8-и конференций 418 статьи, с широкой географией авторов).
[1] Звездочкой мы выделили дисциплины, добавленные нами.
[2] Будучи заинтересованными проблематикой параллельных корпусов, в соавторстве мы тoже опубликовали одну статью [4, с. 159-182].