corpus linguistics

0

No comments posted yet

Comments

Slide 1

КОРПУСНАЯ ЛИНГВИСТИКА КАК ОДНО ИЗ НАПРАВЛЕНИЙ ПРИКЛАДНОЙ ЛИНГВИСТИКИ

Slide 2

РАССМАТРИВАЕМЫЕ ВОПРОСЫ Корпусная лингвистика, ее объект, предмет исследования и задачи История зарождения корпусной лингвистики Лингвистический корпус, разметка. Технологический процесс создания лингвистического корпуса Основные требования, предъявляемые к лингвистическому корпусу. Классификация корпусов Различия теоретической и корпусной лингвистик Основные направления исследований в корпусной лингвистике

Slide 3

Научное направление, занимающееся разработкой общих принципов построения и использования лингвистических корпусов(корпусов текста) с использованием компьютерных технологий. Цель : лингвистическое описание языковой системы и отражение речевого материала в корпусе текстов, который может использоваться другими лингвистическими дисциплинами. Объект – корпус текстов. Предмет – теоретические основы и практические механизмы создания и использования представительных массивов языковых данных. Корпусная лингвистика

Slide 4

ОСНОВНАЯ ЗАДАЧА КОРПУСНОЙ ЛИНГВИСТИКИ Полное и системное отражение содержательного общения на языке Использует следующие приемы: автоматическое извлечение сведений о языке из корпусов; обработку информации; проверку и интерпретацию обработанных данных

Slide 5

История возникновения и развития корпусной лингвистики Корпусы до корпусной лингвистики исследования Библии (Cruden); cоставление словарей (Johnson, Oxford English Dictionary, Webster Dictionary); преподавание языков(частотный корпус - Thorndike, 1921) дескриптивная грамматика (Fries, 1940; корпус - Quirk, 1968 – 1 млн. словоупотреблений) Корпусная лингвистика с 60-х гг. ХХ в. 1963 г. Брауновский корпус– 1 млн слов; 1970-е г. Lancaster-Oslo/Bergen (LOB) – 1 млн. слов; 1980-е г. Уппсальский и Тюбингенский корпусы русского языка, Машинный фонд русского языка – 1 млн. слов; 1990-е Британский Национальный корпус, итальянский, венгерский, хорватский, чешский, японский корпусы – 100 млн. слов; Лингвистический банк английского языка – 600 млн. слов; 2000-е г. Oxford English Corpus – 2 млрд. слов; Gigaword corpora (английский, арабский, китайский) – 2 млрд. слов; Национальный корпус русского языка - 140 млн.слов.

Slide 6

ИНТЕРНЕТ-КОРПУСЫ (1) http://ruscorpora.ru/corpora-other.html

Slide 7

ИНТЕРНЕТ КОРПУСЫ (2) http://ruscorpora.ru/corpora-other.html

Slide 8

Совокупность текстов какой-либо определенной категории. Чрезвычайно объемное цифровое собрание текстов и текстовых отрывков, служащее репрезентативной выборкой для определенного, ограниченного на основе различных параметров языкового употребления, а в общеязыковом лексикографическом контексте являющегося целевой выборкой из языка в целом (Й. Асмуссен) Набор лингвистических данных из определенного языка в форме записанных высказываний или письменных текстов, доступный для анализа (А. Клозе). Собрание отрывков текстов в электронной форме, отобранных в соответствии с внешними критериями, чтобы наиболее полно представлять язык или вариацию языка. Функционирует как источник для лингвистических исследований (Дж. Синклер). Представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для конкретных лингвистических задач (В.П. Захаров). Совокупность текстов, считающаяся представительной для данного языка, диалекта или другого подмножества языка, предназначенная для лингвистического анализа (У.Н. Фрэнсис, 1983) КОРПУС - ЭТО

Slide 9

разметка - результат приписывания текстам и их компонентам внешне лингвистических (экстралингвистических) и лингвистических меток. Экстралингвистическая Метатекстовая (источник текста, жанр, автор, год издания, тема); Типографская (разделение на страницы, выбор шрифта, цвет, сноски, гиперссылки, рисунки, таблицы, графики, меню и т.д.); Графематическая (глава, абзац, предложение, словоформа). Лингвистическая Морфологическая Синтаксическая Семантическая Анафорическая Просодическая и т.д.

Slide 10

МОРФОЛОГИЧЕСКАЯ РАЗМЕТКА part-of speech tagging (POS-tagging) (основа синтаксического и семантического анализа)

Slide 11

СИНТАКСИЧЕСКАЯ РАЗМЕТКА (parsing)

Slide 12

Семантическая разметка

Slide 13

ЛИНГВИСТИЧЕСКАЯ РАЗМЕТКА КОРПУСА АНАФОРИЧЕСКАЯ представляет наибольшую сложность, т.к. указывает на предшествующее слово, отсылающая к ранее сказанному, особую стилистическую роль играет местоимение 3-го лица. ПРОСОДИЧЕСКАЯ Интонационная, включающая ритм, темп, тембр, логическое ударение.

Slide 14

СОЗДАНИЕ КОРПУСА ЭТАПЫ СОЗДАНИЯ КОРПУСА Определение перечня источников; Оцифровка текстов; Предобработка текста; Конвертирование и графематический анализ; Разметка текста; Корректировка результатов автоматической разметки; Конвертирование размеченных текстов в структуру специализированной информационно-поисковой системы (corpus manager); Обеспечение доступа к корпусу ТРЕБОВАНИЯ, ПРЕДЪЯВЛЯЕМЫЕ К КОРПУСУ должен быть: репрезентативным; полным по представляемому материалу; экономичным; структурированным; обеспеченным компьютерной поддержкой.

Slide 15

КЛАССИФИКАЦИЯ КОРПУСОВ

Slide 16

КЛАССИФИКАЦИЯ КОРПУСОВ ПО В.В. РЫКОВУ

Slide 17

Виды корпусов и их назначение Исследовательские – для изучения различных аспектов функционирования языковой системы; Иллюстративные – для подтверждения полученных результатов; Динамические и статистические – для выявления функционирования на временной шкале; Параллельных текстов – для научных и практических целей (преподавания иностранных языков, в переводоведении).

Slide 18

Осуществляет: поиск конкретных словоформ; поиск словоформ по леммам; поиск группы словоформ в виде разрывной или неразрывной синтагмы; поиск словоформ по набору морфологических признаков; отображение информации о происхождении, типе текста и т.д.; вывод результатов поиска с указанием контекста заданной длины; получение различных лексико-грамматических статистических данных; сохранение отобранных строк конкорданса в отдельном файле на компьютере пользователя и др. CORPUS MANAGER

Slide 19

Большой объем корпуса гарантирует типичность данность и обеспечивает полноту представления всего спектра языковых явлений; Данные разного типа находятся в своей естественной контекстной форме, что создает возможность их всестороннего и объективного изучения; Однажды созданный и подготовленный массив данных может использоваться многократно, многими исследователями и в разных целях. ЦЕЛЕСООБРАННОСТЬ СОЗДАНИЯ КОРПУСА

Slide 20

ОТЛИЧИЯ КОРПУСНОЙ ЛИНГВИСТИКИ ОТ ТРАДИЦИОННОЙ

Slide 21

Отличия корпусной лингвистики от традиционной (продолжение)

Slide 22

Основные направления исследований корпусной лингвистики Направления исследований лексикографические лингвистические статистические лингвистические теоретические текстологические компьютерная лингвистика лингводидактика переводоведение

Summary: the questions connected with the development of the new scientific sphere of linguistics - corpus linguistics are reviewed

URL: