AntConc_ext.user.manual_2015 (1)













Программа AntConc.
Руководство пользователя

СОДЕРЖАНИЕ

13 TOC \o "1-3" \h \z \u 1413 LINK \l "_Toc433175392" 140. Введение в AntConc 13 PAGEREF _Toc433175392 \h 1431515
13 LINK \l "_Toc433175393" 141. Краткий глоссарий 13 PAGEREF _Toc433175393 \h 1431515
13 LINK \l "_Toc433175394" 142. Интерфейс AntConc 13 PAGEREF _Toc433175394 \h 1461515
13 LINK \l "_Toc433175395" 143. Назначение инструментов AntConc 13 PAGEREF _Toc433175395 \h 1461515
13 LINK \l "_Toc433175396" 144. Приемы работы с AntConc 13 PAGEREF _Toc433175396 \h 1471515
13 LINK \l "_Toc433175397" 144.1. Загрузка / отключение файлов, сохранение результатов 13 PAGEREF _Toc433175397 \h 1471515
13 LINK \l "_Toc433175398" 144.2. Определение кодировки входного файла и настройка кодировки в AntConc 13 PAGEREF _Toc433175398 \h 1481515
13 LINK \l "_Toc433175399" 144.3. Настройка токенов 13 PAGEREF _Toc433175399 \h 1491515
13 LINK \l "_Toc433175400" 144.4. Работа со схемами лемматизации 13 PAGEREF _Toc433175400 \h 14101515
13 LINK \l "_Toc433175401" 144.5. Определение маски поиска 13 PAGEREF _Toc433175401 \h 14111515
13 LINK \l "_Toc433175402" 146. Регулярные выражения в AntConc 13 PAGEREF _Toc433175402 \h 14121515
15

0. Введение в AntConc
Корпус-менеджер AntConc (разработчик: Лоуренс Энтони (Laurence Anthony), Waseda University, Япония) предназначен для обработки корпусов первого порядка, то есть неразмеченных коллекций текстов.
AntConc не требует установки, является кроссплатформенной программой, то есть не привязан к ОС Windows (работает под Win 98/Me/2000/NT/XP/Vista/Win 7, Linux, Macintosh, OSX), распознает свыше 90 кодировок, поддерживает настройку скрытия разметки html и TEI, допускает пользовательское определение символьного состава слова (в терминологии AntConc – определение токенов), поддерживает задание шаблонов поиска через регулярные выражения и переопределяемые символы-джокеры, обладает расширенными возможностями сортировки результатов. Программа AntConc относится к категории бесплатного программного обеспечения.
Отсутствие морфологического анализатора частично компенсируется возможностью подключения пользовательских схем лемматизации. Ограничения на формат входных / выходных файлов (htm, html, xml, txt – на входе и txt – на выходе), с учетом достаточного числа свободно распространяемых конвертеров, не столь существенны.
Файл справки описывает приемы работы с версией 3.2.1w. Следующая версия корпус-менеджера имеет расширенный функционал, однако более требовательна к ресурсам, и, что немаловажно, работает медленнее. Интерфейсы версий во многом сходны, поэтому этот файл может использоваться и как справка по работе с последней версией корпус-менеджера.
1. Краткий глоссарий
Кластер – в общем случае: совокупность элементов, выделенная на основании статистической близости измеряемых свойств этой совокупности. В AntConc: совокупность 13 LINK \l "ngamma" 14n-грамм15 к заданному опорному элементу, при заданных n и минимальной частоте n-граммы; статистическая близость измеряется по формуле Prob=freq/F, где freq – частота кластера, F – накопленная частота кластеров с таким же, как у данного кластера, первым элементом (то есть статистическая близость оценивается в терминах условной вероятности); Prob принимает значения в интервале (0;1].

Ключевое слово – словоформа некоторого текста, входящая в список ключевых слов, достаточный для описания содержания этого текста в целях информационного поиска.

Коллокация – в общем случае: устойчивое сочетание слов, мера ассоциативной связи которых (13 LINK \l "kritsv" 14критерий связности15) оценивается статистически. Коллокатом называется некоторый компонент коллокации относительно оставшейся ее части. Традиционными формальными ограничениями при автоматическом извлечении коллокатов являются, вопервых, ограничение на длину коллокации (обычно извлекаются 2-словные коллокации) и, вовторых, ограничение на ширину окна поиска коллоката к опорному слову (например, поиск коллоката в окне 5 словоформ справа / слева; здесь размер окна дан по нижней границе числа Миллера-Ингве, то есть 7(2). В AntConc доступно извлечение коллокатов с оценкой меры связи компонентов по критериям MI и TI-score.

Конкорданс – особый вид словаря, каждая запись которого (concordance line) представляет собой опорный элемент (обычно это слово) в контексте и со ссылкой на источник. Ср. 13 LINK \l "kwic" 14KWIC15. Фрагмент обычного конкорданса НКРЯ к слову экстракт представлен на рисунке ниже:

Корпус (лингвистический корпус текстов) – унифицированный, структурированный, представленный в электронном виде филологически компетентный массив языковых данных, отвечающий следующим формальным требованиям:
– объем не менее 100 млн. словоупотр.,
– наличие одного и более видов 13 LINK \l "annotation" 14разметки15 (обычно выполненной по некоторому 13 LINK \l "annotStand" 14стандарту15; например: метаразметки; просодической, семантической, морфологической, синтаксической), интерпретиремой 13 LINK \l "corpusM" 14корпус-менеджером15 для извлечения фрагмента текста с заданными значениями разметки/разметок, заданной длины.
Структура корпуса: размеченная коллекция текстов + корпус-менеджер.

Корпус-менеджер – система управления текстовыми и лингвистическими данными с функциями создания и ведения корпуса (доступны для разработчиков), выверки корпуса (для разработчиков и иногда  – для пользователей), обработки корпусных данных (для разработчиков и пользователей), представления результатов обработки корпусных данных и некоторыми другими.

Корпус первого порядка – электронная текстовая коллекция (объединенная по признаку языка, жанра, времени создания), неразмеченная, интерпретируемая корпус-менеджером.

Критерий связности – статистическая мера оценки меры связи компонентов коллокации. Например, одним из вариантов оценки меры связи компонентов коллокации является расчет MI (Mutual Information) по формуле:
MI = 13 EMBED Equation.3 1415,
где f(n,c) – частота взаимной встречаемости n и c, N – объем текста в словоупотреблениях, f(n) и f(c) – частоты опорной словоформы и коллоката соответственно.
Рассмотрим эту формулу подробнее (дано по Stabbs: Stubbs, M. Collocations and semantic profiles: on the cause of the trouble with quantitative studies / M. Stubbs // Functions of Language.– 1995.– Vol. 2:1.– P. 23 – 55). Максимальное число взаимных сочетаний n и c равно n*c; назовем ожидаемой частотой (ОЧ) число
ОЧ=13 EMBED Equation.3 1415 (то есть произведение относительных частот n и c).
Назовем наблюдаемой частотой (НЧ) число
НЧ=13 EMBED Equation.3 1415 (то есть относительную частоту сочетания n и c).
Оценим, наколько наблюдаемое приблизилось к ожидаемому, разделив НЧ на ОЧ:
13 EMBED Equation.3 141513 EMBED Equation.3 1415*13 EMBED Equation.3 1415=13 EMBED Equation.3 1415.
Подведя результат под логарифм по основанию 2 (основание 2 выбирается как оммаж расчету количества информации в системах с двоичной логикой; цель логарифмирования прозрачна – выровнять ряд вычисляемых значений), получаем вышеназванную формулу расчета MI;.

Лемма – автоматически полученная начальная форма слова.

Лемматизация – один из процессов автоматической обработки текста, результатом которого является возведение словоформ к леммам.

Разметка – 1) система тегов, вводимая для обеспечения автоматической обработки лингвистических данных и описывающая морфологические, семантические, синтаксические и некоторых других языковые категории и свойства текста, а также его экстралингвистические свойства; 2) процесс присвоения лингвистическим объектам текста тегов разметки.

Стандарт разметки – принятая профессиональным сообществом и документированная система спецификаций тегов разметки разного вида. Например: 13 LINK \l "TEI" 14TEI15, EAGLES.

Токен – последовательность символов из ранее определенного множества символов, соответствующая слову. Говоря токен вместо слово мы акцентируем внимание, во-первых, на том, что это слово распознано в результате автоматического графематического анализа текста, во-вторых, на том, что множество элементов, из которых может состоять токен, определяется в соответствии с задачами разработчика программы или ее пользователя. Достоинством программы AntConc является возможность пользовательского определения токенов.

KWIC (Key Word In Context) – распространенный формат 13 LINK \l "concordance" 14конкорданса15, при котором каждая запись (concordance line) центрируется и сортируется по опорному слову, а правое и левое окружение визуально отделены от опорного слова. Фрагмент конкорданса НКРЯ в формате KWIC к слову экстракт показан на рисунке ниже:


N-грамма – в общем случае: последовательность из n идущих подряд словоформ. В AntConc: последовательность из n идущих подряд 13 LINK \l "token" 14токенов15. N-граммы при n=2 и n=3 принято называть биграммами и триграммами соответственно.

TEI (Text Encoding Initiative) – один из стандартов разметки, применяемый при разработке корпусов. См. описание здесь: http://www.tei-c.org/.
2. Интерфейс AntConc

AntConc имеет одноязычный (англоязычный) интерфейс. В верхней части окна программы находится главное меню (рис. 3, зона 1); слева находится зона загруженного корпуса (рис. 3, зона 2), где будут видны имена обрабатываемых файлов, здесь же находится счетчик числа файлов корпуса (Total No.); в правой части находится зона инструментов (рис. 3, зона 3), которая меняется в зависимости от выбора одной из вкладок 7 инструментов (Concordance, Comcordance Plot, File View, Clusters, Collocates, Word List, Keyword List).
3. Назначение инструментов AntConc
Помимо инструмента просмотра файлов File View, корпус-менеджер AntConc включает инструменты обработки содержимого файлов: Concordance (Конкорданс), Concordance Plot (Диаграмма по конкордансу), Clusters (Кластеры), Collocates (Коллокации), Word List (Частотный словарь), Keyword List (Ключевые слова).
Вкладки инструментов находятся в правой верхней части окна программы.
Инструменты обработки содержимого файлов позволяют:
1.1) получить KWIC-конкорданс (инструмент Concordance),
1.2) визуализировать входы элементов конкорданса в текст (инструмент Concordance Plot);
2) произвести элементарное реферирование текста, а именно – сгенерировать набор ключевых слов текста или, при задании списка лемм, – ключевых лемм текста (инструмент Keyword List); обязательно подключение референтного корпуса, допускается подключение списка стоп-слов, доступны две функции расчета веса: Log-Likelihood и Chi-squared);
3) получить основные статистики обрабатываемых текстов:
3.1) частотный, алфавитно-частотный, обратный словари для следующих элементов: всех слов / лемм текста, слов-предпочтений, слов текста за исключением стоп-слов (инструмент Word List);
3.2) списки коллокатов к опорному элементу, заданному набором токенов или шаблоном (инструмент Collocates; доступны две функции расчета критерия связности: MI-score, TI-score);
3.3) кластер с таким опорным элементом (инструмент Clusters);
3.4) списки n-грамм (инструмент Clusters).
Существенно интенсифицирует работу с инструментами Concordance, Word List, Clusters, Collocates возможность чтения из файла списка поисковых токенов и / или шаблонов (доступно по кнопке Advanced).

4. Приемы работы с AntConc
4.1. Загрузка / отключение файлов, сохранение результатов
Загрузить файл: File-Open File(s)
Загрузить файлы из каталога: File-Open Dir
Типы загружаемых файлов задаются в меню Global Settings-File Settings:

Закрыть файл под курсором: File-Close File
Закрыть все файлы: File-Close Files
Сохранить результаты: File-Save Output to text file.
Форматы выходных / выходных файлов: ant, htm, html, txt, xml.
4.2. Определение кодировки входного файла и настройка кодировки в AntConc
Сначала необходимо узнать, какая кодировка у обрабатываемого файла. Для этого, например, открыть файл в AkelPad и посмотреть на строку состояния:

Как вариант: открыть файл в Блокноте, выбрать опции Файл-Сохранить как (при этом под полем имени файла будет находится поле, где указана кодировка этого файла):


Далее необходимо задать кодировку в настройках AntConc/
Для текста в кодировке UTF-8: Global Settings( EDIT(Language encoding-Standart Encodings-Unicode (utf8)( APPLY:


Для текста в кодировке CP-1251 (если Вы сохраняли текст в Блокноте с настройками по умолчанию, то, скорее всего, имеете дело именно с такой кодировкой): Global Settings( EDIT-Language encoding-cp Encodings (WIN)- Cyrillics “Win Cyrillic” (cp1251)-APPLY
Проверить правильность настройки: активизировать вкладку File View, кликнуть на требующем проверки файле.

4.3. Настройка токенов
Токен – последовательность символов из ранее определенного множества символов, соответствующая слову. По умолчанию токены определены множеством букв (Letter). При изменении умолчаний во множество токенов (символов) включаются отмеченные подмножества. Так, например, при снятом флаге Letter и установленном флаге Uppercase будут обрабатываться только буквы в верхнем регистре.
Для анализа русскоязычного текста во множество символов, определяющих токен, помимо букв необходимо включить и дефис; тогда словоформы кто-то, по-видимому, сине-зеленый, Иван-да-Марья будут идентифицированы корректно, как цельные единицы (а не распадутся на части в позиции дефиса). Рекомендуемые настройки токенов таковы:
установить в подмножестве Letter Token Classes флаг Letter,
установить в подмножестве Punctuation Token Classes флаг Dash.



Важно. Рекомендованные настройки токенов не универсальны: к примеру, такой набор не подходит для корректного разбора цифробуквенных записей (3-процентный, 12-й, <дом> 18-бис, Алгол60) и записей с апострофом (О'Генри, д'Артаньян, О'Брайен). Для разбора цифробуквенных записей необходимо установить в подмножестве Number Token Classes флаг Number. Для разбора записей с апострофом необходимо определить пользовательское множество классов (User Difined Token Classes).

4.4. Работа со схемами лемматизации
Образец содержимого файла лемматизации для слова play: play -> play, plays, playing, played
Для подключения файла лемматизации зайдите в настройки инструмента Word List (Tool Preferances> Word List), поставьте флаг на опции Use lemma list file, откройте файл со схемами лемматизации (Open), загрузите схемы (Load)).

Вид корректно прочтенного файла схем лемматизации (на примере для схем к словам Карлсон и Бимбо):

Для создания ЧС только для лемм заданных лемм необходимо загрузить схемы лемматизации и во множество слов предпочтения.

4.5. Определение маски поиска
Маска поиска задается следующим образом:
- буквенным набором,
- с использованием символов-джокеров,
- с использованием регулярных выражений (об этом см. в разделе справки по регулярным выражениям).
Значения символов-джокеров описаны в таблице ниже.
Символ-джокер
Значение

*
ноль и более символов

+
ноль или один символ

?
один символ

@
ноль или одно слово

#
одно слово

|
ИЛИ

Вывод вкладки с описанием символов-джокеров: Global Settings(Wildcard Settings:

Sic!
Символы-джокеры для слов при записи маски не должны разделяться пробелами.
Примеры.
Маска через# соответствует сочетанию вида через+одно слово
Маска через## соответствует сочетанию вида через+два слова
Знаки символов-джокеров можно переопределять.

Возможно чтение маски из txt-файла. Для подключения маски, сохраненной в файле: нажать на кнопку Advanced, в появившемся окне установить флаг Use search term(s) from list below, кликнуть по кнопке Load File и загрузить ранее созданный файл с маской.
!Sic! Кодировки файла с маской и обрабатываемого файла(файлов) должны совпадать.
В приведенном ниже примере по маске будут найдены контексты для сочетаний доброго ±слово утра, доброго ±слово вечера.

КОНТЕКСТНЫЕ СЛОВА и ГОРИЗОНТ– являются дополнительным условием на контекст по введенной маске поиска: контекстные слова должны присутствовать на указанном расстоянии влево/вправо от слов по маске.
!В контекстном горизонте НЕ ИСПОЛЬЗУЮТСЯ регулярные выражения и символы-джокеры. Контекст успешен, если ВСЕ контекстные слова встречаются на заданном горизонте.

5. Регулярные выражения в AntConc
Регулярные выражения (regular expressions)|регекспы компактная форма записи представления о коллекции строк (М.Лангартен).
Символьный класс может быть определен:
перечислением: [абвгдеёжз],
интервалом: [а-з].
Ниже приведена таблица сокращений для символьных классов.
Сокращение
Значение

.
любой символ (кроме перевода строки)
или символ точки (внутри символьного класса: [.])

\w
символ «слова» (0-9 тоже)

\d
цифра

\s
пробельный символ

\b
граница слова


Таким образом, \d – это более компактная нотация для описания набора цифр от 0 до 9, чем альтернативные нотации [0-9] и [0123456789].
Экранирование символов. Символ слеша (\) применяется для экранирования служебных символов.
Альтернатива: ввести экранируемый символ в квадратных скобках.
Для поиска точки: \. или [.]
Для поиска квадратной скобки: \[ или [[]
Для поиска знака +: \+ или [+]
Квантификаторы в регулярном выражении служат для того, чтобы определить, сколько раз повторяется выражение слева от квантификатора. Ниже приведена таблица значений квантификаторов.

Выражение
Значение

e{n}
n вхождений е

e{n,m}
от n до m вхождений е

e+
1 и более вхождений e
Синоним: e{1,}

е*
0 и более вхождений e
Синоним: e{0,}

e?
0 или 1 вхождение е
Синоним: e{0,1}












<13PAGE141215 из 13NUMPAGES141315>







Root Entry

Приложенные файлы

  • doc 79358
    Размер файла: 646 kB Загрузок: 0

Добавить комментарий