Лекція 5 контент-аналіз


Лекція №5. Контент-аналіз у політичній аналітиці.
Поняття про контент-аналіз. Завдання, форми, типи контент-аналізу. Переваги і недоліки методу.
Історія становлення методу.
Класичні методики контент-аналізу і особливості їх застосування.
Комп’ютеризований контент-аналіз.
Література
Буда Т.Й. Соціологія (навчально-методичний комплекс з вивчення курсу). – Тернопіль, 2004. – 32 с.
Робоча програма з дисципліни «Методологія політичних досліджень». Запорізький національний університет. Укладач Горло Н.В. – Запоріжжя. – 2009. – 33с.
Тихомирова Є. Основи соціології: Підручник. – Рівне: Перспектива, 2006. – С. 71-73.
Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. – Рівне.: «Перспектива», 2006. – 203 с.
Поняття про контент-аналіз. Завдання, форми, типи контент-аналізу. Переваги і недоліки методу.
Контент-аналіз - це переведення у кількісні показники масової текстової інформації з наступним її статистичним опрацюванням. Він застосовується у тих випадках, коли виникає потреба в опрацюванні великих масивів документальних джерел, недосяжних для інтуїтивного аналізу. Суть методу полягає у переведенні у кількісні показники текстової інформації через пошук у текстах певних ознак, рис, властивостей. До кінця ХХ ст. контент-аналіз як методика дослідження документальних комунікацій не лише вийшов з наукових келій, редакцій журналів і газет, а й став одним із агальнодоступних базових аналітичних інструментів, який завдяки комп’ютерній техніці та Інтернету нині потужно прогресує.
Б.Берельсон сформулював сімнадцять цілей, які можуть бути досягнуті з допомогою контент-аналізу. Серед них:
опис тенденцій при зміні змісту комунікативних процесів;
опис розходжень у змісті комунікативних процесів для різних країн;
порівняння різних ЗМІ;
виявлення використовуваних пропагандистських прийомів;
визначення намірів і інших характеристик учасників комунікації;
визначення психологічного стану індивідів і/або груп;
виявлення настанов, інтересів і цінностей (ширше – систем переконань і "моделей світу") різних груп населення і суспільних інститутів;
виявлення фокусів уваги індивідів, груп і соціальних інститутів.
Дещо пізніше О.Ольсті виділяє сім запитань, на які намагається відповісти кількісний контент-аналіз:
опис тенденцій (на основі змісту тексту);
виявлення взаємозв’язків між характеристиками і повідомленням тексту;
оцінка відповідності стандартам комунікацій;
аналіз методів переконань (пропаганди);
аналіз стилю;
виявлення взаємозв’язків між відомими характеристиками аудиторії і повідомленнями, підготовленими для неї;
опис зразків (шаблонів) комунікації.
К. Нойєндорф указує на чотири головні ролі контент-аналізу, до яких належить описова, формування висновків, психометрична, прогностична.
Контент-аналіз проводиться, наприклад, для з'ясування, наскільки медіа-описи подій, об’єктів і явищ відповідають реальному життю. Л. Нейман наводить приклад дослідження, у якому вивчалася частота негативного зображення літніх людей у телевізійних виставах. Результатом концептуалізації став перелік стереотипних характеристик або негативних уявлень про літніх людей: фізична безпомічність, забудькуватість, дивакуватість, глухота, уповільненість дій, нездатність доглядати за собою, неактивність, консервативність. Хоча серед осіб віком понад 65 років лише 5% потребують догляду, у телепередачах 50% з них зображаються нездатними доглядати за собою, що свідчить про наявність негативної стереотипізації.
Основна претензія до контент-аналізу стосувалася того, що він досліджує явно виражені параметри в тексті, а це істотно звужує пізнавальні можливості методу і фактично зводить його до опису.
Наступне, що закидають контент-аналізу, – це втрата контексту і, як наслідок, принципова неможливість кількісно виміряти роль комунікації в ньому. Статистичний аналіз отриманих частотних таблиць ще більше спрощує ситуацію і віддаляє від реальності. Іншими словами, мова розуміється спрощено: вона уподібнюється словнику, у якому представлені лише слова, ізольовані від контексту. Витягнуті з цілого і проаналізовані окремо, елементи тексту не дають повноцінної картини.
Третій аргумент висувається проти положення, згідно якого частота появи понять фіксує певний феномен, ступінь його важливості. Хоча, як правило, вагомі елементи або зразки зустрічаються частіше, проте частота категорії та важливість теми для автора не завжди пов'язані лінійно. Наприклад, при розгляді болючої теми лише її одноразове згадування може дати більше для роздумів, ніж згадування шістнадцять разів порівняно з п'ятнадцятьма.
Але головною силою контент-аналізу є його здатність аналізувати масштабні дані задля вивчення змін, які мають місце в них, і специфіки домінант дискурсу Уже за своїм змістом не всі види контент-аналізу є об’єктивними, і суб’єктивність з'являється як у процесі кодування та здійснення вибірки, так і читання текстів. Запровадження жорстких правил проведення аналізу може зменшити до певної міри недоліки контент-аналізу.

Історія становлення методу.
Західні дослідники виділяють три стадії розвитку контент-аналізу: газетний, класичний і сучасний. Аналоги контент-аналізу можна знайти в анналах історії. Історія наукового пізнання комунікацій почалася ще в Древній Греції та Древньому Римі. Однією з перших спроб «моделювання комунікативних процесів» можна вважати опис Арістотелем у його «Риториці» структури публічного виступу. Інший видатний представник античності, Цицерон у своїх роботах з риторики особливу увагу приділяв урахуванню психології, інтересів і смаків публіки.
У Середньовіччя християнська церква не забула уроків античного красномовства, і в програму підготовки служителів церкви було включено риторику, граматику і діалектику. Середньовічні схоласти відродили древньогрецьку герменевтику – науку про розуміння і тлумачення текстів.
На думку Б. Юськова, ще одним попередником контент-аналізу можна вважати систему бального оцінювання в школах, яка дозволяла чисельно оцінити рівень знань учнів. В єзуїтських школах XVI-XVII ст. учні розподілялися за розрядами, позначеними цифрами. Підвищуючи свій розряд, учень здобував цілий ряд привілеїв.
Першим задокументованим випадком контент-аналізу був проведений у Швеції в 1640 р. аналіз змісту апокрифічного видання 90 церковних гімнів «Пісні Сіону». Їхнє розповсюдження пов'язувалося з поширеними тенденціями недоброзичливого ставлення населення до офіційного лютеранства. Гімни пройшли державну цензуру і набули популярності, однак були звинувачені у невідповідності релігійним канонам. Наявність або відсутність такої відповідності визначалися шляхом підрахунку в текстах гімнів релігійних символів і порівняння їх з іншими релігійними текстами, зокрема гімнами офіційної церкви. Ураховувалася також і якість подачі символів – позитивна, негативна, нейтральна, складність стилю і контекст, у якому з'являлися ідеї.
Безпосередньо контент-аналіз зародився з потреб масових комунікацій і розпочався як кількісно-орієнтований метод аналізу преси. Наприкінці ХІХ ст. – початку ХХ ст. у США з'явилися перші контент-аналітичні дослідження текстів газет. Розроблені аналітичні методи, які вийшли з американської школи журналістики, отримали назву кількісного газетного аналізу в період з 1881 по 1893 рр.
Праці американських науковців знайшли продовження в Європі. Уже в 1910 р. на першому засіданні Німецького Соціологічного товариства Макс Вебер закликав використовувати контент-аналіз для оцінки охоплення пресою політичних акцій в Німеччині та вивчення громадської думки.
В умовах Першої світової війни контент-аналіз був єдиною можливістю вивчати в широких масштабах пропаганду противника, моральний дух населення його країни, події, що відбуваються в ній, оскільки масова інформація була доступною і за межами цієї країни, особливо з розвитком радіо.
Контент-аналіз як науковий метод, розроблений в США в 1920-1930 рр., уже мав принципово інші основу. Поступово сформувалося підґрунтя, на базі якого починають розвиватися теоретичні засади класичного контент-аналізу.
Фундатором школи класичного контент-аналізу вважають американського дослідника засобів масових комунікацій Гарольда Лассуелла, який у 1920–1930-і рр. не лише використовував методику кількісного аналізу для вивчення змісту воєнних і політичних пропагандистських матеріалів, але і дав йому теоретичне обґрунтування.
Основну мету вивчення текстів пропаганди Г. Лассуелл сформулював так: визначити, що пропагандист ставить у центрі уваги для досягнення очікуваного ефекту в аудиторії. Лассуеллівська школа контент-аналізу базується на ідеях про знаки-стимули і відповіді-реакції на них. Систематичне дослідження – підрахунок і аналіз – знаків-стимулів, репрезентованих у тексті словом, судженням або фрагментом, складає сутність даного методу.
У 1927 р. Г. Лассуелл видав свою знамениту книгу «Техніка пропаганди у світовій війні». Значний вклад у розвиток теоретичних основ контент-аналізу зробили і найближчі Співробітники Г. Лассуелла – Н. Лейтес, І. Пул, І. Яніс, Р. Фаднер, Д. Лернер. У рамках їхніх досліджень розроблялися методичні проблеми: вибір одиниці контексту при частотному підрахунку символів, способи перевірки результатів на обґрунтованість.
Історики контент-аналізу вважають першою роботою, де були застосовані методи кількісного аналізу змісту кіно, дослідження Е.Дейла. Піонерською була й робота Д. Джоунс з дослідження продукції Голлівуду напередодні 1940-х рр.
Під час Другої світової війни мав місце, мабуть, найзнаменитіший епізод в історії контент-аналізу – прогнозування британськими аналітиками початку використання Німеччиною проти Великобританії крилатих ракет «Фау-1» і балістичних снарядів «Фау-2». Прогноз був здійснений англійським дослідником А. Джорджем спільно з американськими фахівцями на основі аналізу внутрішніх пропагандистських кампаній у Німеччині. Підставою для висновків було різке збільшення оптимістичних виступів лідерів третього рейху щодо подальшого ходу війни, а також відомості з інших джерел, у тому числі огляди та прогнози.
У першій пол. ХХ ст., окрім чисто прагматичного використання контент-аналізу для військових потреб і пропаганди, дослідники починають усе більше уваги приділяти розвитку самої методики аналізу та виробленню нових підходів до розв’язання проблем. Показовим у Цьому плані є вихід у 1952 р. книги Б. Берельсона «Контент-аналіз у комунікаційних дослідженнях», яка ввібрала досвід 1920-1940 рр. і практично стала першим підручником з контент-аналізу.
Величезним поштовхом до розвитку контент-аналізу мали нові ідеї Г.Лассуелла. У 1948 р. в роботі “Структура і функції комунікації в суспільстві” він сформулював нову системоутворюючу конфігурацію масової комунікації, запропонувавши тепер класичне означення акта комунікації: "Хто – повідомляє що – яким каналом – кому – з яким ефектом".
Уряд США добре зрозумів серйозність використання ЗМІ. У 1960 рр. на його замовлення дослідження проводилися в найсильніших і найпрестижніших дослідницьких університетах і лабораторіях – Rand Corporation, Гарварда, Прінстона, Йеля, Стенфорда, у Массачусетському технологічному інституті, причому відкриті публікації стосувалися тільки дуже загальних та історичних проблем. З'явилася нова тенденція: дослідницькі центри намагаються залучити до контент-досліджень висококваліфікованих фахівців з інших наукових сфер – психолінгвістики, семіотики, соціології, політології, історії, обчислювальної техніки.
Практика зарубіжних пропагандистських досліджень насамперед зосереджувалася на вивченні матеріалів з Радянського Союзу. Так, у 1950 рр. західні аналітики на основі кількісного аналізу статей газети «Правда» відзначили різке зниження кількості посилань на Й. Сталіна. Звідси закономірний висновок: послідовники колишнього керівника держави намагаються дистанціюватися від нього.
Незабаром виявилося, що контент-аналіз є чудовим інструментом і для вивчення широкого кола проблем гуманітарних і соціальних наук. Відтак він знайшов ефективне застосування в дослідженнях етнокультурних, політичних явищ, історії думки. Контент-аналіз почав інтенсивно розвиватися в літературних і лінгвістичних розрахунках.
Науковці намагалися оцінити політичні платформи різних партій. Так, використовуючи комп’ютерні програми, Цві Нейменвірс проаналізував основні положення партійних платформ за період з 1844 по 1964 рр.
Одними з перших почали використовувати контент-аналіз теологічні науки. Перше комп'ютеризоване дослідження в гуманітарній галузі було проведене священиком Робертом Бузою для складання частотного словника робіт Томи Аквінського. Католицькі теологи створили самостійну школу комп'ютеризованого аналізу сакральної літератури з центром у французькому католицькому університеті м. Лувен. У 1968 р. при ньому було створено Центр електронної обробки документів CETEDOC.
Від середини 1950 рр. дослідники все більше приділяли увагу не лише простій наявності або відсутності категорій у тексті, а й зв'язкам між категоріями. Для цього, у першу чергу, ураховують спільне зустрічання ("concordances") слів різних категорій. Зауважимо, що інструментарій спільного зустрічання бере свій початок із середніх віків, коли середньовічні дослідники Біблії намагалися шукати паралелі між Старим і Новим Заповітом, відшукуючи місця, де слова з тексту Старого Заповіту присутні в Новому.
В 60-і роки зароджується комп’ютерний контент-аналіз, який узяв свій відлік з Гарварда, де в 1961 р. група науковців Гарвардського університету в США під керівництвом Ф. Стоуна розробила основні принципи машинного контент-аналізу. Його розвиток був настільки інтенсивним, що період 1960-1970 рр. стали називати "золотим віком" машинного контент-аналізу. Журнал Data Based Advisor на кінець 1980 рр. нарахував 28 різних програмних продуктів – «менеджерів текстів», які забезпечували широкий діапазон швидкості обробки тексту, індексації текстів і здатності виправляти його.
За підрахунками О. Ольсті, у перші два десятиліття ХХ ст. в середньому проводилося 2,5 контент-досліджень за рік. У 1920 рр. їхня кількість зросла до 13,3 , в 1930 рр. – до 22,8, у 1940 рр. – до 43,4 на рік, а в кінці 1950 рр. проводилося щорічно вже понад 100 контент-аналітичних досліджень. Г. Бернард і Г. Раян у середині 1997 р. підрахували, що є 500 книг, у тому числі 200, написаних до 1990 р., у заголовку яких містилися фрази «якісний аналіз даних» і «аналіз тексту», а також майже тисячу журнальних статей, присвячених аналізу якісних даних.

Класичні методики контент-аналізу і особливості їх застосування.
Класичний аналіз
В основі класичного аналізу лежить процедура сегментації змісту комунікації на окремі одиниці, прив’язка одиниць до деякої категорії і чисельне вимірювання кожної категорії. Іншими словами, мета класичного контент-аналізу: узяти вербальний (нечисловий) текст і перетворити його в кількісні дані. Під час цього первинний неопрацьований зміст перетворюється в деяку стандартизовану форму.
Процедура контент-аналізу розпочинається з виділення смислових одиниць аналізу, які потім відшуковують у текстах і переводять у кількісні показники. Смисловими одиницями можуть бути:
поняття;
судження, виражені у вигляді речень, абзаців, фрагментів текстів, тем статей, назв радіопередач, телешоу;
імена історичних осіб, політиків, назви країн, державних інститутів;
цілісна суспільна подія, офіційний документ, факт, випадок.
Наступним кроком у здійсненні контент-аналізу є виділення одиниць рахнку. Одиниці рахунку - це кількісна характеристика смислової одиниці аналізу, яка фіксує регулярність, з якою зустрічається у тексті смислова одиниця. Інколи смислові одиниці аналізу та одиниці рахунку є тотожними.
Підраховуючи, наприклад, частоту використання понять "опозиція", "багатопартійність", "права людини", "громадянське суспільство" можна зробити висновок, в якій мірі джерело інформації орієнтоване на демократію.
Ситуаційний аналіз
Методику ситуаційного аналізу можна наочно представити таким чином. На першому етапі формується тематична матриця, кожен рядок якої представляє окремі блоки (фрагменти) тексту, а колонки відповідають тематичним змінним або категоріям – словам і фразам тексту. Відтак, кожна клітина таблиці, яка лежить на перетині певного рядка і певної колонки, містить частоту появи відповідної категорії у відповідному блоці тексту.
На другому етапі обчислюється матриця, що оцінює зв’язки між темами: якщо деякі теми з'являються в текстових блоках разом, то вони позитивно пов'язані; якщо вони не зустрічаються в одних і тих же текстових блоках, то зв’язок між темами – негативний. Завершуючи процедуру ситуаційного аналізу, дослідник шукає пояснення зв’язків між темами. Узагальнюючи, можна сказати, що в особі ситуаційного аналізу маємо тематичний аналіз зв’язків у рамках класичного контент-аналізу.
Матриця даних контент-аналізу
Номер текстового
блоку Категорія аналізу (тема)
Тема 1 Тема 2 Тема 3 Тема n
1 14 5 - 4
2 - 2 - -
3 5 - - 2
4 2 - 6 9
5 - 5 2 -
Підрахунок частоти категорій дозволяє робити висновки лише щодо переважання категорій (тем) у тексті. Наприклад, якщо в процесі дослідження виявилося, що такі поняття, як «маніпуляції новинами» і «обурення населення» в багатьох текстових блоках зустрічаються разом, то це лише означає, що вони певним чином пов'язані між собою. На основі такого аналізу неможливо робити правдиві висновки про реальні причини і наслідки: маніпуляції новинами викликають обурення людей чи приховування обурення населення здійснюється шляхом маніпулювання новинами.
Для цього не вистачає інформації про семантичні зв’язки між категоріями. Подібного роду проблеми призвели до появи нових видів контент-аналізу: семантичного та мережного, які активно розвиваються від 1970 рр.
Семантичний аналіз дозволяє не лише виявляти зв’язки між такими елементарними категоріями, як слова і фрази, а виявляти і класифікувати зв’язки між іншими різними лінгвістичними одиницями (не обов’язково слово або фраза) на основі сконструйованих шаблонів (семантичних граматик). У семантичній граматиці категорії виступають як її синтаксичні компоненти, між якими будуються взаємовідносини. Наприклад, можна створити семантичну граматику поняття «обрaза», яка містить одну синтаксичну компоненту для об’єкта образи та іншу – для позначення дії, яка визначає, в який спосіб образили об’єкт.
Мережний аналіз використовується для дослідження змінних (категорій), між якими існують складні взаємозв’язки, насамперед причинно-наслідкового характеру. Він дозволяє не лише визначати місце змінних у мережі, але й дозволяє в певний спосіб виміряти цю взаємодію. Наведемо приклад. Нехай у мережі маємо три категорії А, В, С, які пов'язані між собою причинно-наслідковими зв’язками: A B, A C, C B, A C B.

Тоді зв’язок AB, у якому А є причиною, а В – наслідком, характеризується числом 0,5. Що означає: з усіх чотирьох зв’язків між елементами мережі половина припадає на зв’язок між A B. Зауважимо, що взаємодія зазначених категорій стосується лише окремого блоку тексту. Що стосується всього тексту, то причинно-наслідкові зв’язки в ньому можна подати, наприклад, у вигляді таблиці.
Матриця даних мережного аналізу тексту
Номер
блока
тексту
AB AС СB СА ВА
1 0,50 0,25 0,25 0,00 0,00
2 0,25 0,00 0,50 0,25 0,00
3 0,00 0,00 0,25 0,50 0,00
… … … … … …

Комп’ютеризований контент-аналіз.
Перші контент-дослідження з використанням технічних засобів у гуманітарній сфері пов'язані з роботами італійського священика Роберто Бузи, який ставив перед собою завдання з допомогою технічних засобів створити конкорданси повного зібрання листів Томи Аквінського. Дисертація Р. Бузи, захищена в 1946 р., присвячена вивченню поняття «присутність» у розумінні домініканського мислителя. У кінці 1940 рр. Буза поставив перед собою завдання створити «Index Thomisticus», який би містив повний конкорданс 10,6 млн. слів Томи Аквінського. Зрозуміло, що вирішення цього завдання без використання технічних пристроїв було неможливим.
Робота, розпочата з використанням перфораторів і сортувальних машин, була завершена через 33 роки на базі великих універсальних ЕОМ серії IBM. Разом з іншою інформацією, Індекс складався з майже 70 000 сторінок. За оцінками Бузи, на всю роботу використано понад 1 млн. людино/годин, головним чином для введення і перевірки даних. В 1992 р. отець Буза заснував школу лінгвістики і герменевтики на філософському факультеті Грегоріанського папського університету в Римі, останнє згадування про його знамениту роботу датується 2002 р., коли невтомному Р. Бузі виповнилося майже 90 років.
Під комп’ютеризованим контент-аналізом ми будемо розуміти аналіз текстових матеріалів, у якому всі кроки виявлення змістовних властивостей (характеристик) і визначення сукупностей концептуальних показників тексту здійснюються за допомогою алгоритмів, тобто явних логічних або статистичних операцій. На думку Б. Юськова, варто виділяти чотири покоління програмного забезпечення контент-аналізу.
Програми І покоління (1950 рр. – 1960 рр.) - це вузькоспеціалізовані програми для проведення окремих розрахунків або програми загального користування (текстові і табличні процесори, системи керування базами даних), призначені для проведення числових розрахунків, статистичного аналізу, побудови примітивних графіків з можливостями виконання окремих менеджерських функцій щодо тексту (зберігання, копіювання, формування індексів).
Програми першого покоління дозволяли зберігати і архівувати самі тексти, будувати і видруковувати прості індекси і конкорданси, підшуковувати цитати і виводити їх на друк. Перше покоління важко назвати програмами контент-аналізу, оскільки це лише використання різноманітних програм для цілей контент-аналізу.
Програми ІІ покоління (1966 р. – середина 1980 рр.) – це спеціалізовані програми кількісного аналізу, обмежені обробкою текстів, які не виходять за межі ручної технології. Основна увага в них концентрується на кодуванні, пошуку ключових слів і фраз, виведенні інформації у формі різноманітних індексів, конкордансів. Вони дозволяють здійснювати ручне, автоматизоване і автоматичне кодування з використанням словників, реалізують різноманітні стратегії пошуку, формування таблиць конкордансу, здійснюють аналіз колокацій, дають можливість роботи з електронними текстами.
Основна ціль конкордансів – спрямувати увагу на безпосереднє лінгвістичне середовище вибраного слова. Спочатку дослідник виявляє потенційно цікаве слово, далі знаходить відповідний йому конкорданс, що дає змогу визначити шаблони (патерни), характерні для даного слова і в яких даному слову відводиться цілком визначена роль.
Існує декілька форматів конкордансу. Один із способів демонстрації контексту зустрічання слів є формат KWOC (keyword-out-of-context – ключове слово поза контекстом) – перелік слів із вказанням місцезнаходження. У ньому ключове слово показується справа або зліва від контексту, а контекст подається у вигляді цілого речення, яке може займати декілька рядків. Більш поширеним є альтернативний формат KWIC (keyword-in-context – ключове слово в контексті), який займає лише один рядок із ключовим словом у центрі цього рядка (однакова кількість слів справа і зліва від ключового слова).
Разом з конкордансом здійснюють колокацію (collocate analysis) – статичний аналіз появи комбінацій слів. Завданням колокації є визначення слів, які зустрічаються біля заданого вузлового слова. Після вибору вузлового слова або групи вузлових слів, об’єднаних спільною ідеєю або спільним об’єктом, визначаються всі слова, які знаходяться зліва і справа від вузлових слів у межах заданої відстані. Зібраний у такий спосіб контекст утворює мінітекст. Далі проводиться аналіз частоти зустрічання слів у мінітекстах. Різниця між очікуваною частотою появи тих чи інших слів і реальною частотою зустрічання служить мірою «притягання» слів вузлом.
Появу другого покоління програм комп’ютеризованого контент-аналізу пов’язують з Гарвардським університетом (США), група науковців якого під керівництвом Ф. Стоуна в 1961 р. почала розробку принципів систематичного комп’ютеризованого контент-аналізу. Уже в 1966 р. була завершена перша версія програми The General Inquirer. Перевіряючи можливості програми, автори проекту повторили чимало своїх і чужих досліджень, використовуючи категорійний апарат попередніх ручних методик. Одне з оригінальних завдань, на якому тестувалася система, є дослідження 66 посмертних записок самогубців, з яких 33 – написані тими, хто справді здійснив самогубство, а решта – особами, що лише його симулювали. The General Inquirer в 91% випадків виявила записки справжніх самогубців.
У 1970 рр. було також розроблено методи і теоретичні пропозиції щодо формування текстових архівів і розпочато їх створення. До числа найстаріших і найвідоміших відноситься Оксфордський текстовий архів, який нині включає великі високоякісні, добре задокументовані колекції грецької, латинської та англійської літератури, які з 1976 р. доступні для зацікавлених осіб в Інтернеті. Зараз існує багато електронних текстових архівів з різноманітних джерел, різного призначення і на різних мовах. Нинішні повнотекстові бази даних включають не лише електронні копії оригіналів першоджерел (скановані тексти, рукописи, малюнки, аудіо-, відео-, теле-, фотозображення), а й незалежні від них засоби інтерпретації.
Сьогодні системи цього різновиду контент-аналізу переживають період ренесансу. Прикладом їх можуть бути програми The Words, TextSmart, DICTION. Програми цього покоління не вийшли за межі логіки ручної технології контент-аналізу і практично не змінили її. Вони були допоміжним інструментарієм, який просто полегшував виконувати рутинну роботу, яку аналітик робив і до їхньої появи. Але власне в цей період комп'ютеризований контент-аналіз почав застосовуватися в психології та психотерапії, а також отримав розповсюдження в Європі.
Програми ІІІ покоління (середина 1980 рр. – 1990 рр.) характеризуються надзвичайним розмаїттям, виходить за межі ручної технології і значно посилюють аналітичні можливості дослідника. Програма виступає своєрідним досвідченим експертом, реалізуються функції всіх етапів досліджень, збільшилося число виконуваних функцій структуризації даних, візуалізації результатів, формування та перевірки гіпотез, формування висновків і звітів,.
Перехід до програм третього покоління був пов’язаний з переходом у 1980 рр. від великих ЕОМ до персональних комп'ютерів, а потім – від операційної системи MS DOS до MS Windows з його графічним інтерфейсом і дружнім ставленням до користувача. Ці технічні і технологічні зміни створили можливості для забезпечення вільного діалогу людини з комп’ютером. Органічним доповненням був бурхливий розвиток Інтернету, широке розповсюдження електронних архівів-бібліотек, загальна доступність електронних текстів і можливість доступу до текстових архівів через Інтернет у режимі on-line.
Програми третього покоління мають засоби для формування текстів і створення на їхній основі цілих проектів; вивчення частоти і контексту використання слів; створення і підтримка категорій і схем класифікації; присвоєння однієї або більше категорій рядкам символів, словам, фразам, реченням, параграфам або цілим текстам; зберігання приміток («мемо») до текстів, кодування текстових сегментів; отримання різних форматів перегляду текстів, частин текстів або груп текстів; підтримка командної або спільної роботи в рамках проекту і злиття в один кількох проектів.
Такі можливості послужили основою створення цілого ряду програм для контент-аналізу в окремих сферах. До них можна віднести програми для дослідження медіа, наприклад, CARMA® (Computer Aided Research & Media Analysis), Precis™, Echo®Research, IMPACT™, Metrica, the Delahaye Medialink system. Окрім здійснення самого контент-аналізу, ці програми включають такі модулі, як убудовані медіабази даних, що забезпечують уведення, доступ і підрахунок відповідних статистичних даних, які стосуються різних параметрів медіа-засобів.
В різних країнах з’явився ряд науково-дослідних центрів, які спеціалізуються на комп’ютерному аналізі текстів. До таких можна віднести університетські наукові центри Centre for Computer Assisted Qualitative Data Analysis Software (м. Суррей, Великобританія), Centre for Social Anthropology and Computers (м. Кент, Великобританія), добре відомі центри ZUMA – Zentrum fur Umfragen Methoden und Analysen (м. Мангейм, Німеччина), Qualitative Solutions and Research (м. Ла Троуб, Австралія).
Програми IV покоління (від середини 1990 рр.) вийшли за межі обробки текстів, це масштабні системи зі складними математичними і лінгвістичними алгоритмами аналізу, для яких характерний розвинений графічний інтерфейс, доступ до різних джерел даних, функціонування в архітектурі клієнт-сервер.
Ці програми «вбудовують» його в інші технології. Прикладом технології цього покоління, що дістала застосування вже з середини 1990 рр., є технологія «видобування» даних або Text Mining (більш повна назва – Text Analysis and Knowledge Mining System). Text Mining – це алгоритмічне виявлення на основі статистичного і лінгвістичного аналізу, а також штучного інтелекту раніше невідомих зв'язків і кореляцій у вже існуючих неструктурованих текстових даних для проведення значеннєвого аналізу, забезпечення навігації і пошуку в неструктурованих текстах з кінцевою метою одержання нової цінної інформації – знань.
Text Mining здійснює такі види аналізу, як:
виявлення або видобування інформації (цей аналіз передує всій решті видів комп’ютерного аналізу неструктурованих текстів і служить основою для їхньої реалізації);
відслідковування категорій або тем (визначаючи і зберігаючи деякі параметри користувача, наприклад, якого виду документи він переглядав раніше, які теми і поняття присутні в документах, що цікавлять користувача, система знаходить схожі інформаційні матеріали і регулярно передає їх для нього);
резюмування або реферування документів (за рахунок вилучення неістотних деталей і скорочення довжини тексту виділяються головні моменти і загальний зміст);
класифікація або категоризація тексту (основна ідея аналізу є віднесення об'єктів з текстових масивів до заздалегідь визначених категорій, можливе групування документів у Intranet-мережах і на Web-сайтах, розміщення їх у визначених папках, сортування повідомлень електронної пошти, відслідковування і вибіркове поширення тематичної інформації користувачам тощо);
кластеризація або групування (виділення компактних підгруп об'єктів з близькими властивостями; даний вид аналізу дуже схожий до класифікації, однак тут немає наперед визначених категорій, вони формуються на основі самих даних, перевага кластеризації полягає в тому, що документ може одночасно стосуватися багатьох категорій);
знаходження винятків (пошук об'єктів, які своїми характеристиками сильно виділяються на тлі загальної маси);
пошук пов'язаних ознак, полів, понять окремих документів
візуалізація даних (візуалізація дозволяє представляти великі за обсягом документи у вигляді інтерактивних графічних зображень або мап, коли в результаті взаємодії з ними користувач має змогу переглядати їх з допомогою простих засобів пошуку).
За даними Центру технологічної політики і оцінювання (Technology Policy and Assessment Center – TPAC) Джорджіанського інституту технологій, станом на кінець 2000 р. в Інтернеті було представлено понад 70 інструментальних систем Text Mining.
Одним із найперспективніших напрямів узагальнення інформаційних потоків є контент-моніторинг. У найпростішому вигляді його ідею можна сформулювати як постійно здійснюваний в часі контент-аналіз неперервних інформаційних потоків.
У березні 2001 р. в ряді російських і українських інтернет-видань з'явилися повідомлення про використання Управлінням розвитку інформаційних технологій, яке є частиною директорату науки і технології ЦРУ США, Text Mining для роботи з відкритими джерелами інформації. Мова йшла про застосування розвідувальним відомством трьох комп’ютерних систем – Oasis, FLUENT, Text Data Mining.
Перша система пов’язана з медіа-моніторингом як систематичних, так і випадкових джерел, які охоплюють друковані видання, цифрові матеріали, графічні зображення, аудіоінформацію 35 мовами світу. Наприклад, під час роботи з аудіоінформацією система Oasis перетворює звукові матеріали в текст, розпізнаючи мову, чоловічі та жіночі голоси, голоси різних людей, і записує їх. Крім того, методика дозволяє виділяти з потоку лише ті голоси і ту інформацію, які закладені в настройках системи.
Комп'ютерна технологія FLUENT призначена для пошуку інформації в текстових документах. Маючи на вході ключові слова англійською мовою, система тут же перекладає їх на ряд інших мов, шукає інформацію в текстових базах даних з документами на різних мовах і повертає аналітику результати пошуку після автоматичного перекладу. FLUENT дозволяє перекладати англійською мовою з китайської, корейської, португальської, російської, сербсько-хорватської, української та інших мов.
Ще одна програма, Text Data Mining, дозволяє автоматично створювати візуальні образи текстових документів, а також отримувати дані про частоту використання тих або інших слів. Перелічені технології ЦРУ використовує для відслідковування незаконних фінансових операцій і наркотрафіку.

Приложенные файлы

  • docx 4551848
    Размер файла: 64 kB Загрузок: 0

Добавить комментарий