92  

Главное, чтобы алгоритмы были ясными и относящимися хотя бы каким-то боком к содержанию данных текстов.

Для такого анализа, пацаны, нам нужно определиться с пятью параметрами.

Во-первых, нужна четкая и короткая фиксация поисковой категории (принцип формализации), то есть — вразумительная формулировка вопроса, ответ на который мы ищем.

Мы должны четко представлять себе (а при компьютерной обработке материалов это должна представлять себе и поисковая система), что хотим узнать: дату вступления грузинских отрядов на территорию Абхазии, готовность ростовчан покупать в течение недели исключительно карамель «Ростов-Папа» или степень решительности нового генпрокурора засадить следующего проказливого богатея-губернатора, вдосталь попившего народной кровушки, в тюрягу.

Во-вторых, надо, чтобы материал содержал в себе достаточно информации для анализа (принцип статистической значимости).

При анкетировании тут все всегда в ажуре.

А вот у дипломатов с содержанием информации ситуация — тихий ужас.

Берешь пухлую распечатку двухчасового брифинга — и медленно, но верно сходишь с ума из-за отсутствия там не только нужной тебе информации, но и вообще каких-либо мало-мальски ценных сведений.

В-третьих, надо, чтобы анализ данных, требующих итоговое заключение специалиста, эти специалисты и проводили (принцип компетентности).

Например, нам для рекламы туристических путевок нужно составить по результатам анкетирования психопатологический портрет дурика-клиента, коему легче всего впарить путешествие по пыльным дорогам Афганистана или Ирака.

Так вот, должна делать все это не молоденькая туроператорша, а профессор-психиатр, знающий, куда надо вставлять клизму шизофреникам.

В-четвертых, надо определиться с точностью исследования (принцип погрешности).

Если нам надо вычислить дату Конца Света с точностью до миллиардной доли секунды, то придется задействовать в расчетах все вменяемое население земного шара. А исследования эти продолжаться как раз до самого этого Конца.

И кому тогда, пацаны, будут нужны их результаты?

А вот если мы введем в наш анализ погрешность в плюс-минус миллион лет, то любой гимназист-двоешник за пару минут рассчитает, что Конец Света наступит через 1146 лет 3 месяца и 2 дня. В пятницу. Прямо после показа 666-го по счету римейка неувядающего "Влада Дракулы".

В-пятых, после того, как материал проверен на вшивость, цели сформулированы, погрешности установлены, начальству налито кофе с коньяком, необходимо выбрать соответствующие единицы анализа.

Именно их мы будем считать, именно с их изменениями в разных текстах мы будем составлять диаграммы и графики, именно с ними будут связаны наши бессонные ночи и выкрики "Эврика!" с пахнущей мочой хронического оборотня койки психиатрической лечебницы.

В простейших же случаях, например в наших с вами, дорогие мои, рекламных делах, вообще — можно полностью отдать все компьютерным мозгам, а самим пить виски и танцевать твист в обществе жриц любви.

Тут, правда, необходимо установить единицу счета — количественную меру взаимосвязи текстовых и внетекстовых явлений.

Кроме уже упомянутых в случае с газом чисто подтекстуальных, основанных на нелинейной семантике единиц, есть еще целая куча гораздо более простых и совершенно линейных, рассчитанных на однозначное толкование единиц счета.

Наиболее употребительны единицы счета, связанные с количеством людей и денег, со временем и пространством (число покупателей, газетных строк или площадей в квадратных сантиметрах, читателей журнала, время и продолжительность вещания рекламного ролика и прочая херня).

Тут, пацаны, не так все просто.

Важен выбор необходимых источников, подвергаемых контент-анализу.

Конечно, самое простое — выкрасть нужную информацию из чужого сейфа.

Но столь пошлая вещь не для такой правильной братвы, коей мы с вами, орлы и орлицы, имеем честь являться.

Во-первых, зачастую нужной нам информации нет даже в хранилищах Гохрана.

А во-вторых, из открытых источников сведения получаешь гораздо быстрее, чем из закрытых (таков парадокс современного постиндустриального информационного общества).

При работе с открытыми источниками (периодическая печать, телек и все такое) возникает проблема выборки — на каком количестве сообщений остановится и с какой по какую дату их изучать.

  92  
×
×