какие факты текста нуждаются в проверке
Автоматизированный поиск фактов в тексте (метод «окон-фактов»)
Сегодня мы будем говорить о том, как автоматизировать процесс анализа методом «Окон-Фактов». Об этом методе, к сожалению, достаточно мало информации, однако он остается одним из ключевых методов обработки информационных потоков. Более детально об анализе текста можно почерпнуть, например, тут. В общих чертах задача метода «Окон-фактов» сводится к поиску в тексте неоспоримых фактов. Но уточним, что же именно стоит понимать под фактом.
В этой статье под фактом будет пониматься следующее — это суждение (предложение), в котором упоминается, какой либо субъект или именованный объект. Имея возможность извлекать подобные факты из многих текстов, мы получаем текст лишенный «воды» и содержащий одни лишь факты.
Факты и субъекты, в тексте
Разумеется, такой подход к трактовке термина «факт» в результате, в некоторых текстах, упускает достаточно много информации. Однако, данная проблема наблюдалась далеко не во всех текстах. В то же время информация, с которой работает аналитик (работающий с конечным программным анализатором информации), была проанализирована с довольно высокой точностью.
Немного четче сформулируем задачу, которая перед нами стоит: в имеющейся информации в виде текста найти слова, которые являются персоналиями или другими важными объектами ( например названия местности, места или что либо другое значимое в человеческом понимании этого слова). Далее осуществить поиск всех предложений, в которых эта персона встречается (такие предложения мы как уже говорили называем «Фактами»).
По какому признаку мы отличаем персоналию от обычного слова? Думаю, ответ на этот вопрос очень прост — по большой букве. Банально и сурово. Разумеется, такое обобщение имеет очень много проблем, без решения которых подобный метод может не работать. И именно о том, какие проблемы возникают у человека, который пытается реализовать нечто подобное, и как с ними бороться расскажем немного детальнее.
Проблемы поиска субъектов
С главным мы разобрались (для начала) — все, что начинается с большой буквы — будем именовать Субъектом или Объектом, о которых идет речь в тексте или о которых в тексте упоминается. Однако сразу же стоит вспомнить об некоторых условностях в каждом языке. К примеру, существуют символы, после которых следующее слово чаще всего начинается большой буквой. Для нашего русского такими символами могут служить точка, вопросительный знак, восклицательный знак и т.д. Таким образом, из поля зрения нашего подхода выпадают как минимум все те слова, которые стоят в начале предложения, так, как не известно, по какой причине в них большая буква. Такое ограничение, на первый взгляд, не может положительно сказаться на результате роботы. Однако, и как показала практика, негативного эффекта не наблюдается.
Итак, подведя промежуточные итоги: мы научились определять Субъекты информации по большой букве. Так как, не все слова, начинающиеся с большой буквы — Субъекты, то мы пришли к необходимости составить список правил — по которым мы анализируем исключения (когда слово хоть и начинается с большой буквы, но не будет считаться Субъектом).
Далее мы сталкиваемся с проблемой сортировки фактов по Субъектам. Так как один и тот же Субъект в разных фактах может упоминаться в измененной форме (разные склонения, падежи и т.д.). Для того что бы определить относятся ли два слова — Субъекта к одному и тому же Субъекту, мы сравниваем эти два слова на «похожесть» друг-другу. А так же экспериментальным путем установили порог «похожести» слов, при котором слова считаем идентичными.
Подобная трактовка поиска персоналий в тексте позволяет в автоматическом режиме выполнять задачу одинаково эффективно, без cущественных затрат на лингвистический анализатор текста, практически для любого языка. То есть алгоритм показывает одинаково хорошие результаты как на Английском, Украинском так и Русском языках.
Напомню, что мы условились вычленять персоналии по большой букве. Так же условимся что у нас есть множество А, в котором перечислены все символы после которых ставится большая буква (это сделано для того, что бы мы не спутали персоналию с обычным словом). А значит что если слово начинается с большой буквы и последний не пустой символ перед ним не содержится в множестве А — это слово будет считаться персоналией, а предложение, в котором содержится это слово — фактом о данной персоне.
Автоматизация процесса
Выстроенные цепочки связей между персонами через факты могут быть измерены по длине.
MadWin
Пример работы программы
Входной текст
Входящий файл, в котором рассказана история о Николь Кидман (взято из прессы): txt( текст взят тут).
Небольшая цитата из текста:
Во дворе, за высокой оградой, есть большой бассейн и роскошный сад. Дом находится в хорошо охраняемом и столь же надежно защищенном от всяческих посторонних квартале, что и сыграло решающую роль для супругов при выборе жилья: родители хотят, чтобы их дочурка росла в максимально спокойной атмосфере.
За все эти удобства звёздная чета заплатила около пяти миллионов долларов. Параллельно Николь подыскивает жилище в Лондоне, куда ей в скором времени предстоит отправиться для участия в постановке мюзикла «Девять».
Выходной файл-отчет
Как видим факт из приведенного выше текста вошел.
Далее приведена в отчете таблица связей персоналий. Каждой персоне дан свой номер и на пересечении двух номеров стоит либо «+», который обозначает что между данными персонами можно построить связь через факты, либо минус, который свидетельствует в обратном.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1: Девять, Лондоне — — + + + + — — + + + + + + 2: E-motion — — — — — — — — — — — — — — 3: Хиллз, Беверли, Китом + — — + + + — — + + + + + + 4: Холмс, Кэти + — + — + + — — + + + + + + 5: Круз + — + + — + — — + + + + + + 6: Теннесси, Нашвилле + — + + + — — — + + + + + + 7: Макконахи, Мэтью, Агилера, Кристина, Энтони, Марк, Лопес, Дженнифер, Питт, Брэд, Джоли — — — — — — — — — — — — — — 8: Herald, Morning, Sydney — — — — — — — — — — — — — — 9: StarLife + — + + + + — — — + + + + + 10: Роуз, Сандей + — + + + + — — + — + + + + 11: Урбан + — + + + + — — + + — + + + 12: Кейт + — + + + + — — + + + — + + 13: Кидман + — + + + + — — + + + + — + 14: Николь + — + + + + — — + + + + + —
И завершает таблицу «пути» соединяющие все персоналии между которыми существует связь.
14. Приемы проверки фактического материала редактором.
Методика редактирования фактического материала зависит от того, что представляет собой сам фактический материал (таблица, цифра, цитата и др.) Редакторский анализ идет в двух направлениях: 1) Редактор проверяет насколько точен был автор, строя фактическую основу публикации (что говорит автор); 2) Редактор анализирует способы подачи, разработки фактического материала.
Позиции, по которым оценивается редакторский материал:
1) Взвешенность отбора;
2) Точность передачи фактического материала;
3) Обоснованность последовательности подачи материала;
4) Строгость логических построений.
Задача редактора — проследить за тем, чтобы все приведенные факты были истинны и сформулированы четко и недвусмысленно. И тут очень важно вырабатывать в себе навыки контролирующего мышления, психологическую установку на возможную и даже неизбежную ошибку в тексте, которую редактор не должен пропустить. Первое золотое правило редактирования: «Не знаешь — не пиши: можешь оказаться в глупом положении». Это относится прежде всего к автору, но и к редактору тоже.
Чтобы не пропустить возможную ошибку или неточность, все приведенные в тексте сведения полезно оценить с точки зрения того, что из изложенного известно самому редактору. Есть факты, абсолютно точно ему известные, они в проверке не нуждаются. А есть и такие, что либо вызывают сомнение, потому что редактор не уверен в собственных знаниях, либо вообще неизвестны. Последние две группы фактов и должны быть проверены.
Но прежде чем приступать к проверке, полезно оценить, какое место в смысловой структуре текста занимает сомнительный факт. Если он малозначащий, его, вероятно, можно просто опустить.
Конкретизация представления как метод проверки факта
Существуют профессиональные приемы, помогающие находить неточности и ошибки в тексте. Очень эффективен прием конкретизации представления. Он помогает убрать и очевидные нелепости, и незаметные на первый взгляд неточности, а также прояснить недостаточно четкие формулировки. Суть его в том, чтобы наглядно представить себе все возможные варианты действительности, которые допускаются изложением, и, если надо, найти факты, противоречащие тексту.
Факт и слово, его называющее. Уточнение понятия и высказывания
Очень часто фактические ошибки возникают от того, что автор, верно представляя себе описываемую ситуацию, неточно, приблизительно выбирает для ее обозначения слово, понятие из группы родственных, близких и связанных по смыслу. Он часто берет то, что первым возникает в памяти. «Например, когда автор утверждает, что археологические раскопки велись в античном греческом городе Танаисе, расположенном в устье Дона, он путает понятия «устье» и «низовье». А редактор не замечает этой неточности потому, что представляет себе город на берегу Азовского моря. Но если бы он вспомнил, что устье — это участок реки, где она впадает в море, то обязательно внес бы правку. В тексте о молодежных видах спорта сказано, что сноубордисты и роллеры показали мастерство в рампе (трек, по которому ездят на роликах и роликовых досках), а автор и редактор спутали слово «сноуборд» — доска для катания по снегу — со словом «скейтборд» — роликовая доска.
Такие нелепости, связанные с неточным называнием реалии при в целом правильном понимании текста, когда внимание редактора ослаблено и он не замечает неточности, — явление очень частое.
В практике редактирования принято выделять три основных метода проверки: внутритекстовую проверку — сличение повторяющихся и связанных по смыслу фактов в тексте, проверку по авторитетным источникам и официальное подтверждение, сделанное специалистами нужной области знаний. Суть в том, чтобы найти все повторяющиеся факты и сопоставить их между собой. Это удобно делать с помощью соответствующих помет на полях и специальных выписок, особенно если текст объемный. Причем проверять надо не только сам текст, но и все связанные с ним элементы: заголовки, подзаголовки, подписи к иллюстрациям и сами иллюстрации, примечания, библиографические сноски, ссылки и списки литературы.
Этот прием очень прост, но пренебрежение им приводит к тому, что, скажем, под фотографией телеведущей Арины Шараповой появляется подпись: Светлана Сорокина, в тексте про арест известного террориста сказано, что у него стеклянный правый глаз, а на фотографии видно, что искусственный глаз левый.
Кроме повторяющихся внутритекстовому сопоставлению подлежат и связанные по смыслу факты, причем часто тоже не только в тексте, но и в выпуске в целом. Так, одна из центральных газет в четверг сообщает, что фильм «Кубанские казаки» будет показан сегодня на ОРТ, в другом месте текста указано, что это будет в пятницу. Обнаруживая подобные несоответствия, редактор далеко не всегда знает, какой вариант правильный. Но он использует их как подсказку, какие сведения в первую очередь надо проверить по справочникам и другим источникам информации. Так, если в подзаголовке сообщается: К 185-летию Павла Ершова, а в тексте читаем, что речь шла о сказке Петра Ершова «Конек-горбунок» лучше, не полагаясь на память, посмотреть в любой энциклопедии, как звали писателя, и тем самым перейти к следующему методу проверки фактов — проверке по авторитетным источникам.
Проверка фактов по авторитетным источникам информации
Проверке по авторитетным источникам — общим и отраслевым энциклопедиям и энциклопедическим словарям, справочникам и другой литературе нужного профиля — подлежат все факты, которых сам редактор не знает или в истинности которых не уверен. Особое внимание следует обратить на даты, имена и инициалы, географические, астрономические, административные и прочие названия. Особого внимания требуют, казалось бы, вещи общеизвестные.
Данные справочников об одних и тех же фактах могут различаться. Если пособия не устарели, у редактора нет основания им не верить. Что же делать? О разночтениях в специальной литературе можно сообщить читателям. Если же об одном и том же текущем событии в разных источниках информации сообщаются разные сведения, что отнюдь не редкость, то целесообразно уточнить у автора, каким образом он получал информацию: сам был свидетелем или участником события или же пишет с чьих-то слов.
Если же и проверка по источникам не даст нужных результатов, прибегают к официальному подтверждению уважаемым, известным специалистом в той области знания, к которой относится проверяемый текст.
Гайд: как оценить качество текста
Для пиарщиков, контент-менеджеров и тех, кто взаимодействует с авторами и должен следить за качеством их работы. Авторам также может пригодиться.
С помощью этого руководства вы сможете поэтапно и с разных сторон оценить, насколько хорош тот или иной материал (статья, колонка, исследование, пост в блог), а по итогам проверки — внести комментарии для авторов или поправить текст своими силами.
Проверяем на актуальность — читаем заголовок и лид, визуально сканируем текст (о чем он?). Тема должна соответствовать площадке, где вы хотели бы опубликовать материал, быть актуальна для ее аудитории. Соответствует — продолжаем проверку. Нет — решаем вопрос о смене площадки и/или изменении темы текста.
Проверяем, что уже выходило по этой теме на площадке. Материал не должен дублировать уже опубликованные. Если с этим все в порядке, переходим к следующему пункту. Нет — выбираем, что делать: расширять тему, углублять ее, заменять на другую.
Проверяем на уникальность. Для текстов, которые не содержат объемных цитат, мы ориентируемся на уникальность не ниже 95%. Оценить можно с помощью специализированных сервисов.
Если текст прошел грубую проверку, переходим к более тщательной.
1. Заголовок отражает написанное. Все просто — о чем текст, о том и заг. Так вы убедитесь, что читатель получит то, на что рассчитывал.
2. Лид отражает тему текста, не уводит читателя в сторону. В лиде можно конкретизировать проблему, коротко отметить интересные моменты, подробнее рассказать о спикере, но принцип остается один — лид привязан к теме и служит продолжением заголовка.
3. В тексте есть подзаголовки. Если это не сверхкороткий справочный материал, крайне желательно, чтобы он имел зримую структуру. За это отвечает дробление на смысловые блоки — подразделы. Если дробления на подразделы нет, придется его организовать. Главный принцип организации — в следующем пункте.
4. Сканируя подзаголовки, вы видите «логику повествования». Текст может быть выстроен по-разному: как хронология событий; «горизонтальный» взгляд на проблему (вопрос рассматривается широко, с нескольких сторон, даются разные мнения об одной и той же теме); «вертикальное» погружение — от общего к частному, от простого к сложному и т.д.
Вне зависимости от выбранного подхода, вам уже на этапе сканирования должно быть понятно, почему за разделом А следует раздел Б, какая просматривается между ними связь. Если подзаголовки выбраны творчески и не «говорят сами за себя», логика построения текста должна быть понятна при беглом просмотре первых абзацев каждого подраздела.
Если на этом шаге есть проблемы, пути решения (добавлять/убирать подразделы, менять структуру) будут понятны по итогам чтения.
1. Содержание подразделов соответствует заявленному в подзаголовках. Проходимся по каждому подразделу. Раскрыт ли вопрос/подтема, заявленная в подзаге? И если нет, то почему?
Иногда проще видоизменить подзаголовок (в этом случае важно перепроверить, насколько новый вариант впишется в существующую структуру «заголовок-подзаголовки»). А в некоторых случаях при вдумчивом чтении становится очевидно, что текст в подразделе придется дописать или изменить. Иначе текст развалится.
На этом шаге у редактора/контент-менеджера должно сформироваться полное представление о тексте: теперь он может окончательно определить, во-первых, насколько логично и непротиворечиво выстроена структура, и что нужно делать с ней (это к вопросам из пункта I-4). А во-вторых, насколько качественно проработан каждый элемент этой структуры — каждый подраздел.
В результате становится ясно, сколько правок будет в тексте. Однако это еще не все. Даже если серьезных изменений не предвидится, нужно разобраться с нюансами и тонкосятми.
1. Все термины и понятия употреблены/переведены корректно. Если в тексте есть специфическая терминология, очень важно разобраться с ней и лишний (нелишний!) раз перепроверить автора.
Красный флажок: длинные, перегруженные терминами предложения и сложные, путаные объяснения. Если автор — не эксперт в предметной области, высока вероятность, что он сам что-то недопонял, и, как следствие, не смог объяснить читателю.
Эксперту некоторая сумбурность мысли может быть простительна, особенно если он не профессиональный писатель, но в этом случае можно либо пояснить непонятное врезкой, либо задать дополнительные уточняющие вопросы спикеру и расширить материал.
2. Приведены пруфы на статистику/мнения/высказывания. Тут проще — в тексте указано исследование? Значит, должна быть ссылка. Аналогично со статистикой, мнениями экспертов и другими внешними источниками. Более того, желательно не только убедиться, что ссылка есть, но и проверить ее содержание — об этом ниже.
3. Источники актуальны и авторитетны. Если в статье о текущей экономической ситуации приводятся прогнозы начала 2010-х (и речь не об экскурсе в историю, и не о том, как думали тогда и теперь), дело плохо. Если в материале заявлено экспертное мнение, нелишним будет убедиться, что этот человек действительно авторитет в предметной области.
Если дается ссылка на объемное исследование, хорошим тоном будет указать, где именно в теле первоисточника содержится пруф (указание на главу, а лучше на конкретную страницу) — это важно не только для редактора, но и для читателей, которые могут захотеть узнать о вопросе больше. Мы советуем также обращать внимание на ссылки на материалы, закрытые пейволлом — ситуация бывают разные, но мы не рекомендуем ссылаться на источник, который невозможно изучить, не купив подписку.
4. Приведенные данные и статистика корректны. Цифры — то, что легче всего проверить, и этим лучше не пренебрегать. Обратите внимание на размерность — миллионы или миллиарды, гига- или терабайты, милли- или микрограммы — все ли соответствует действительности и информации из источников.
5. Имена и названия написаны корректно. Нелишним будет перепроверить все имена собственные — обязательно учитывайте, «как это будет по-русски». Кристофер Коламбус или Христофор Колумб? И все в таком роде.
Еще один небольшой совет — если речь идет об узком, неизвестном широкой публике специалисте, обязательно погуглите его/ее, поищите фотографии и дополнительную информацию, которая сможет точно указать на пол человека. После публикации автору и редакции бывает очень неприятно узнать, что, к примеру, «Алекс» — на самом деле женщина (не говоря уже о более экзотических именах).
6. Нет переведенных кусков из англоязычных источников. Копипасту с русскоязычных источников вы могли поймать уже на этапе грубой проверки. С англоязычными все сложнее — ее отловить можно только в процессе сверки со ссылками. Если вы видите, что большой кусок англоязычного текста приведен в материале «как есть», не закавычен и не оформлен как цитата — минус автору.
В лучшем случае это означает, что автор не переработал информацию и при этом поленился грамотно оформить включение отрывка чужого текста в свой материал. В худшем случае на этом этапе может вскрыться правда о том, что весь текст — это Франкенштейн, составленный из кусков чужих работ.
Несмотря на то, что речь о стилистике, практически за всеми пунктами из этого раздела прячутся более серьезные проблемы.
1. Отсутствуют слишком сложные и длинные формулировки. Очень часто и то, и другое — следствие того, что автор «плавает» в теме. Формулировки «с подвыподвертом» и унылый чиновничий язык всегда можно преобразовать в живой рассказ — если писатель сам понимает, «что он хотел этим сказать». Если нет — материал идет на доработку, а автор отправляется учить матчасть.
2. В тексте нет «спасибо, Кэп». Обращайте внимание на начало текста, а также на начало подразделов — капитан Очевидность часто прячется там. Причина обычно в том, что автор хочет «раскачаться» и неспешно стартует издалека — с того, что и так всем хорошо известно и в повторении не нуждается.
Где еще может скрываться Кэп? В блоках текста, где присутствует краткий пересказ ситуации или исследования. Иногда автор в желании объяснить что-то «по-быстрому», начинает срезать углы — в итоге рассказ превращается в перечисление очевидных вещей, потому что все интересные подробности и детали из него убрали.
И еще один момент. Обязательно думайте о том, кто ваша аудитория — от этого напрямую зависит уровень «очевидности» текста.
Специализированные площадки или каналы (для айтишников, медиков, пиарщиков и так далее) — не то место, где стоит объяснять людям азы их работы или смысл профессиональных терминов, при том, что неподготовленному читателю материал может показаться увлекательным, а пояснения — уместными. Казалось бы, банальная вещь, но автору, который привык писать для одной аудитории иногда бывает очень тяжело перескочить на другие рельсы (и привет, Кэп).
3. Оценочные суждения отсутствуют или подкреплены фактами и кейсами. Тут все довольно просто — никаких оценок из воздуха. Даже если автору очень хочется, даже если это просто вступительное слово или последний абзац. Исключение — если материал готовится со слов экспертов или представителей какой-либо компании. Но в этом случае важно убедиться, что оценочные суждения точно отражают позицию спикера/специалистов.
4. Нет «рекламных» оборотов. Никому не нравятся приторные похвалы и слоганы. Читатель видел много качественного контента и легко распознает джинсу. Осторожнее с этим.
1. В тексте нет навязчивых повторов. Иногда без какого-то термина или оборота бывает не обойтись. Но чаще всего повторяются простые слова и связки — «это», «который», «позволяет» и так далее. Мы советуем отлавливать повторы не только в пределах предложения, но и в рамках абзаца, сравнивать формулировки в подзаголовках. И не увлекаться заменами в стиле плохой журналистики —«труженики полей», «огнеборцы», «автоледи» и прочие тухлые эвфемизмы — не выход из ситуации.
2. Оформление соответствует площадке. Избавление от повторов — универсальный способ повысить качество текста. Теперь к более специфическим моментам. Перепроверьте то, как выглядят тексты на целевой площадке, и убедитесь, что ваш соответствует ее требованиям и в части «косметики». Заголовок лучше длинный или компактный? Подводка на одно предложение или на абзац? Точка в конце лида ставится или нет? Ритейл или ретейл?
3. Оформление по всему тексту консистентно. Это значит — везде одинаковые тире и кавычки, в тексте нет нескольких вариантов написания одного и того же имени или названия, и уж либо «Эпл» и «Гугл», либо Apple и Google. И тому подобное.
Разумеется, полезные сервисы можно использовать на любом этапе работы с текстом, но мы рекомендуем делать это (в том числе) в конце вычитки. К этому моменту текст может измениться — и вам важно будет оценить его финальную версию.
1. Главред. Помогает обратить внимание на штампы, «рекламные» заходы и канцелярит. Советуем не полагаться на один лишь Главред и предварительно оценить подачу материала (раздел IV) самостоятельно. На финальном этапе Главред укажет на мелочи, которые вы могли пропустить. Кстати, похожим функционалом обладает и Тургенев (он, кроме прочего, оценивает текст с точки зрения поисковых машин) — попробуйте тот и другой.
2. Орфограммка и Орфограф. Средства дополнительной проверки текста на грамотность и стилистические ошибки. Позволяют отловить все, что пропустил уставший глаз редактора.
3. Типограф. Нужен, чтобы поставить в тексте кавычки, поменять дефисы на тире, поставить неразрывные пробелы — в общем, навести красоту автоматически там, где вы забыли это сделать.