Что такое лингвистический веб ресурс

Что такое лингвистический веб ресурс

Лингвистические информационные ресурсы – одна из составляющих информационных ресурсов. Под информационным ресурсом понимают некоторый интеллектуальный ресурс, результат коллективного творчества.

К пассивным формам информационных ресурсов относят книги, журналы, газеты, словари, энциклопедии, патенты, базы и банки данных и т.п.

Активные формы включают алгоритмы, модели, программы, базы знаний.

Лингвистические ресурсы необходимы как пользователям ПК, так и различным компьютерным системам, связанным с обработкой текста речи: реферирования, аннотирования и перевода текстов, автоматического анализа текста, синтеза речи и текста.

Пассивные лингвистические информационные ресурсы включают:

Любой словарь может быть представлен в виде реляционной БД

а) частотно-алфавитный словарь словоформ какого-либо текста – простейшая лингвистическая БД;

б) словоуказатель – более сложная БД. В ней, кроме абсолютной частоты употребления словоформы в тексте, указываются номера страниц и строк на странице, где встретилась данная словоформа.

в) конкордансы – ещё более сложный тип БД. В них каждая словоформа текста характеризуется не только численными показателями (частотой, номером страницы, номером строки и т.д.), но и некоторым контекстом, в котором она употреблена. Как правило, этот контекст состоит из 3-х предложений: предложения, в котором встретилась словоформа, предложения, стоящего перед основным предложением, и предложения, стоящего после него.

г) энциклопедии – словари, содержащие характеристики не слова как такового, а обозначенного им предмета, факта или явления. Существует достаточно большое число различных энциклопедий на машинных носителях информации. Наиболее известна среди них энциклопедия «Britannica». Она включает 82000 статей и 700 дополнительных материалов, опубликованных с 1768 года. Не менее известны французские энциклопедии «Tons les savoire du Monde», «Le monde sur CD-ROM», «Versailles» и др. На русском языке издана «Большая Энциклопедия Кирилла и Мефодия».

2) Письменный текстовый массив (корпус текстов, т.е. совокупность текстов, являющаяся достаточной для обеспечения надежных научных выводов о некотором языке, диалекте или ином другом подмножестве языка).

— В лексикографии и лексикологии (для составления различных словарей, определения значений многозначных слов, выявления ассоциативных связей слов в тексте, выделения терминов и терминологических словосочетаний и т.п.).

— В грамматике (для определения частоты употребления грамматических морфем в текстах различного типа, выявления наиболее употребляемых типов словосочетаний и предложений, определения значений синонимичных морфологических единиц, частоты употребления классов слов и т.д.).

— В лингвистике текста (для дифференциации типов текста, создания конкордансов, выявления связи между предложениями в абзацах и между абзацами «т.д.).

— При автоматическом переводе текстов (для поиска контекстов слов, имеющих несколько переводных эквивалентов, поиска переводных эквивалентов терминологических и фразеологических словосочетаний в параллельных текстах и т.д.).

— В учебных целях (для выбора цитат, отдельных фрагментов произведений, примеров, используемых в процессе создания учебников и учебных пособий.

3) Фонетические лингвистические ресурсы В настоящее время общепринято, что для создания машиночитаемых фонетических корпусов используется транскрипция на основе орфографического представления звуков речи с дополнительными знаками, передающими (при необходимости) просодические, паралингвистические и другие особенности произношения.

а) Фонетические корпусы текстов широко используются для решения следующих задач:

— сопоставительного изучения устной и письменной форм языка;

— изучения грамматических и лексических особенностей устной речи;

— исследования фонетических особенностей диалектов;

— построения частотных списков фонем и их сочетаний;

— изучения акустических свойств речевых единиц и их использования в психолингвистических и лингвистических экспериментах;

— создания компьютерных систем, распознавания и синтеза устной речи.

Источник

Лингвистические ресурсы: характеристики, примеры и виды

Содержание:

В этом тексте посмотрим подробнее, что такое лингвистические ресурсы, а также некоторые их типы и примеры.

Что такое языковые ресурсы?

Язык можно определить как система связи, которую мы используем для обмена различными типами информации. Как система, она характеризуется набором взаимосвязанных элементов, имеющих конкретное применение.

В свою очередь, эти варианты использования различаются в зависимости от контекста, в котором они представлены, и в соответствии с коммуникативной целью: каждый элемент может использоваться тем или иным способом в соответствии с целью передаваемого сообщения.

Другими словами, чтобы речь что-то сообщала, необходимо использовать коды, предлагаемые коммуникативным контекстом. Это использование происходит с помощью доступных нам процедур или средств для удовлетворения потребности в общении.

Это означает, что, помимо помощи в передаче и обмене информацией, лингвистические ресурсы могут дать нам важные рекомендации для понимания социальной реальности. По той же причине они являются элементами, часто изучаемыми при анализе дискурса в различных контекстах.

В том же смысле, в зависимости от жанра и целей текста, лингвистические ресурсы могут идти рука об руку со стратегиями, которые помочь выполнить конкретную коммуникационную цель. Примеры этих стратегий: убеждение, обобщение, оценка, натурализация, авторизация и другие. Наконец, лингвистические ресурсы также считаются той материальной поддержкой, которая позволяет нам получить доступ к выступлениям.

Виды и примеры

Итак, какие элементы мы используем для придания читабельности или связности речи, устной или письменной? Ниже мы увидим некоторые типы и примеры языковых ресурсов, применяемых к дискурсу, а также некоторые примеры в зависимости от среды, в которой они содержатся.

1. Фонетические ресурсы

Это элементы, которые помогают нам выделить определенную часть сообщения с помощью его звуков. Следовательно, они известны как «фонетические» ресурсы. Среди наиболее распространенных подтипов можно выделить следующие:

2. Семантические ресурсы или риторические элементы

Они являются элементами, которые определяют отношения между означаемым и означающим, то есть они позволяют установить определенное значение для каждого понятия. Среди наиболее представительных можно выделить:

3. Морфологические ресурсы

Эпитет: используйте уточняющие прилагательные, чтобы выделить природные качества, даже если они не добавляют дополнительной информации, стр. бывший. «Белый снег». Перечисление: используйте ряд существительных, значение которых похоже, чтобы описать или выделить значение.

4. Синтаксические ресурсы или связующие элементы

5. Ресурсы по поддержке

Интервью с Фернандо Каллехо: психология в помощь музыкантам

Источник

Лингвистические информационные ресурсы и их применение для задач компьютерной обработки естественного языка

Что такое лингвистический веб ресурс. Смотреть фото Что такое лингвистический веб ресурс. Смотреть картинку Что такое лингвистический веб ресурс. Картинка про Что такое лингвистический веб ресурс. Фото Что такое лингвистический веб ресурс

Федеральное государственное бюджетное образовательное учреждение

«Волгоградский государственный социально-педагогический университет»

Факультет математики, информатики и физики

Кафедра теории и методики обучения математике и информатике

Лингвистические информационные ресурсы и их применение для задач компьютерной обработки естественного языка

студентка филологического факультета,

кандидат педагогических наук,

ГЛАВА 1. ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА…………………………. 4

1.1. Обработка естественного языка: основные понятия………………………4

1.2. Основные задачи обработки естественного языка…………………………6

1.3. Трудности, возникающие при выполнении задач обработки естественного языка…………………………………………………………………………..9

1.4. Программное обеспечение, предназначенное для обработки естественного языка…………………………………………………………10

ГЛАВА 2. ЛИНГВИСТИЧЕСКИЕ РЕСУРСЫ…………………………………12

2.2. Компьютерные базы словосочетаний………………………………………..16

2.3. Компьютерные грамматики…………………………………………………..17

2.4. Составление лингвистических информационных ресурсов и автоматизация этого процесса………………………………………………………………………18

Список использованной литературы…………………………………………. …21

В настоящее время основными проблемами лингвистики является изучение лексики и семантики, быстрый автоматизированный перевод. В этих исследованиях невозможно обойтись без работы со словарями, архивами. Но, к сожалению, у учёных не всегда существует возможность доступа к необходимым информационным ресурсам. Помочь в этом современным лингвистам может такая отрасль науки, как компьютерная, прикладная лингвистика, которая занимается созданием разнообразных систем по обработке естественного языка. Но эта обработка невозможна без наличия лингвистических информационных ресурсов. Что же это за ресурса и как ими пользоваться? Этому и посвящено наше исследование.

Цель работы – исследовать лингвистические информационные ресурсы.

Поставленная цель обусловила следующие задачи:

· определить понятие «обработка естественного языка» и сопутствующую ему терминологию;

· выявить основные задачи обработки естественного языка;

· выявить трудности, возникающие при выполнении задач обработки естественного языка;

· описать программное обеспечение, предназначенное для обработки естественного языка;

· описать и классифицировать лингвистические ресурсы;

· описать процесс составления лингвистических информационных ресурсов.

ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА

1.1. Обработка естественного языка: основные понятия

Для начала следует выяснить, что понимается под термином обработка естественного языка.

Обработка естественного языка — одно из направлений искусственного интеллекта и математической лингвистики, которое занимается изучением проблем компьютерного анализа и синтеза естественных языков.

Расшифруем некоторые понятия, входящие в состав данного определения.

Естественный язык – это хранящаяся в сознании человека сложная система правил, в соответствии с которыми происходит речевая деятельность, т. е. порождение и понимание текстов.

Искусственный интеллект – это область компьютерной науки (информатики), специализирующаяся на моделировании интеллектуальных и сенсорных способностей человека с помощью вычислительных устройств.

Математическая лингвистика – математическая дисциплина, предметом которой является разработка и изучение понятий, образующих основу формального аппарата для описания строения естественных языков (т. е. метаязыка лингвистики).

Анализ как форма и метод деятельности искусственного интеллектатрактуется как понимание языка. Под синтезом же в сфере искусственного интеллекта понимают генерацию грамотного текста.

1.2. Основные задачи обработки естественного языка

Понимание, распознавание естественного языка –ключевая задача, посколькуузнавание и распознавание языка живого требуетколоссальныхзнаний языковой системы, языкового строя, их особенностей и закономерностей.

Определим основные, наиболее актуальные задачи обработки естественного языка. Это:

1) распознавание речи;

5) машинный перевод;

6) создание вопросно-ответных систем;

7) информационный поиск;

8) извлечение информации;

9) анализ тональности текста

10) реферирование текста.

Итак, рассмотри подробнее сущность названных задач.

1. В первую очередь следует рассмотреть одну из наиболее важных задач, а именно распознавание речи. Под этим процессом подразумевается процесс, ведущий к преобразованию речевого сигнала человеческого голоса в цифровую информацию. Такая возможность может быть использована людьми, лишёнными способности набора текста с помощью рук либо для упрощения и ускорения этого процесса.

2. Синтез речи–формирование по печатному тексту сигналов речи, то есть искусственное производство человеческой речи. Выполнением этой задачи занимается такая отрасль современной информатики, компьютерной лингвистики, информационных технологий, как искусственный интеллект.

Эта задача в основном предназначена для использования в информационных и справочных системах, диспетчерских службах, для выдачи информационных запросов о технологических процессах, для помощи людям с ограниченными возможностями зрения и речи.

3. Анализ текста – процесс извлечения содержательной, высокого качества информации из текста на естественном языке для автоматизации процесса извлечения и анализа данных.

4. Синтез текста мы определяли выше, в предыдущем пункте данной главы. Ему присуще наличие некоторых специфических подзадач. К примеру, многоязыковая генерация. Так называют автоматическое составление специальных документов на нескольких языках (патентных формул, инструкций по эксплуатации технических изделий или программных систем). Для решения этого типа задач применяются подробные языковые модели.

5. Машинный, или автоматический перевод. Под данной задачей обработки естественного языка подразумевается процесс перевода устных текстов, написанных на естественном языке, на другой, тоже естественный, язык при помощи электронно-вычислительных машин в предназначенных для данного типа задач компьютерных программах.

6. Создание вопросно-ответных систем, то есть таких информационных систем, которые способны принимать, распознавать, классифицировать вопросы и давать ответы на них на естественном языке.

Эта задача осуществляется по следующему алгоритму:

· определения типа вопроса;

· поиском текстов, потенциально содержащих ответ на этот вопрос;

· извлечением ответа из этих источников.

Такие системы можно классифицировать на:

· те, которые предназначены для работы с текстами и темами определённой тематики,

· те, которые способны работать с информацией, относящейся к различным сферам знания.

7. Информационный поиск – процесс выявления информации в документах, содержащихся в доступных системе поиска базах данных, которые соответствуют заданному запросу по тематике.

Исполнение этой задачи подразумевает под собой исполнение следующей последовательности операций:

· формулирование информационного запроса;

· поиск потенциальных обладателей соответствующей информации;

· извлечение информации из найденных документов;

· ознакомление с результатами произведённого поиска и выборка наиболее подходящих условиям запроса источниками.

Существует 3 разновидности информационного поиска:

· поиск по содержанию всего документа;

· поиск по названию документа, дате его создания, автору, размеру и т. п. данным;

· поиск по тематике изображения, предмету, присутствующему на нём.

8. Извлечение информации – задачи обработки естественного языка, выполняющая автоматическое извлечение необходимых данных из источника информации, текста (как правило, неструктурированного). Эта задача непосредственно связана с предыдущей.

9. Анализ тональности текста – анализ лексем текста, оценка их эмоциональной окрашенности и классификация по принадлежности к нейтральному, позитивному или негативному лексическому слою языка.

10. Реферирование – сокращение объёма текста за счёт выделения основных тезисов путём поиска соответствий заданным в поиске ключевым словам и его краткое изложение.

1.3. Трудности, возникающие при выполнении задач

обработки естественного языка

Когда эти условия будут выполняться, тогда можно будет говорить о создании весьма удобной формы взаимодействия человека с компьютером – более простой, доступной, понятной, продуктивной, эргономичной.

Но, к сожалению, в процессе выполнения этой задачи возникают препятствия, создаваемые теми или иными особенностями естественного языка. Например, на качество понимания текста могут повлиять такие факторы, как:

1) непосредственно сам язык, его отнесённость к той или иной языковой семье, группе;

2) порядок речи (прямой, обратный или свободный – чаще всего при обработке русского языка трудности связаны именно с ним);

3) характерные особенности национальной культуры носителей естественного языка;

4) говорящий, источник речи, а именно:

· логический строй речи;

5) фонетические особенности речи;

6) полисемичность языка;

7) наличие омонимов в данном естественном языке;

8) способы словообразования, присущие определённому языку;

10) фразеологические обороты и устойчивые выражения.

1.4. Программное обеспечение, предназначенное для обработки естественного языка

Осуществление названных задач требует наличия определённого программного обеспечения. Укажем наиболее популярные и востребованные пакеты программного обеспечения, способного выполнить тот или иной тип обработки естественного языка:

· General Architecture for Text Engineering (GATE)

1. GeneralArchitectureforTextEngineering (GATE)– одна из систем обработки естественного языка с открытым исходным кодом. Её работа основана на наборах компонентов, созданных на языке Java. Данная система начала своё развитиев 1995 году.

С помощью GATE стала возможна реализация таких задач, в которых требуется определить смысловое содержание некого текста и кодировать его путем добавления аннотаций к отдельным сегментам текста в структурированном виде. Эта система применяется для выполнения задач по извлечению информации, по составлению как ручной, так и автоматической семантической аннотации текста, работы с онтологиями, машинного обучения, анализа потока сообщений в блогах.

Система GATE получила распространение в различныхсферах научных знаний. Нас интересует только её применение вкомпьютерной лингвистике, обработке естественного языка, а также в моделировании языковых процессов.

2. ModularAudioRecognitionFramework (MARF) – модульная библиотека распознавания аудио. Данное программное обеспечение предназначено для выборки алгоритмов для обработки и распознавания текста, речи, звука, то есть выполнения непосредственных потребностей поставленных задач обработки естественного языка. Это приложение также способно осуществлять дополнение алгоритмов и модулей. Система MARF способна работать как библиотека в приложениях или может использоваться как источник для изучения и расширения лингвистических баз данных.

3. NaturalLanguageToolkit (NLTK) – библиотеки и программ для символьной и статистической обработки естественного языка.

NLTK предназначена для студентов, изучающих и занимающихся компьютерной лингвистикой, эмпирическая лингвистикой, когнитивистикой, искусственным интеллектом, информационным поиском.

Все перечисленные программные обеспечения предназначены для создания лингвистических информационных ресурсов. Рассмотрим несколько аспектов, касающихся этих ресурсов.

ГЛАВА 2. ЛИНГВИСТИЧЕСКИЕ РЕСУРСЫ

Разработка лингвистических процессоров (к примеру тех, о которых говорилось в предыдущей главе) требует широкого и наиболее полного представления лингвистической информации о естественном языке, который требуется обработать. Такая информация отображается в таких лингвистических информационных ресурсах, как:

Рассмотрим подробнее типы этих ресурсов.

2.1. Компьютерные словари

Именно словари являются наиболее традиционной формой представления лексической информации. Так же и в компьютерной лингвистике – наиболее распространённой и широко используемой являются компьютерные словари.

· единицами (как правило, это слова или словосочетания);

· охватом лексики (к примеру, словари терминов конкретной узкой области, словари общей лексики и т. п.).

Для устранения дальнейших сложностей в понимании определим, что же такое словарная единица.

Единицей словаря называется словарная статья. В словарной статье представлена наиболее полная информация о лексеме. Также следует отметить, что лексические омонимы обычно представляются в разных словарных статьях, так как они содержат в себе разное смысловое наполнение и не могут являться одной и той же лексической и словарной единицей.

Здесь следует назвать некоторые виды компьютерных словарей:

Определим функции и общее назначение каждого из этих типов.

1. Морфологические словаринаиболее распространены в компьютерной лингвистике. Используются они для морфологического анализа. В словарной статье представляется морфологическая информация обопределённом слове, а именно такие характеристики слова, как:

· словоизменительный класс (только для языков флективного типа);

· перечень значений слова и т. п.

Иногда в морфологический словарь может быть добавлена и грамматическая информация (например, модели управления слова). Это обстоятельство зависит от организации и возможностейлингвистического процессора.

2. Толково-комбинаторный словарь. В нём представлена более полная и широкая информация о словах. В словарной статье в этом случае кроме информации морфологической, синтаксической и семантической (синтаксические и семантические валентности) предлагаются сведения о лексической сочетаемости этого слова. На толково-комбинаторный словарь опирается лингвистическая модель «Смысл⇔Текст». Такая модель призвана обеспечить получение связных синтаксических структур для всех предложений текстов, подвергаемых обработке, причём независимо от степени их сложности, и переработку текстов на естественном языке без смысловых потерь.

3. В ряде лингвистических процессоров используются словари синонимов.В структуру такой словарной статьи входят:

· антоним к заглавному слову;

· вариант заглавного слова;

4. Словарь паронимов – это довольно новый вид не только компьютерных, но и словарей вообще. Паронимы – это внешне схожие слова, различающиеся по смыслу, например, чужой и чуждый, правка и справка. Эти словари предназначены для исправления ошибок в тексте и обучения правильному употреблению паронимов в разных контекстах.

5. Тезаурус – это семантический словарь. В нём представлены смысловые связи слов – синонимические, родовидовые отношения, отношения части и целого, ассоциативные отношения. Применение и составление тезаурусов связано с решением задач информационного поиска.

6. Онтология – это набор понятий и сущностей определенной области, сферы знаний, который ориентирован намногократное использование для различных задач. Такие словари могут создаваться на базе существующей в языке лексики – в этом случае они называются лингвистическими.

Такой лингвистической онтологией считается система WordNet – объёмный лексический ресурс, в котором собраны слова английского языка: существительные, прилагательные, глаголы и наречия. Там же представлены их смысловыесвязи нескольких типов. Для каждой из названных частей речи слова сгруппированыв синонимические ряды (синсеты), между которыми устанавливаются отношенияантонимии, гипонимии (отношение род-вид), меронимии (отношение часть-целое).

Общую онтологию формируетверхний уровень иерархии– система основных понятий о мире.

По аналогичной схеме были построены лексические ресурсы для других языков Европы, объединенные под общим названием EuroWordNet.

2.2. Компьютерные базы словосочетаний

В базы словосочетаний отбираются наиболее типичные, устойчивые словосочетания, фразеологические обороты конкретного языка. Такая база словосочетаний русского языка, содержащая около миллиона единиц, составляет ядро системы КроссЛексика.

Система КроссЛексика – это большой электронный словарь сочетаний и смысловых связей русских слов.

Словосочетания вносятся в компьютерную базу в соответствии со следующими принципами:

· высокая степень ассоциации;

· синонимичность лексической единице;

· значительная многозначность компонентов;

· обозначение типа объекта.

2.3. Компьютерные грамматики

Ещё один вид лингвистических ресурсов – это грамматики естественного языка. Их тип зависит от используемой в лингвистическом процессоре модели синтаксиса. Компьютерная грамматика представляет собою набор правил, которые выражают общие синтаксические свойства слов и групп слов. Общее количество правил компьютерной грамматики зависит и от модели синтаксиса, изменяясь от нескольких десятков до нескольких сотен.

Но здесь существует такая проблема, как соотношение в модели языка грамматики и лексики: чем больше информации представлено в словаре, тем короче может быть грамматика и наоборот.

2.4. Составление лингвистических информационных ресурсов и автоматизация этого процесса

Составление компьютерных словарей, тезаурусов и грамматик – это весьма объемная и трудоемкая работа. Чаще разработка лингвистической модели и соответствующего процессора оказывается проще, нежели составление лингвистических информационных ресурсов. Следовательно, одной из подзадач компьютерной лингвистики является автоматизация построения лингвистических ресурсов.

Компьютерные словари часто формируются конвертацией обычных текстовых словарей. Но при построении словарей и тезаурусов для быстроразвивающися научных областей требуется намного более кропотливая и сложная работа. Для извлечения необходимой лингвистической информацииисходным материалом являются коллекции и корпуса текстов.

Корпус текстов – это коллекция текстов, собранная по определенномупринципу (например, по жанру, авторской принадлежности и т. п.), в которой все тексты снабжены некой лингвистической разметкой (или аннотациями) – морфологической, акцентной, синтаксической и т. д. На данный момент существует более сотни различных корпусов – для разных естественных языков и с различной разметкой. В России наиболее известным корпусом текстов является Национальный корпус русского языка.

Размеченные корпуса создаются лингвистами и используются для:

· выполнения целей и задач, которые преследуются влингвистических исследованиях;

· настройки используемых в компьютерной лингвистикемоделей и процессоров с помощью известных математических методов машинного обучения.

В последнее время чаще в качестве более полного лингвистического ресурса рассматриваются тексты сети Интернет, так как корпусы и коллекции текстов обязательно ограничены по представленным в них языковым явлениям. Ведь, бесспорно, Интернет на сегодняшний день – самый представительный источник образцов современной речи. Тем не менее, его использование как корпуса требует разработки специальных технологий.

На сегодняшний день компьютерная лингвистика достигла довольно высоких результатов в создании различных приложений по автоматической обработке текстов на естественном языке. Дальнейшее ее развитие зависит и от разработки новых приложений, и от независимой разработки различных моделей языка. Наиболее отработанными являются модели морфологического анализа и синтеза. Модели синтаксиса еще не доведены до уровня устойчиво и эффективно работающих модулей, несмотря на большое количество существующих формализмов и методов. Еще менее изучены и формализованы модели уровня семантики и прагматики, хотя такая потребность на данный момент возникла. Решить многие проблемы и вопросы, возникающие в ходе этой работы, может развитие лингвистических информационных ресурсов.

Список использованной литературы

2. Естественно-языковые системы: курс лекций. – Улан-Удэ: Изд-во ВСГТУ, 2006. – 92 с.: илл.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *