С морфологическим анализом знакомятся еще учащиеся начальной школы, дотошно разбирая слова, но в дальнейшем данный навык и метод фактически нигде не применяется. Из-за узости, специфики морфологии многие просто забывают ее роль в тексте. Сегодня мы раскроем сущность морфологического анализа, правила его проведения и определим место при выполнении различных проектов.
Что это такое?
Морфология – это уникальный раздел филологической науки, русского языка, призванный изучить разделы речи и используемые в ней слова с качественной и количественной точки зрения. Морфологический анализ – это уникальный шанс и способ разобрать текст «дословно». С его помощью автор сможет определить следующие моменты:
- Правильность написания слов – проверка орфографии и грамматики в тексте способствует повышению качества информации;
- Правильность и уместность употребления слов в тексте/предложении и пр. В данном ракурсе морфологический анализ позволяет понять владение терминологией, навыки по ее грамотному и эффективному использования, возможности автора в части самовыражения;
- Наполненность текста определенными конструкциями и словами, необходимость перестроений и переформулировок с целью «разгрузки» и придания материалу «легкости» и ясности.
Фактически морфологический анализ способствует тотальному погружению в написанный или изученный материал, более качественной оценке и определению сути исследования.
Виды морфологического анализа
В целом морфологический анализ предполагает дословный и описательный разбор конкретной части текста. Он призван расчленить исследование на более мелкие составляющие и определить суть, роль каждого элемента в нем.
На практике выделяют два вида морфологического анализа:
- Дословный, когда исследователь изучает каждое слово с точки зрения морфологии, разбирая его принадлежность к конкретной группе, способ использования (падеж, склонение и пр.), правильность написания и значение (в котором оно употреблено). Именно данная схема применяется чаще всего школьниками и студентами первых курсов, осваивающих филологический или лингвистический профиль;
- Попредложный. В данном случае автор изучает состав предложения с выделением задействованных слов, их форм, принадлежности, а также предоставляет характеристику конструкции в целом: ее характер, вид, стиль и пр. Этот формат применим в редакторском, корректорском деле. Также им успешно пользуются критики, филологи и лингвисты при оценке сторонних трудов на качество.
Дословный морфологический анализ призван установить значение использованного термина, правильность и уместность его употребления/написания, роль и пр. «Попредложная схема» позволяет оценить качественный и количественный состав текста: частота использования сложных и простых конструкций, какие слова чаще применимы в предложениях, какова роль составного элемента в абзаце/тексте в целом, грамотность автора, способы упрощения (повышение удобочитаемости) текста и пр.
Возникли сложности?
Нужна помощь преподавателя?
Мы всегда рады Вам помочь!
Правила и основные этапы проведения морфологического анализа
Для проведения морфологического анализа исследователю важно разобраться в простейших элементах и правилах русского языка, изучить составные части. Общая (стандартная) методика проведения данного вида «мыслительно-разъяснительной работы» выглядит следующим образом:
- Изучаем текст;
- Делим на составные части для анализа: дословный или попредложный;
- Определяем существенные моменты в отношении объекта исследования: подробно описываем его принадлежность к части речи, определяем начальную форму, стилистику, «индивидуальность» (особенности употребления) и пр.
- Определяем общую характеристику и правильность употребления объекта в материале.
Алгоритм проведения морфологического анализа может зависеть непосредственно от объекта исследования. Дословная метода различается в зависимости от изучаемого элемента.
Дословная схема проведения морфологического анализа различается в зависимости от исследуемой части речи. Сейчас мы приведем краткий алгоритм реализации данного приема для каждой из них:
- Имя существительное: начальная форма – отношение к лексико-грамматическому разряду (имя собственное или нарицательное с уточнением) – одушевленное/неодушевленное – род — число – падеж – склонение – синтаксическая функция;
- Имя прилагательное: начальная форма (приводим задействованное слово в единственное число, мужской род, именительный падеж, ответив на простой вопрос: «Какой?») – лексико-грамматический разряд (качественное, относительное или притяжательное) – полная/краткая форма – род, число и падеж + связь между сочетаемым существительным/местоимением/числительным – тип склонения – роль в предложении;
- Местоимение: начальная форма – разряд по значению (в какой группе относится: личное, возвратное, вопросительное и пр.) – соотношение с другими частями речи – род, число и падеж – синтаксическая роль;
- Глагол: инфинитив – основы и класс анализируемого слова – спряжение – вид – переходный/непереходный – возвратный/невозвратный – наклонение – время – лицо – род – синтаксическое место в тексте;
- Причастие: начальная форма – вид – залог – время – для страдательной формы важно определение рода, числа и падежа – образовательный суффикс и основа (от какого слова) – синтаксическая роль;
- Деепричастие: вид – возвратное/невозвратное – основа+суффикс – место и сущность в тексте;
- Наречие: часть речи – разряд по значению – группа внутри разряда – синтаксический акцент (роль);
- Предлог и союз: часть речи – разряд по строению и значению – связь с другими словами в тексте, миссия;
- Частица, модальное слово, междометие: разряд по значению и строению, структуре.
Возникли сложности?
Нужна помощь преподавателя?
Мы всегда рады Вам помочь!
Алгоритм проведения морфологического анализа в отношении предложения в целом выглядит следующим образом:
- Оценка простой конструкции: тип по цели высказывания (повествовательное, вопросительное, побудительное и пр.) – эмоциональная окраска (вопросительное/восклицательное) – структура (одно- или двусоставное) – оценка второстепенных членов (распространенное/нераспространенное) – осложняющие компоненты (чем осложнено) – оценка структуры (полное/неполное);
- Оценка сложных конструкций: конкретизация типа предложения по цели высказывания – определение типа по эмоциональной окраске – констатация вида (сложносочиненное или сложноподчиненное) – выделение частей и их количеств (открытая/закрытая, расчлененная/нерасчлененная) – определение средств связи между частями предложения (союзы, порядок частей речи, вопрос от одной части к другой и пр.) – характер смысловых взаимосвязей – графическая схема предложения.
Современные способы проведения морфологического анализа
На сегодняшний день реализация морфологического анализа возможна в двух вариациях. Первый – ручной, когда автору или исследователю, квалифицированному специалисту предстоит ознакомиться с материалов, провести вычитку и самостоятельно проанализировать составные части на основе имеющихся знаний, опыта и пр. В данном случае обработка большого объема информации отнимет немало времени и сил, потребует тотальной концентрации и точности, владения пером и языком.
Второй способ – автоматизированный, который стал доступен каждому благодаря современным технологиям и продвижению НТП. В настоящее время существует свыше нескольких сотен программ и приложений, специальных сервисов, готовых обработать информацию, провести морфологический и иной анализ за считанные минуты, облегчая миссию эксперта или автора.
Провести морфологический анализ текста с помощью онлайн-технологий можно платно и бесплатно. Многие сервисы предлагают данный вид услуг дополнительно к основной. Например, провести морфологический анализ можно на сервисах по проверке текста на уникальность, таких как Адвего, Текст.ру, RusTXT и пр.
При использовании средств автоматической обработки и анализа достаточно воспользоваться следующим алгоритмом:
- Открыть вкладку в браузере и перейти на нужный сайт;
- В появившемся окне выбрать нужную функцию – морфологический анализ, семантический или seo-анализ (в зависимости от особенностей и функционала сайта, предлагаемых возможностей и инструментов);
- Загрузить текст, требующий оценки и нажать на клавишу «Проверить»/»Ок» и т.п.
После этих действий за считанные минуты результаты морфологического анализа текста предстанут перед вами. Все просто! Главное, воспользоваться итогами правильно и грамотно, усовершенствовав материал и повысив его качество.
Учтите, что при использовании онлайн-сервисов по проведению морфологического анализа могут действовать некоторые ограничения: по объему текста (количество символов), платный и бесплатный функционал, результаты (подробные или сжатые) и пр.
Не стоит недооценивать роль морфологического анализа при подготовке любых видов письменных работ. Конечно, при выполнении объемных исследований нет времени на «морфологическое погружение», но тотальная вычитка и «обследование текста» обязательно повысит качество материала, его насыщенность и удобочитаемость, грамотность и компетентность автора.
Морфологическая информация, этапы морфологического разбора текста
Цель
МА — определить принадлежность некоторой
словоформы к парадигме определенной
лексемы и грамматические признаки для
этой словоформы – морфологическую
информацию (МИ) для использования ее на
последующих этапах обработки ЕЯ текста.
Для
русского языка, как и для большинства
синтетических языков, задача
лексико-грамматического разбора решается
довольно просто и почти стопроцентной
точностью, благодаря их развитой
морфологии. В аналитических языках,
например английском, где широко
представлена лексическая многозначность,
простой алгоритм, сопоставляющий каждому
слову в тексте наиболее вероятный для
данного слова морфологический класс,
дает лишь около 90% точности.
Для
синтетических языков морфологический
разбор текста включает:
-
Выделение внутри предложений отдельных
словоформ. -
Определение всех вариантов комбинаций
основ и аффиксов для каждой словоформы
и, соответственно, вариантов грамматических
форм. -
Устранение грамматической неоднозначности
на основе комбинаторного словаря,
содержащего все контексты употребления
слов.
Для
увеличения точности разбора используются
два типа алгоритмов: вероятностно-статистические
и основанные на продукционных правилах.
Алгоритмы,
основанные на продукционных правилах,
используют правила, которые строятся
автоматически на основе некоторого
корпуса текстов или создаются лингвистами.
Вероятностно-статистические
алгоритмы используют, в основном, два
источника информации.
-
Словарь словоформ, в котором каждой
словоформе соответствует множество
лексико-грамматических классов, которые
могут быть у данной словоформы. Для
каждого лексико-грамматического класса
указывается частота его встречаемости
относительно других морфологических
классов данной словоформы. -
Информация о встречаемости всех
возможных последовательностей
морфологических классов попарно, по
тройкам, по четверкам и т.д. с относительной
частотой такой пары (тройки, четверки
и т.д.). Эта информация обрабатывается
неким статистическим алгоритмом
(например, на основе скрытых цепей
Маркова) для нахождения наиболее
вероятного лексико-грамматического
класса для каждого слова в предложении.
Оба
подхода дают примерно одинаковый
результат на уровне 96-98 % точности.
Существует
несколько классификаций основных видов
алгоритмов морфологического анализа.
По использованию словарей системы МА
можно разделить на словарные (со словарем
словоформ или со словарем основ) и
бессловарные, а по организации алгоритмов
— на методы с декларативной, процедурной
и комбинированной ориентацией.
Билет
№ 41
Синтаксический анализ
Синтаксический
анализ – это процесс, который
определяет, принадлежит ли некоторая
последовательность
лексем языку, порождаемому грамматикой.
В принципе, по любой
грамматике
можно построить синтаксический
анализатор, но грамматики, используемые
на
практике, имеют специальную форму.
Анализаторы реально используемых
языков
обычно имеют линейную сложность; это
достигается, например, за счет просмотра
исходной
программы слева направо с заглядыванием
вперед на один терминальный
символ
(лексический класс).
Вход
синтаксического анализатора –
последовательность лексических и
таблицы,
например,
таблица внешних представлений, которые
являются выходом лексического
анализатора.
Выход
синтаксического анализатора – дерево
разбора и таблицы, например, таблица
идентификаторов
и таблица типов, которые являются входом
для следующего просмотра
компилятора
(например, это может быть просмотр,
осуществляющий контроль типов).
Отметим,
что совсем необязательно, чтобы фазы
лексичекого и синтаксического анализа
выделялись
в отдельные просмотры. Обычно эти фазы
взаимодействуют друг с другом на
одном
просмотре. Основной фазой такого
просмотра считается фаза синтаксического
анализа,
при этом синтаксический анализатор
обращается к лексическому анализатору
каждый
раз, когда у него появляется потребность
в очередном терминальном символе.
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
Чтобы сделать морфологический разбор предложений в тексте, введите текст в текстовое поле и
нажмите кнопку разобрать.
Как программа делает разбор предложений?
Программа разбивает весь текст по словам и предложениям, далее разбирает каждое слово по
отдельности, выделяет морфологические признаки, часть речи и начальную форму слова.
Оцените нашу программу ниже, оставляйте комментарии, мы обязательно ответим.
Время прочтения: 3 мин.
Для выполнения задачи по поиску закупок, проведенных с ограничением конкуренции нужно было проанализировать порядка 4 тыс. технических заданий, размещенных на сайте Zakupki.gov. Понятно, что за короткий период времени просмотреть такое количество файлов невозможно. Мы нашли способ как это сделать максимально быстро и без значительных трудозатрат.
Изначально, мы определились какие условия в технических заданиях при проведении закупок могут ограничивать конкуренцию и спровоцировать жалобы участников, заявки которых были необоснованно отклонены, в ФАС.
Подбор слов триггеров осуществляется с помощью библиотеки pymorphy2, которая является морфологическим анализатором русского языка для обработки текста в NLP задачах. Стояла задача максимально четко их определить, чтобы, после выгрузки методом Web-scraping и отбором слов-триггеров, в отклонения попали только интересующие нас закупки. Это была наиболее трудоемкая процедура, так как пришлось проанализировать Базу решений ФАС, чтобы сопоставить список слов-триггеров, которые несопоставимы и являются конкурирующими между собой.
Массив технических заданий выгружается автоматизированным методом Web-scraping с сайта. Для того, чтобы преобразовать и распознать каждый из форматов: pdf, Excel, Word, rar, zip в текстовый документ для последующей обработки через Pymorphy2 необходимо установить ABBYY FineReader и LibreOffice, первая из которых через скрипт запускает задачу HotFolder, которая в свою очередь распознает сканы документов для возможности поиска текста в документе.
Преобразование уже распознанного текста документов в нормальную форму можно представить следующей функцией converter, функция countWords подсчитывает количество вхождений слов в тексте, текст очищается от слов, которые имеют длину меньше 4, а также от именованных слов, которые не имеют смысловой необходимости, такие как имена, адреса, даты, которые содержатся в словаре Rus_stop_words.
import pymorphy2
def del_stop_words(input, Rus_stop_words):
try:
return ' '.join([word for word in input.split() if word not in Rus_stop_words])
except AttributeError:
pass
def delete(input):
try:
return ' '.join([word for word in input.split() if len(word)>4])
except AttributeError:
pass
morph = pymorphy2.MorphAnalyzer()
def converter (sentence):
list = []
words = sentence.split()
for item in words:
list.append(morph.parse(item)[0].normal_form)
return ' '.join(list)
def countWords(a_list):
words = {}
for i in range(len(a_list)):
item = a_list[i]
count = a_list.count(item)
words[item] = count
return sorted(words.items(), key = lambda item: item[1], reverse=True)
with open('stop_rus_words.txt', 'r', encoding="utf-8-sig") as fs:
Rus_stop_words = fs.read().split(',')
fs.close()
Таким образом, с помощью функции countWords можно получить словарь из наиболее часто встречающихся слов с их частотой вхождения в конкретном документе.
resultdict={}
for text in dff['Text']:
aa=countWords(text.split())
a=dict(aa)
for key in a:
try:
resultdict[key] +=a[key]
except KeyError:
resultdict[key] =a[key]
После того, как слова с наибольшей частотой вхождения в документе отобраны, создан топ слов-триггеров, которые имеют несопоставимость внутри одного документа.
Таким образом, после преобразования данных с сайта закупок по словам триггерам сформировалась риск-ориентированная выборка. На анализ отобранных закупок экспертом было потрачено всего несколько часов, чтобы классифицировать их с признаком ограничения конкуренции. Задача выполнена за несколько часов без утомительного просмотра многочисленных технических заданий на сайте ЕИС.
{{ word.morphem }}
{{ word.word }}
Характеристика
По цели высказывания: {{ purpose[syn.purpose] }}
По интонации: {{ emotionalColoring[syn.emotionalColoring] }}
Простое
Сложное
По наличию главных членов: {{ mainMembers[syn.mainMembers] }}
По наличию второстепенных членов: {{ minorMembers[syn.minorMembers] }}
Не осложнено обращениями, вводными словами и однородными членами
Осложнено однородными членами
Осложнено вводными словами
Осложнено обращениями
Сложносочинённое предложение. Количество простых предложений: {{ syn.countRoot }}.
Cложноподчиненное предложение.
- {{ error }}
{{ infoService }}
Сделать морфологический разбор слова — значит разобрать его как часть речи.
Необходимо указать его: грамматическое значение, морфологические признаки и функцию слова в предложении, во взаимосвязи с другими словами (т.е. синтаксическую роль).
Морфологический разбор любого предложения в нашем сервисе начинается с разбора каждого слова в предложении по отдельности.
Над каждым словом сокращенно указываются морфологические признаки.
Расшифровку сокращений вы можете посмотреть внизу формы.
Порядок выполнения морфологического разбора слова:
1. Записать слово.
2. Определить его часть речи. Общее значение.
В современном русском языке насчитывается десять самостоятельных и служебных частей речи:
- Имя существительное;
- Имя прилагательное;
- Имя числительное;
- Местоимение;
- Глагол;
- Наречие;
- Предлог;
- Союз;
- Частицы;
- Междометия.
3. Указать морфологические признаки слова.
а) Поставить слово в начальную форму.
Для существительного — это именительный падеж в единственном числе.
Для прилагательного — именительный падеж в единственном числе и в мужском роде.
Для числительного — это именительный падеж.
Для местоимения — это именительный падеж в единственном числе.
Для глагола — это неопределённая форма; инфинитив.
Для причастия — именительный падеж единственного числа в мужском роде.
б) Определить постоянные и не постоянные признаки слова.
Постоянные признаки у существительных: род, склонение, одушевлённость,число, нарицательные и собственные.
Непостоянные признаки — падеж, число.
Постоянные признаки у прилагательных:
- разряд по значению (качественные, относительные, притяжательные)у качественных — это степень сравнения (положительная, сравнительная, превосходная),
- простая или сложная форма(для сравнительной и превосходной степени);полнота-краткость у качественных.
Непостоянные признаки: род, падеж, число.
Постоянные признаки у числительных:
- состав (простое, составное, сложное);
- значение (количественное или порядковое);
- для количественных — разряд по значению.
Непостоянные признаки:падеж, если есть — род, для порядковых — число.
Постоянные признаки у местоимений:
- по значению и грамматическим признакам — разряд. ;
- лицо (у личных местоимений);
- с какой частью речи соотносится.
Непостоянные признаки: падеж, род (если есть), число (при наличии).
Постоянные признаки у глаголов:
- вид (совершенный или несовершенный);
- возвратность;
- переходность;
- спряжение (1, 2, разноспрягаемое).
Непостоянные признаки: наклонение (изъявительное, условное и повелительное)число. При наличии: время,лицо, род.
Постоянные признаки у причастия:
- вид;
- возвратность;
- переходность;
- действительное или страдательное;
- время(настоящее, прошедшее).
Непостоянные признаки:
- У всех причастий — число и род.
- У страдательных причастий — полная или краткая форма.
- У причастий в полной форме — падеж.
Признаки у деепричастий только постоянные: вид, возвратность, переходность.
У наречий определяются:
- степень сравнения,
- группа и разряд по значению.
У предлогов выясняется:
- с каким падежом употреблён,
- по происхождению — производные или непроизводные.
У союзов уточняется:
- Какие по строению — простые или составные.
- Какие по значению — сочинительные или подчинительные.
- Какие по типу употреблению (одиночные, повторяющиеся, двойные).
- Союзами соединяются члены предложения или части сложного предложения.
У частиц идентифицируются лишь часть речи и разряд.
4. Определить каким членом предложения является слово (указать синтаксическую роль).
Количество символов, доступные для разных категорий пользователей:
гости — 10 тыс. знаков;
пользователи — 15 тыс.знаков;
PRO версия — до 100 тыс. знаков, отключение рекламы и отдельная очередь.