Что не относится к процессу и понятию машинного перевода междисциплинарность

Машинный перевод: история, классификация, методы

Что не относится к процессу и понятию машинного перевода междисциплинарность

Рубрика: 7. Вопросы переводоведения

Дата публикации: 02.07.2015

Статья просмотрена: 5507 раз

Библиографическое описание:

Дроздова, К. А. Машинный перевод: история, классификация, методы / К. А. Дроздова. — Текст : непосредственный // Филологические науки в России и за рубежом : материалы III Междунар. науч. конф. (г. Санкт-Петербург, июль 2015 г.). — Санкт-Петербург : Свое издательство, 2015. — С. 139-141. — URL: https://moluch.ru/conf/phil/archive/138/8497/ (дата обращения: 18.12.2021).

В данной работе описываются основные достижения за историю существования машинного перевода. Статья раскрывает суть работы двух современных систем машинного перевода, использующихся на практике — система статистического перевода и перевода, основанного на правилах. Особое внимание уделяется анализу и сравнению этих систем, а также выделению достоинств и недостатков каждой из них. Кроме того, автором описаны некоторые нерешенные проблемы автоматического понимания и перевода текстов.

Ключевые слова: компьютерная лингвистика, машинный перевод, обработка естественного языка, автоматическое понимание текстов, статистический перевод, перевод «по правилам».

В середине прошлого века родилась идея о том, чтобы переводить тексты с одного языка на другой автоматическим способом без помощи человека. Несмотря на то, что эта задача до сих пор не имеет удовлетворительного решения, за последнее время в этой области достигнут существенный прогресс, а сама постановка проблемы дала почву для развития новых лингвистических теорий.

Датой рождения машинного перевода можно считать 1954 год: именно в этот год произошла публичная демонстрация перевода с помощью вычислительной техники. В истории это событие носит название «Джорджтаунский эксперимент» по имени университета, который совместно с компанией IBM участвовал в его подготовке.

Эксперимент заключался в следующем: машине на вход подавалось около 60 предложений на русском языке, записанных на перфокартах, а машина в свою очередь выдавала перевод этих предложений на английский язык. Выбор языка, с которого осуществлялся перевод, был обусловлен начинающейся холодной войной, и необходимостью в связи с этим анализировать огромные объемы информации, поступающие на русском языке. В качестве предложений для перевода была выбрана достаточно узкая тематика нефтехимии, и все вводимые предложения были очень простыми: «Обработка повышает качество нефти», «Командир получает сведения по телеграфу». При таких условиях эксперимент оказался вполне успешным и получил широкую огласку, несмотря на то, что был задействован довольно маленький словарь (250 слов), а система перевода основывалась только на шести грамматических правилах. Более того, в то время появилось мнение, что задача машинного перевода полностью решиться в течении ближайших пяти лет. Однако дальнейшие годы исследований показали, что проблема машинного перевода гораздо сложнее и многограннее, чем ожидалось.

Системы машинного перевода за долгие годы своей разработки претерпевали значительные изменения. Так, первое поколение таких систем, которое принято датировать до середины 1960-х гг., приближено по своей технике к пословному переводу: каждому слову или речевому обороту в исходном тексте подбирается эквивалент на выходном языке, найденный в словаре. Системы первого поколения не обладали возможностями решения проблем многозначности, не проводили никакого лингвистического анализа, в связи с чем выдавали довольно низкое качество перевода.

Следующий период систем машинного перевода (середина 1960–1970-х гг.) называют вторым поколением. Их внутреннее устройство несколько сложнее, чем у первого поколения: вместо пословного перевода для каждого предложения строится своя синтаксическая структура, основанная на правилах грамматики входного языка. После этого такая структура преобразовывается в синтаксическую структуру выходного языка, а затем выполняется подстановка слов из словаря, то есть синтез предложения на выходном языке.

На этом этапе в технике машинного перевода уже широко применялись как методы морфологического, так и синтаксического анализа, что существенно улучшило качество выходных текстов, однако оставались трудности, связанные с семантикой. В связи с этим следующим этапом в развитии машинного перевода можно считать 1980-е года, когда впервые появляются системы семантического типа. К этому классу относятся системы машинного перевода, в основу которых легла теория “Cмысл ↔ Текст”.

Теория “Cмысл ↔ Текст” была создана прежде всего И. А. Мельчуком в 60–70-е гг. прошлого века. Активное участие в разработке также принимали два других советских лингвиста — Ю. Д. Апресян и А. К. Жолковский. Данная теория представляет собой многоуровневую модель, позволяющую перейти от текста к его смысловой структуре, записанной на некотором универсальном языке, после чего совершить обратный переход от записанной смысловой структуры к любому естественному языку. Переход от текста к смыслу и обратно происходит не непосредственно, а в несколько этапов. Выделяют шесть уровней этого перехода. Предельные уровни: фонологический и семантический; промежуточные уровни: поверхностно-морфологический, глубинно-морфологический, поверхностно-синтаксический и глубинно-синтаксический. Семантический уровень описывается графом, синтаксические уровни описываются в виде дерева зависимостей, а морфологический и фонологический уровни описываются линейно.

Несмотря на универсальность и весь потенциал данной теории, ее применение в системах машинного перевода пока не дало качественного прорыва. Десятилетия работ по машинному переводу показали, насколько на самом деле велеки трудности перехода от естественного языка к универсальному метаязыку, хранящему в себе смысл текста. Однако, на данный момент на основе теории “Cмысл ↔ Текст” в институте проблем передачи информации РАН создан лингвистический процессор ЭТАП-3, который занимается переводом между английским и русским языками.

В дополнение к сказанному стоит упомянуть появление интерактивных систем машинного перевода, в которых на разных стадиях перевода привлекается участие человека. Такое участие может быть выражено в разных формах:

— Постредактирование: человек редактирует уже переведенный машиной текст.

— Предредактирование: человек редактирует входной текст, приспосабливая его для более легкого понимания машиной.

— Частично автоматизированный перевод: человек и машина взаимодействуют в процессе перевода. Например, использование человеком электронных словарей при переводе; участие человека в процессе машинного перевода для разрешения трудностей.

— Смешанные системы: например, с пост- и предредактированием.

Из всех разработанных ранее систем машинного перевода на сегодняшний день существует два основных самых распространенных типа: основанный на правилах и основанный на статистике. Рассмотрим подробнее каждый из них.

Системы, основанные на правилах, по сути являются системами второго поколения. Среди них можно выделить два подтипа: трансферные и интерлингвистические, которые в своем фундаменте имеют общую идею — связь структуры входного и выходного предложения.

Трансферные системы включают в себя три этапа: анализ, трансфер и синтез. Для создания внутреннего представления сначала производится морфологический, лексический и семантико-синтаксический анализ входного текста. Затем для каждого предложения строится дерево разбора и производится так называемый трансфер: преобразование структуры входного предложения с учетом требований языка перевода. Последним этапом является синтез, то есть формирование выходного предложения. Классическим примером трансферной системы перевода может служить распространенная система PROMT.

В основе интерлингвистических систем лежит идея существования универсального метаязыка, представляющего смысл предложения на любом естественном языке. Такие системы включают в себя два этапа: анализ и синтез. На этапе анализа входной текст трансформируется при помощи словаря и грамматических правил исходного языка в представление на универсальном метаязыке. На втором этапе это представление преобразуется в предложение выходного языка при помощи словаря и грамматических правил языка перевода. Основным недостатком такого типа систем является до сих пор неразрешенная проблема нахождения универсального для всех естественных языков смыслового представления.

Основными преимуществами систем, основанных на правилах, является высокая точность перевода. Однако, вместе с ней нередко появляется некоторый “машинный” акцент, неестественность выходного текста.

В конце двадцатого века стал доминировать статистический подход машинного перевода. Как можно догадаться, статистический перевод основывается не на правилах, а на статистике. Основной метод такого перевода — обучение машины посредством предоставления достаточно большого (сотни тысяч) количества параллельных текстов — содержащих одинаковую информацию на разных языках.

Рассмотрим методы статистического перевода на примере тех, что использует Яндекс в системе Яндекс.Перевод. Она состоит из трех этапов: модель перевода, модель языка и декодер. Модель перевода для пары языков представляет из себя таблицу, состоящую из всех известных машине слов и фраз входного языка и их переводов на выходной язык с указанием вероятности такого превода. Система учитывает не только отдельные слова, но и речевые обороты, состоящие из нескольких слов. Далее идет модель языка, а именно модель языка, на который необходимо перевести текст. Она представляет из себя список, состоящий из всех встречаемых в предоставленных текстах слов и словосочетаний вместе с частотой их использования. Перейдем непосредственно к процессу перевода, которым занимается декодер. Каждому предложению исходного текста подбираются все варианты перевода, комбинируя между собой фразы из модели перевода, и располагая их в порядке убывания вероятности. Таким образом модель языка подсказывает декодеру, какой вариант перевода больше подходит данной фразе, основываясь на статистических данных.

Основным преимуществом статистических систем является их качество не отставать от развития и подвижности языка: если в языке происходят какие-либо изменения, система сразу это распознает и самостоятельно обучается. Статистические системы также обладают высокой гладкостью, то есть выдаваемый текст похож на речь, произнесенную человеком. Однако, для существования такой системы необходимы серьезные технические ресурсы, качественные параллельные тексты большого объема. Еще одним существенным недостатком такой системы является отсутствие чувствительности к тонкой структуре текста, из-за чего в выходном тексте может содержаться большое количество грамматических ошибок.

В настоящее время существуют и развиваются высококачественные системы машинного перевода, на помощь которым приходят новые информационные технологии и корпусная лингвистика. Не смотря на это до сих пор существует ряд проблем для осуществления задач машинного перевода. Например, одной из главных сложностей машинного перевода является принципиальная неоднозначность языка. При переводе на английский язык выражения «партия рабов», возникает проблема с определением того, какой смысл имеет это высказывание. Это может быть политическая партия, которую создали рабы, тогда выражение нужно переводить, как «party of slaves». Либо это выражение можно трактовать, как партию рабов, выставленную на продажу или привезенную на континент, тогда правильным переводом будет «consignment of slaves». Эта проблема делает необходимым понимание контекста предложения автоматическим переводчиком, что, конечно, на порядок усложняет задачу.

Еще одна задача для улучшения качества перевода — обучить машину понимать текст как единое целое образование. Это необходимо при переводе машиной заголовков, подписей и других изолированных от контекста частей текста. Существует также необходимость подключения компонента специальных знаний в лингвистические процессоры.

Полное решение задачи машинного перевода до сих пор не реализовано ни в одном проекте, однако, развитие новых лингвистических теорий, современные достижения в области машинного обучения, развитие электронных словарей, тезаурусов, прогресс вычислительной техники оставляют надежду на то, что в будущем удастся получить удовлетворительное решение этой задачи.

1. Кузнецов П. С., Ляпунов А. А., Реформатский А. А. Основные проблемы машинного перевода. Вопросы языкознания, 1956, № 5. — 107 с.

2. Леонтьева Н. Н. Автоматическое понимание текстов: Системы, модели, ресурсы: Учебное пособие — М.: Академия, 2006. — 304 с.

3. Марчук Ю. Н. Проблемы машинного перевода / Ю. Н. Марчук. — М.: Наука, 1983. — 112 с.

Источник

Машинный перевод

Перевод с одного языка на другой. История машинного перевода. Принципы работы и классификация систем машинного перевода. Программы машинного перевода. Преобразование текста на одном естественном языке в эквивалентный по содержанию текст на другом языке.

РубрикаИностранные языки и языкознание
Видкурсовая работа
Языкрусский
Дата добавления17.01.2011
Размер файла44,0 K

Что не относится к процессу и понятию машинного перевода междисциплинарность

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ ЭЛЕКТРОННОЙ ТЕХНИКИ

Факультет иностранных языков

студентки 32 группы.

Перевод имеет долгую историю. Своими корнями он восходит к тем далеким временам, когда праязык начал распадаться на отдельные языки и возникла необходимость в людях, знавших несколько языков и способных выступать в роли посредников при общении представителей разных языковых общин[3]. Известный переводовед А. Д. Швейцер определяет перевод, как однонаправленный и двухфазный процесс межъязыковой и межкультурной коммуникации, при котором на основе подвергнутого целенаправленному («переводческому») анализу первичного текста создается вторичный текст («метатекст»), заменяющий первичный в другой языковой и культурной среде; процесс, характеризуемый установкой на передачу коммуникативного эффекта первичного текста, частично модифицируемый различиями между двумя языками, между двумя культурами и двумя коммуникативными ситуациями».

Переводоведение впервые оформилось в самостоятельную дисциплину как раздел языкознания в 1930-х годах. В настоящее время эта область научных исследования имеет вполне установившиеся традиции. В теоретическом и языковедческом плане переводоведение тяготеет к социолингвистике, психолингвистике, сопоставительному языкознанию, грамматике текста и касается таких важных разделов науки о языке, как язык и мышление, язык и картина мира, язык и культура[3].

XXI век ставит новые задачи в информационном пространстве человечества. Благодаря массовой информации роль перевода в жизни человечества неуклонно возрастает. Сегодня переводческие связи охватывают почти все сферы человеческой деятельности. Движение информационных потоков не знает ни границ, ни времени, ни пространства.

Круг деятельности, охватываемой понятием «перевод», очень широк. Переводятся с одного языка на другой стихи, художественная проза, научные и научно-популярные книги из различных областей знания, дипломатические документы, деловые бумаги, статьи политических деятелей и речи ораторов, газетные материалы, беседы лиц, разговаривающих на разных языках и вынужденных прибегать к помощи переводчика, дублируются кинофильмы. Вполне логично, что по мере увеличения потока информации и распространения каналов связи существует возрастающая потребность в переводе этой информации с одного языка на другой. При этом, прибегать к помощи специалиста для получения сведений, например, на иностранном сайте, не всегда целесообразно. Поэтому стремление автоматизировать процесс перевода вполне естественно, а проблемы машинного перевода являются очень актуальными и не потеряют этой актуальности в будущем.

Перевод может осуществляться:

с литературного языка на его диалект и наоборот, или с диалекта одного языка на другой литературный язык;

с языка древнего периода на данный язык в его современном состоянии (например, с древнерусского языка на современный русский, со староанглийского на современный английский и т.д.).

Следует заметить, что для машинного перевода характерен лишь пункт 1, поскольку, как известно из экономики, спрос рождает предложение: спрос на программу-переводчика, скажем, с английского или немецкого языка на русский намного превышает спрос на перевод с любого из праязыков.

Глава 1: Машинный перевод

Стоит также уделить внимание и качеству машинного перевода. Оно зависит от тематики и стиля исходного текста. Машинный перевод произвольных художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей по определённой тематике и незначительной настройке системы на особенности того или иного типа текстов возможно получение перевода вполне приемлемого качества. Результат машинного перевода в этом случае нуждается лишь в небольшой редакторской корректировке. Чем более формализован стиль исходного документа, тем качественнее возможен перевод. Наилучших результатов можно достичь при использовании машинного перевода для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.

язык перевод машинный

Для подтверждения этих слов следует привести пример переводов небольшого отрывка художественного текста. И затем сравнить перевод, сделанный электронным переводчиком, и перевод, осуществленный человеком- переводчиком.

The shore was fledged with palm trees. These stood or leaned or reclined against the light and their green feathers were a hundred feet up in the air. The ground beneath them was a bank covered with coarse grass, torn everywhere by the upheavals of fallen trees, scattered with decaying coconuts and palm saplings. Behind this was the darkness of the forestбproper and the open space of the scar. Ralph stood, one hand against a greyбtrunk, and screwed up his eyes against the shimmering water. Out there, perhaps a mile away, the white surf flinked on a coral reef, and beyond that the open sea was dark blue. Within the irregular arc of coral the lagoon wasбstill as a mountain lake-blue of all shades and shadowy green and purple. The beach between the palm terrace and the water was a thin stick, endless apparently, for to Ralph’s left the perspectives of palm and beach and water drew to a point at infinity; and always, almost visible, was the heat. ( William Golding “Lord of the Flies” ).

Ниже будет приведен перевод этого художественного текста осуществленный Е.А. Суриц.

Берег был оперен с пальмами. Они стояли или наклонялись или откидывались против света, и их зеленые перья были сто футов в воздухе. Основание ниже них было банком, покрытым грубой травой, порванной всюду переворотами упавших деревьев, рассеянных с распадающимися кокосовыми орехами и молодыми деревьями пальмы. Позади этого была темнота надлежащего леса и открытой площади шрама. Ральф стоял, одна рука против серого ствола, и ввернул его глаза против мерцающей воды. Там, возможно на расстоянии в одна миля, белый прибой flinked на коралловом рифе, и кроме того открытое море было темно-синим. В пределах нерегулярной дуги коралла лагуна была все еще как гора, синяя озером из всех оттенков и темного зеленого цвета и фиолетовая. Берег между террасой пальмы и водой был тонкой палкой, бесконечной очевидно, поскольку слева от Ральфа перспективы пальмы и берега и воды тянули к пункту в бесконечности; и всегда, почти видимый, была высокая температура.

Глава 2: История машинного перевода

Для начала, следует обозначить некоторые важные даты в истории машинного перевода:

А сейчас следует рассмотреть эти факты подробнее:

Мысль использовать ЭВМ для перевода была высказана в 1946 году, сразу после появления первых ЭВМ. Датой рождения МП как области исследований принято считать 1947 г.: все началось с письма Уоррена Уивера, директора отделения естественных наук Рокфеллеровского фонда, к Норберту Винеру в марте того же года, в котором задача перевода сравнивалась с задачей дешифровки текстов. Последняя в то время уже стала выполняться на электромеханических устройствах. За этим письмом последовало множество дискуссий, появился меморандум о целях, и, наконец, были выделены средства на исследования. Первая публичная демонстрация машинного перевода (так называемый Джорджтаунский эксперимент) состоялась в 1954 году.Несмотря на примитивность той системы (словарь в 150 слов, грамматика из 6 правил, перевод нескольких простых фраз), этот эксперимент получил широкий резонанс: начались исследования в Англии, Болгарии, ГДР, Италии, Китае, Франции, ФРГ, Японии и других странах; в том же 1954 году и в СССР.

Однако, слишком много трудностей и неясностей было в том, как нужно формализовать и строить алгоритмы для работы с текстами, какие словари надо вводить в машину, какие лингвистические закономерности следует использовать при машинном переводе и каковы вообще эти закономерности.

Выяснилось, что традиционная лингвистика не располагает ни фактическим материалом, ни идеями и представлениями, нужными для построения систем машинного перевода, которые использовали бы смысл переводимого текста.

Традиционная лингвистика не могла дать исходные представления не только в части семантики, но и в части синтаксиса. Ни для одного языка в то время не существовало перечней синтаксических конструкций, не были изучены условия их сочетаемости и взаимозаменяемости, не были разработаны правила построения крупных единиц синтаксической структуры из более мелких. В сущности, ни на один вопрос, поставленный в связи с построением систем машинного перевода, традиционная лингвистика в 50-х годах не могла дать ответа.

А к середине 1960-х в США для практического использования были предоставлены две системы русско-английского перевода:

· MARK (в Департаменте иностранной техники ВВС США);

· GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).

Однако созданная для оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого качества машинно переведенных текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом ее выводы привели к росту пессимизма, снижению финансирования, часто к полному прекращению работ по этой тематике.

Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление мини- и персональных компьютеров, а с ними всё более сложных словарных, поисковых и т. п. систем, ориентированных на работу с естественноязыковыми данными. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъему этой области, наступившему примерно с середины 1970-х. В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.

Впрочем, мечты, с которыми род людской взялся полвека назад за задачу машинного перевода, в значительной мере остаются мечтами: высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода: по оценкам конца 1980-х, до пяти раз. В 1990 г. Ларри Чаилдс, специалист по машинному переводу, предложил следующую классификацию систем машинного перевода:

В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания Systran. В России большой вклад в развитие машинного перевода внесла группа под руководством профессора Пиотровского (Российский государственный педагогический университет им. Герцена, Санкт-Петербург).

Глава 3: Принципы работы систем машинного перевода

Извлечение информации из текста производится на основании набора атрибутов: морфологических, синтаксических, лексических, семантических и т.п. Атрибуты не указаны в тексте в явном виде, их нужно предварительно получить. Для этого производятся различные виды анализа текста с целью выделения атрибутов, используемых алгоритмом извлечения информации. Анализ, как правило, носит многоуровневый характер и выполняется модулем лингвистического процессора. Обычно выделяют следующие составляющие анализа текста:

— графематический анализ (выделение слов и предложений);

— построение модели предметной области (сценария или ситуации).

На каждом уровне фрагментам текста сопоставляются новые атрибуты. На основании таких наборов атрибутов алгоритм извлечения информации выполняет поиск фрагментов текста, релевантных цели. Естественно, не всегда нужно использовать все уровни текста в полном объеме. Все зависит от предметной области, информации, которую нужно извлечь, источников информации, а также точности и полноты, с которой эту информацию нужно извлекать. Например, разрешение анафоры и кореферентности являются очень сложными задачами, и даже их приближенное решение удается получить лишь в некоторых предметных областях с использованием знаний об этой конкретной предметной области. Не говоря уже об универсальном алгоритме. Поэтому эти шаги зачастую исключаются из числа этапов анализа текста.

Теперь следует рассмотреть каждый

1. Графематический анализ

— разделение входного текста на слова, разделители и т.д.

— сборка слов, написанных в разрядку;

— выделение устойчивых оборотов, не имеющих словоизменительных вариантов;

— выделение фамилии, имени и отчества, когда имя и отчество написаны инициалами;

— выделение электронных адресов и имен файлов;

— выделение предложений из входного текста;

— выделение абзацев, заголовков, примечаний.

2. Морфологический анализ

Алгоритмы морфологического анализа делятся на две группы: словарные и бессловарные. Бессловарные алгоритмы более компактны и производительны, но не обладают высокой скоростью, поэтому их применение целесообразно лишь для выявления простых морфологических атрибутов и только в том случае, если нет требования к высокой точности. Если же предполагается использовать синтаксический анализ, то высокая точность является необходимым требованием, и применяется словарный метод.

Еще несколько лет назад словосочетание «компьютерная морфология» было понятно только узкому кругу специалистов, сейчас морфология является неотъемлемой частью интеллектуальной поисковой машины. Вероятно, в ближайшем будущем та же участь постигнет и синтаксический анализ.

3. Синтаксический анализ

Целью синтаксического анализа является построение синтаксических групп на одном морфологическом варианте одной клаузы, т.е. одного простого предложения в составе сложного.

Чтобы разрешить проблему с анализом синтаксически омонимичных конструкций, необходимо построение дерева синтаксических зависимостей между словами во фразе. В случае удачного разбора предложение сворачивается в полносвязное дерево с единственной корневой вершиной.

Поскольку одна словоформа может соответствовать нескольким грамматическим формам слова, в том числе формам различных слов, в ходе анализа необходимо производить свертку предложения для всех возможных вариантов грамматических форм. Те грамматические формы, которые обеспечивают максимальную свертку дерева (минимальное число висячих вершин), следует считать наиболее достоверными [7].

4. Семантический анализ

Семантический анализ представляет собой выявление в тексте смысловых связей и групп. Этот тип анализа представляется в виде набора составляющих, направленных на выявление различных семантических связей.

Во-первых, это выделение именованных сущностей, объектов, которые имеют различную форму записи в тексте и могут принимать различные значения. Примерами именованных сущностей являются такие объекты как дата, физическое измерение, географическое название, название организации, имя персоны и т.п. В результате слову или группе слов приписывается атрибут, определяющий вид именованной сущности, и его в дальнейшем можно использовать для идентификации извлекаемой информации.

Второй полезной составляющей является механизм выявления семантических классов. К семантическому классу относится группа понятий, связанных с одной предметной областью и являющихся одной и той же частью речи. Например, семантический класс глаголов, связанных с производственной деятельностью человека.

Третий момент связан с расширением кореферентности в тексте. Под кореферентностью понимается ссылка разными словами на один и тот же объект действительности. Например, фраза «глава Российского государства» и «президент России» обозначает одно и то же лицо. Задача разрешения кореферентности сводится к автоматическому установлению референта для выражения (при наличии модели предметной области) или просто установлению кореферентной связи (признака того, что выражения ссылаются на одни и тот же объект) между выражениями.

5. Построение модели предметной области

Наиболее сложным, но и приносящим наиболее точные результаты этапом является построение модели ситуации или предметной области, которая описывается в тексте. Этот этап реализует представление в структурном виде, отражающем все значимые смысловые связи, всего текста или набора текстов. Но так как задача построения модели очень сложна, в прикладных системах редко прибегают к ее использованию [8].

Глава 4: Классификация систем машинного перевода

1.Задачи, которые решает система машинного перевода

Работа над программой, которая переводит с одного языка на другой, разбивается на три очевидные подзадачи:

· создать достаточно полный словарь или набор тематических словарей;

· научить систему распознавать не только слова, но и устойчивые обороты;

· формализовать правила перевода с учетом грамматики языков.

2.Как уже выше было сказано, с практической точки зрения, имея в виду качество результирующего текста и его соответствие исходному, программы машинного перевода подразделяют на три категории: полностью автоматический перевод, автоматизированный машинный перевод, выполняемый при участии человека, и перевод, осуществляемый человеком с использованием компьютера. Рассмотрим их более подробно.

2. Полностью автоматический перевод

Программы машинного перевода первой из названных категорий являются делом далекого будущего, поскольку в общем виде не решены проблемы автоматического понимания, перевода и синтеза текстов.

2. Автоматизированный машинный перевод, выполняемый при участии человека.

В системах на основе контролируемого языка реализован переход от свободного входного языка к контролируемому входному языку. Контроль входного языка предусматривает определённые ограничения лексики, грамматики, семантики. Контролируемый входной язык используется для упрощения выражений исходного текста, чтобы повысить качество перевода.

Также при работе с исходным текстом, необходимо учитывать ряд особенностей МТ-программ, что, по словам разработчиков программы Promt, «не решает всех проблем машинного перевода, но помогает отвоевать несколько очков в противостоянии компьютера и естественного языка»:

· машинный переводчик не умеет исправлять ошибки и распознавать неправильно написанные слова (здесь могут оказаться полезными специальные программы проверки орфографии);

· пропущенный или, наоборот, избыточный знак препинания может помешать электронному переводчику правильно понять синтаксическую структуру предложения;

· как правило, электронный переводчик не воспринимает слова с русской буквой ё, а также слова с ударениями.

· следует правильно расставлять знаки диакритики;

· следует обращать особое внимание на регистр букв: маленькая буква в слове вполне может стать большой (например, в начале предложения, в заголовке), и это учитывается при разработке систем машинного перевода; большая же буква, напротив, маленькой становится редко, причем в большинстве случаев это связано с образованием нового слова, например, при переходе собственного имени в разряд имен нарицательных.

Неприятные последствия может иметь тот факт, что некоторые аббревиатуры совпадают по написанию с часто используемыми словами. Например, «ПО» (программное обеспечение) пишется так же, как русский предлог «по» (регистр букв в данном случае не играет роли, так как ничто не запрещает нам написать предлог «по» большими буквами, например, в составе заголовка). Поэтому, увы, вполне закономерно выглядит перевод фразы «Я часто использую это ПО» как «I frequently use it ON.» С другой стороны, если написать «Я часто использую это программное обеспечение» мы получим в переводе «I frequently use this software.»

3. Перевод, осуществляемый человеком с использованием компьютера

12. Кузнецов П. С., Ляпунов А. А., Реформатский А. А. Основные проблемы машинного перевода. Вопросы языкознания, 1956, № 5.

Размещено на Allbest.ru

Подобные документы

Перевод и другие виды языкового посредничества, их виды, формы и жанры. Место машинного перевода в общей классификации, его краткая характеристика. Содержание проблемы переводимости при машинном переводе, направления и перспективы ее разрешения.

курсовая работа [42,2 K], добавлен 17.11.2014

Перевод — лингвистический процесс, межъязыковое преобразование или трансформация текста на одном языке в текст на другом языке; средство обеспечить возможность общения (коммуникации) между людьми, говорящими на разных языках. Коммуникативная лингвистика.

шпаргалка [54,3 K], добавлен 14.01.2009

дипломная работа [4,0 M], добавлен 23.06.2011

Изучение морфологических и синтаксических особенностей научно-технического стиля, в аспекте применения автоматизированных средств перевода. Анализ принципа работы и типов систем машинного перевода. Сравнение текстов, переведенных машиной и переводчиком.

дипломная работа [4,0 M], добавлен 20.06.2011

Психолингвистические и когнитивные проблемы перевода в России и стратегия для их решения. Процесс передачи содержания, выраженного на одном языке средствами другого. Широкое использование технических средств в процессе синхронного и устного перевода.

контрольная работа [26,5 K], добавлен 11.03.2014

Изучение особенностей антонимического перевода. Использование его на примере произведения С. Майер «Twilight», перевода художественного текста на русский язык с английского. Применение грамматических трансформаций, преобразование структуры предложения.

курсовая работа [33,5 K], добавлен 03.12.2014

Особенность звуковой передачи имен и названий на другом языке. Принципы перевода имен собственных путем транслитерации, транскрипции и транскрипции с элементами транслитерации. Анализ данных методов на примере перевода научной статьи Франсуа Грожана.

курсовая работа [47,0 K], добавлен 19.11.2014

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *