Что может гуглоперевод? Выясняем, в каких задачах от него есть польза переводчику

Содержание

Русско-английский перевод

Эксперимент №1. Бизнес-текст

В конце июля сего года в Питере был круглый стол, где обсуждалась довольно старая тема в духе, зачем нужен кожаный переводчик, если есть машинный перевод (МП). И вот на этом столе мой коллега Арсен Лазурский заставил посмотреть меня на это противостояние под новым (для меня) углом: «Сейчас нет конкуренции между МП и живым переводчиком. Есть конкуренция между переводчиком, который умеет использовать МП как инструмент, и переводчиком, который не умеет или не желает. Время покажет, кто выиграет, но как известно — ружо сильнее».

Эта мысль наложилась на другое наблюдение. Как вы уже заметили, я время от времени публикую удачные на мой взгляд переводческие решения из русско-английского перевода. Делаю я это так:

  • открываю перевод на русском,
  • открываю источник на английском,
  • прикидываю, как бы я перевел русский в обратную сторону, и если у меня получается неуклюжий вариант или я часто сталкиваюсь с неуклюжими вариантами в этих местах, то я забиваю его в гугл и смотрю, как справился бы он.
  • Затем вариант сравниваю с аутентичным, и если там решение поинтереснее — я его добавляю в подборку.

Так вот делая эту работу, я раз за разом обнаруживаю, что чем прямее и однозначнее пишет автор, тем сложнее мне находить интересные переводческие решения. Часто бывало такое, что у меня в голове формулировался неуклюжий вариант, а вот у гугла и у автора — очень даже приличные.

Я захотел проверить, насколько далеко гугл ушел от дословного перевода. Вдруг, если у предложения понятная грамматика и типовые термины, то может гугл сможет выдать перевод, который не потребует редактуры? Чем черт не шутит? Вот сегодня я это и проверил.

Отмечу сразу, что я еще буду проверять эту гипотезу на текстах разной сложности, но сегодня я решил заняться этим более основательно.

Взял наугад 1 страницу связного русского текста из книги Эрин Мейер «Карта культурных различий» (243 слова) — обычная бизнесовая книга, не художка — и загнал в гугл. Проанализировал его переводческие решения, потом нашел этот же отрывок в оригинале и сравнил.

Мне было интересно посмотреть, с чем Гугл справится, а на чем забуксует. Итак, вот вещи, с которыми на мой взгляд гуглопереводчик сейчас справляется не хуже (а где-то и лучше) среднестатистического кожаного русско-английского переводчика:

1. Артикли. В них гугл попадал без особых промахов, будь то идиома, или обычное нарицательное существительное.
2. Времена. По ним тоже вопросов нет, там где в оригинале был Present Perfect, гугл тоже давал Present Perfect, там где Present Simple — и у гугла было то же самое.
3. Порядок слов. Как минимум, внутри небольших кусков предложений, гугл вполне себе справляется с перестановками, например:

  • Но когда его спросили, хорошим или плохим собеседником будет считаться бизнесмен, часто изъясняющийся намеками, ответ не заставил себя ждать.
  • But when he was asked whether a businessman, often speaking in allusions, would be considered a good or bad interlocutor, the answer was not long in coming.

Или тут:

  • Хотя я многие годы жила и работала за пределами США, моим естественным стилем остается низкоконтекстная коммуникация.
  • Although I have lived and worked outside of the US for many years, low-context communication remains my natural style.

4. Почти нет лобового перевода, например, тут нет «представителей»:

  • представители низкоконтекстной культуры
  • low-context cultures

Или тут (нет «вещей»):

  • повторяют очевидные вещи
  • are repeating the obvious

5. Неплохо попадает в идиомы и устойчивые выражения (там вечная боль с предлогами):

  • In one of my classes, …
  • … the answer was not long in coming
  • On the other hand, …

6. Часто выдает вариант лаконичнее автора (гугл VS автор):

  • sometimes VS in other situations
  • Your position on the scale depends on the answer to this question. VS The way you answer this question suggests where you fall on the scale.
  • impenetrable VS lacking transparency
  • This is where we differ from the French VS That’s the difference between us and the French

7. Часто выдает вариант очень похожий на авторский, различий 10-20%. Есть ощущение, что Гугл как бы видит в своих хранилищах авторский вариант и там, где можно сказать компактнее, как может — переделывает, например:

  • ГУГЛ: Lou Edmondson, American vice president of sales for Kraft, who travels the world to negotiate with suppliers from Asia and Eastern Europe, put it bluntly: “I have always believed that people say what they think and think what they say. , and if they are not, then they are lying.”
  • АВТОР: Lou Edmondson, an American vice president for sales at Kraft who travels around the world negotiating deals with suppliers in Asia and Eastern Europe, put it starkly: “I have always believed that people say what they mean and mean what they say—and if they don’t, well, then, they are lying.”

Или вот:

  • ГУГЛ: On the other hand, if you belong to a high-context culture, you may find that low-context cultures are inappropriately repeating the obvious (“You don’t have to say that! We already figured it out!”) or even behaving condescendingly and patronizingly (“You talk to us like we’re children!»).
  • АВТОР: «On the other hand, if you’re from a high-context culture, you might perceive a low-context communicator as inappropriately stating the obvious (“You didn’t have to say it! We all understood!”), or even as condescending and patronizing (“You talk to us like we are children!”). «

Или вот:

  • ГУГЛ: Although I have lived and worked outside of the US for many years, low-context communication remains my natural style.
  • АВТОР: Although I have lived and worked outside the United States for many years, low-context communication is still my natural style.

=======

Теперь о том, где гугл промахнулся:

  • Иногда у Гугла появляется странная пунктуация. Такое ощущение, что сканируя интернеты, он в хранилище затаскивает предложение целиком, а потом подставляет, в итоге появляются странные знаки препинания — обратите внимание на предложение выше, с Лу Эдмондсом — видите кусок «… say. , and…»? Зачем там точка и запятая вместе?
  • Думаю, с этим же связана и странная грамматика местами — смотрите того же Лу Эдмонса: «people think what they say, and if they ARE not» … Откуда там ARE? Должно быть DO, если я что-то понимаю в инглише.
  • Также гугл непоследовательно использует термины для одного и того же слова: в одном месте у него собеседник — conversationalist, в другом — interlocutor.
  • Проскакивают формулировки, которые плохо гуглятся, например: «express in hints» (изъясняться намеками).

********
Подытожу.

Пока сложилось ощущение, что гугл может быть полезен для следующих задач:

  • получить скелет предложения;
  • получить гипотезы для поиска слов в тезаурусе;
  • получить рабочие варианты для предложений с прямым порядком слов и без переносных смыслов.

Эксперимент №2. Учебный медицинский текст

Я решил продолжить свои изыскания в области полезности или бесполезности русско-английского гуглоперевода, и на этот раз немного поднял планку — взял средней сложности медицинский текст.

Алгоритм примерно как и в прошлый раз:
1. Беру русский текст (который по сути является переводом с оригинального английского).
2. Получаю и анализирую русско-английский гуглоперевод на предмет правок, которые мне хочется сделать.
3. Анализирую гуглоперевод и оригинальный английский текст, выявляю, у кого какие варианты удачнее.

 

Итак.

А. ПЛЮСЫ.

1. Довольно хорошее попадание в термины и сокращения, например:

  • 15 мм рт. ст. > 15 mm Hg;
  • АД > blood pressure;
  • эссенциальная артериальная гипертензия > essential arterial hypertension;
  • гипотензивная реакция > hypotensive response (а не, например, reaction);
  • Объединенный национальный комитет > Joint National Committee ;
  • циркулирующий норадреналин > circulating norepinephrine;
  • предтренировочный уровень > pre-exercise level;
  • сердечный индекс > cardiac index;
  • целевые показатели АД > BP targets;
  • контрольно-надзорная группа > review group.

 

2. Хорошее попадание в частотные/лаконичные/сочетаемые формулировки:

  • reduce blood pressure;
  • decrease in blood pressure (вариант с of встречается в 10 раз реже);
  • have been heavily criticized (в оригинале менее частотное have been subjected to intense criticism);
  • led to patient confusion (в оригинале resulted in confusion for patients) и т.д.

3. Из 12 предложений гугл:

  • в 2 предложениях оказался короче английского оригинала;
  • в 3 случаях оказался на 10-20% длиннее оригинала;
  • в остальных 7 случаях — аутентичный английский и гуглоперевод получились более или менее одинаковыми по длине (+/- 1 слово).

Б. МИНУСЫ

При редактуре я бы учитывал такие изъяны:

  • неоднородность терминов:
    • тренировка: то exercise, то training;
    • артериальное давление: то BP, то arterial pressure, то blood pressure;
    • руководство: то guideline, то guide.
  • некорректный перевод некоторых терминов:
    • ст. > Art (видимо, предположил, что там статья = article, хотя там было «мм рт. ст.»);
    • 2 степень гипертензии > grade 2 hypertension (по рекомендациям должно быть stage 2 hypertension).
  • изъяны стиля и грамматики:
    • Just as adherence to a training program improves the hypotensive response, detraining is accompanied by an increase in blood pressure to pre-exercise levels. (непараллельность структуры: если в одной части предложения активный залог, то и в соседней тоже лучше звучит активный залог)
    • Currently, normal blood pressure is considered to be BP < 120 and 80 mm Hg. (зачем-то написано два раза blood pressure/BP, при том, что в других местах гугл такие повторы с аббревиатурами убирал).
    • The former threshold value of 140 and 90 mm Hg. now regarded as grade 2 hypertension. (куда-то пропало ‘is’ > is regarded).
  • иногда неудачный или менее удачный чем в оригинале выбор слов (гугл VS оригинал):
    • introduction of training into a habit > maintaining a habitual exercise;
    • have been under constant review > have undergone revisions;
    • introduction of training into a habit > maintaining a habitual exercise.

ВЫВОДЫ:

Редактура получившегося перевода имеет коммерческий смысл (т.е. затраты времени будут ниже, чем если бы я переводил текст заново). Это особенно актуально на сверхсрочных заказах.

Это значит, что на таких текстах возможно имеет смысл пользоваться этим инструментом для проверки гипотез по конструкции элементов (а где-то и целых) предложений примерно так же, как мы пользуемся гуглопоиском и мультитраном при проверке гипотез по терминам и частотности.

Эксперимент №3. Сложный медицинский текст (описание хирургической операции)

Продолжаю описывать свои эксперименты с русско-английским медицинским переводом с использованием гугла.

Я взял два отрывка:

  1. Е. Браунвальд «Болезни сердца», 4-й том; 
  2. Г. Одерич «Эндоваскулярное лечение аорты».

Первым пошел на эксперимент Е. Браунвальд, и гугл его как-то настолько легко расщелкнул, что я решил, что Гугл опять подсмотрел где-то у себя в загашниках оригинал и перевод.

Поэтому вторым я скормил гуглу Г. Одерича, отрывок с описанием операции по переключению некоторых артерий аортальной дуги на брахиоцефальный (плечеголовной) ствол. Объем 302 слова.

Оригинал у Гугла безусловно где-то есть, но перевода скорее всего еще нет, мы его только в издательство сдавали, в публичный доступ не выкладывали — низзя.

 

Итак, результаты наблюдения такие:

1. Грамматика и правописание.

Про это я уже писал в прошлых экспериментах — с грамматикой и орфографией у гугла все хорошо. Пропускаем.

2. Смысл.

Смысл гугл передал нормально, но в в двух местах смысл уплыл (гугл VS авторский текст):

  • connection of the common carotid artery VS translocation of the left common carotid

Дело в том, что по тексту подразумевается именно переключение/перенос артерии — т.е. отсоединение ее от аортальной дуги и вшивание в плечеголовную артерию.

  • bypass from the internal thoracic aorta. into the coronary artery VS patent left internal mammary to coronary artery graft

В оригинале этот кусок звучал как «с шунтом из внутренней грудной в коронарную артерию»
Здесь вообще непонятно, откуда взялась аорта.

В остальных местах со смыслом гугл вроде справился.

3. Термины.

По терминам у гугла с авторами ситуация в целом терпимая. Да, где-то гугл «конструирует» термины, где-то «знает» их лучше авторов, чаще первое, но даже выдуманные термины в целом понятны, специалист их сможет поправить без опоры на оригинал.

Смотрите соотношение сами.

Самопальные термины гугла VS авторские:

  • switching branches VS debranching
  • distal department VS distal arch
  • endoprosthesis fixation zone VS landing zone
  • brachiocephalic trunk VS innominate artery (гугловский тоже используется, но авторский — чаще)
  • scope of the reconstruction VS extent of reconstruction (тут даже немного смысл не тот у гугла прослеживается, но в смысловые ошибки записывать не стал, хирург поймет, что под скоупом имеется в виду)
  • ischemic stroke in the vertebrobasilar basin VS vertebrobasilar ischemia
  • Society of Vascular Surgeons VS Society for Vascular Surgery (я удивлен, что гугл с сообществом не справился, вроде много где говорится)
  • underdeveloped left vertebral artery VS termination of the left vertebral artery (здесь тоже на грани смысловой ошибки, но вариант гугла все же ищется плохо)
  • traditional revascularization VS routine revascularization (гугловский вариант живой, но серьезно проигрывает по частотности)

 

Неудачные или самопальные авторские термины VS исправленные гуглом:

  • distal arch distal VS aortic arch
  • cervical based extraanatomical bypass VS extra-anatomical bypass in the neck
  • in proximity to the subclavian origin VS near the origin of the subclavian artery

Выводы

При такой динамике развития машинного перевода перспективы для русско-английских медицинских переводчиков выглядят намного менее радужно, чем для редакторов!даже на сложных текстах (по крайней мере по кардиологии)! — перевод получается сопоставимого качества, но по прежнему требует редактирования, в т.ч. и с сопоставлением оригинала.

Есть смысл переучиваться на редакторов, а мне, соответственно, есть смысл делиться на курсах не только переводческим, но и редакторским опытом.

Буду думать как.

Эксперимент №4. ИТ-текст средней сложности (описание СУБД)

На этот раз работаю с русско-английским переводом учебного ИТ-текста (т.е. средней сложности).

Алгоритм тот же: взял страницу (257 слов) из переведенной айтишной книги (Мартин Клеппман, «Высоконагруженные приложения»), перевел гуглом, сравнил с исходным текстом.

Делюсь наблюдениями.

1. Проблемы с правописанием (грамматикой или орфографией).

Не обнаружено.

2. Проблемы со стилем.

  • A database whose transactions are waiting for user input (немного странно видеть whose по отношению к бездушной базе данных).

Дословного подхода чисто по ощущениям с прошлыми экспериментами стало меньше, но все равно он сказывается на длине формулировок (гугл > авторский английский):

  • try to reduce transaction times by > keep transactions short
  • waiting for a user’s response > waiting for a user
  • For web technologies, … > On the web, …
  • committed in the same HTTP request that opened them > committed within the same HTTP request
  • mode of transaction execution > style of transaction
  • several transactions at the same time > multiple transactions concurrently

В целом пониманию смысла это не мешает.

3. Проблемы с терминами и смыслом

Но есть и грубые смысловые и терминологические косяки, которые вынуждают обращаться к оригиналу.

1.

Контекст: … все OLTP-приложения стараются сократить длительность транзакций за счет отказа от интерактивного ожидания ответа пользователя внутри транзакции. Несмотря на исключение людей из этого критического маршрута, транзакции продолжали выполняться в интерактивном режиме «клиент/сервер», по одному оператору за раз.

Гугл: Despite the exclusion of humans from this critical route, transactions continued to be executed in an interactive client/server fashion, one statement at a time.

Автор: Even though the human has been taken out of the critical path, transactions have continued to be executed in an interactive client/server style, one statement at a time.

Все-таки route в ИТ-контексте это про сетевую маршрутизацию, а тут имеется в виду, что человека (пользователя) исключили из схемы (и все равно обработка запросов осталась очень прожорлива по ресурсам).

2.

Контекст: Приложение выполняет запрос, читает результат, возможно, выполняет еще один запрос в зависимости от результата первого и т. д.

Гугл: The application executes a query, reads the result, possibly executes another query depending on the result of the first one, etc.

Здесь косяк в двусмысленности. Приложение «выполняет запрос» в том смысле, что приложение его формулирует и отправляет на сервер базы данных, и вот он уже исполняет его (executes/processes). В общем всё с точностью до наоборот.

3.

Контекст: Пропускная способность в случае отключения конкурентного доступа в БД и обработки одной транзакции за раз оказалась бы ужасной, поскольку база тратила бы большую часть времени на ожидание генерации приложением следующего запроса для текущей транзакции.

Гугл: The throughput of disabling concurrency in the database and processing one transaction at a time would be terrible, since the database would spend most of the time waiting for the application to generate the next request for the current transaction.

  1. Здесь гугл вообще куда-то не туда понесло, т.к. у него в итоге получилось что-то типа «пропускная способность отключенного доступа» — а это бред.
  2. generate чаще используется с формированием кода или запроса массово, без участия человека. У нас же предполагается, что запросы идут штучно, скорее всего инициируются человеком, поэтому generate сюда не очень лезет, а вот issue или build лезет лучше (в оригинале issue).

4.

Контекст: Чтобы достичь приемлемой производительности в подобных базах данных, необходимо обрабатывать несколько транзакций одновременно.

Гугл: To achieve acceptable performance in such databases, it is necessary to process several transactions at the same time.

Such databases — воспринимается двусмысленно, то ли такие базы данных, то ли такие типы баз данных.
В нашем случае речь о типах БД, но из-за двусмысленности придется лезть в оригинал.

5.

Контекст: .. в системах с однопоточным последовательным выполнением транзакций интерактивные многооператорные транзакции запрещены.

Гугл: … in systems with single-threaded sequential execution of transactions, interactive multi-statement transactions are prohibited.

Под запретом здесь имеется в виду техническая невозможность, а не запрет в обычном понимании. Следовательно, prohibit вводит в заблуждение. В авторском тексте используется формулировка systems don’t allow multi-statement transactions.

6.

Контекст: … в системах с однопоточным последовательным выполнением транзакций интерактивные многооператорные транзакции запрещены. Вместо них приложение заранее отправляет весь код транзакции в базу данных в виде хранимой процедуры.

Гугл: … the application sends all transaction code to the database in advance as a stored procedure.

Этот перевод противоречит логике предыдущего предложения, где говорится, что по кусочкам запросы не выполняются, только целиком (о том, что запрос идет единым куском нам также говорит понятие «хранимой процедуры» — заданный алгоритм, по которому вызываются сразу несколько методов БД). Глагол send же предполагает продолжительную, многоэтапную пересылку. Для одноэтапной отправки запроса используется глагол submit, а во избежание недоразумений — «весь код» лучше подать как entire code. Без этих правок получается каша.

7.

Контекст: Хранимая процедура выполняется очень быстро при условии, что все необходимые транзакции данные находятся в оперативной памяти

Гугл: A stored procedure is very fast, provided that all necessary data transactions are in RAM

  1. Data transactions — это все считывается как «транзакции данных», а нам нужны «данные, необходимые для транзакции». Получилась ерунда какая-то.
  2. Вторая ошибка — это in RAM. Дело в том, что in RAM обычно используется в отношении железа, локального компьютера. У нас же речь о сервере, о реализации которого мы можем только догадываться, и более употребимый термин в сочетании с базами данных будет in memory. Этот косяк тоже вынуждает лезть в оригинал.

ИТОГО

Таким образом, на 14 предложений получилось 9(!) логических и смысловых ошибок.

Из этого можно сделать вывод, что как инструмент для чернового русско-английского ИТ перевода средней сложности его использовать можно, т.к. с грамматикой, орфографией, и во многих случаях с терминологией он справляется неплохо, но нужно четко бдить за тем, сходится ли в его переводе смысл и логика.

 

P.S. 

По ходу дополнительной проверки окончательно укрепился в мысли, что гугл спотыкается там, где в исходном тексте неуклюже сформулирована мысль. Итак смотрим фразу из книги:

«В главе 2 сравним несколько моделей данных и языков запросов и рассмотрим, какие из них подходят для различных ситуаций».

О чем на самом деле говорится в исходном тексте? Вдумчивый читатель поймет, что мы будем сравнивать модели и рассмотрим, какие модели для каких ситуаций подходят.
Но гугл переводит в лоб, поэтому он видит текст иначе: «какие модели подойдут для различных ситуаций».

Иными словами, мы увидели смысл про «конкретные модели для конкретных ситуаций», а гугл увидит смысл про «универсальные модели для многих ситуаций».

Гипотеза в общем-то подтвердилась, вот вариант гугла:

In Chapter 2, we’ll compare several data models and query languages and see which ones are appropriate for different situations.

Вот, кстати, вариант автора-нейтива:

In Chapter 2 we compare several different data models and query languages, and see how they are appropriate to different situations.

P. P. S. 

И еще пример кривой исходной формулировки: 

«Перечень в конце каждой из глав — замечательный источник информации на случай, если вы захотите изучить какой-либо из вопросов подробнее, причем большая часть их есть в свободном доступе в Интернете».

К чему относится «их»?
Налицо изъян исходного текста. Но кожаный переводчик, логически рассудив, поймет, что речь идет о материалах, список которых приводится в конце главы; а Гугл или другой машинный переводчик — нет (любое подходящее по смыслу местоимение вместо их его, ее —  Гугл переводит как it)

Обсуждая с коллегами в нашем телеграм-чате логику гуглопереводчика, я вспомнил один случай. Знакомый был как-то на экскурсии в школе для умственно отсталых детей, присутствовал на уроке труда (для мальчиков), наблюдал ситуацию.

К ученику такому подходит трудовик и говорит: «Для того, чтобы расчертить детальку, надо вести карандашом по линейке».
Ребенок берет карандаш и прямо поверх самой линейки чертит линию, после этого вопросительно смотрит на учителя — «Так?»
Ну и кто скажет, что он неправильно понял?

Вот и с гуглопереводчиком так же.