+7 (700) 521-36-15
статистические алгоритмы

статистические алгоритмы кластеризации

Поделиться "Шпаргалка про статистические ошибки и точность алгоритмов." Facebook.

Анатолий Старостин
Руководитель группы семантического анализа компании ABBYY
— Лекция, которую вы будете читать на фестивале, называется «Искусство перевода в эпоху Google Translate». Не могу не спросить: в чем заключается это искусство?
— Искусство перевода заключается в том же, что и до появления статистических машинных переводчиков. Перевод как искусство был и остается серьезнейшей интеллектуальной и творческой задачей — периодически мы встречаем произведения, которые в переводах интереснее, лучшее, глубже оригиналов. Однако, сегодня уже можно говорить о том, как цифровая эпоха в целом помогает переводчикам. Сейчас переводчик может в любой момент получить доступ к огромному количеству информации, языковых ресурсов, контекстов, и здесь простая возможность эффективного поиска информации в интернете оказывается гораздо важнее статистического машинного перевода. Именно развитие информационного поиска коренным образом изменило мир и повлияло на работу переводчиков. Конечно, в сети представлена информация самого разного качества и глубины (взять, к примеру, Википедию — масштаб огромен, а качество среднее). Но профессиональные переводчики, я уверен, часто имеют доступ, например, к хорошим цифровым библиотекам. В России с этим чуть сложнее, а, например, во всех западных университетах есть огромные библиотеки — там все уже оцифровано или активно цифруется. Доступ к материалам сейчас очень налаженный, и он явно быстрее, чем был в предыдущую эпоху.
Сам же статистический машинный перевод можно воспринимать как инструмент, ускоряющий переводческую работу, но подозреваю, что профессиональные переводчики не всегда прибегают к его услугам, потому что часто приходится тратить слишком много времени на последующее редактирование текста. Если ты знаешь язык, и тем более, если цель не просто сделать подстрочник, а настоящий текст — часто быстрее написать его самому с нуля.
Кстати, заметил недавно, что фейсбук в себя встроил статистический переводчик (в экспериментальном режиме). Если кто-то из друзей написал тебе на незнакомом языке, ты можешь нажать кнопку и комментарий сразу переведется. Качество перевода не очень, но зато встроено прямо в фейсбук.
— В области машинного перевода за последние годы в чем случился прорыв и что остается по-прежнему недостижимым?
— Давайте поймем, что такое «за последние годы». Если за последние два года — то никакого особенного прорыва и нет. Если мы говорим про последние двадцать лет, то прорыв существенный. Во-первых, люди довели до ума алгоритмы статистического машинного перевода. С помощью этих алгоритмов удается обрабатывать огромные корпуса параллельных текстов (корпуса, содержащие предложения на одном языке и их правильные «человеческие» переводы на другой язык) и строить на их основании вероятностные кросс-язычные модели, с помощью которых удается для новых текстов (не вошедших в исходный корпус) «угадывать», как мог бы выглядеть перевод. Статистических «переводчиков» создано много, алгоритмы опубликованы. Каждый их, конечно, «допиливает» и «докручивает» по-своему. Именно благодаря развитию этих алгоритмов появились доступные людям машинные переводчики.

2.6 Статистические алгоритмы. 2.6.1 Анализ N-грамм. 2.6.2 Стемминг на основе корпуса текстов.

Вторая причина их появления — это постоянно растущий объем текстовых данных. За счет больших баз параллельных текстов в интернете (кстати, отличный ресурс параллельных текстов — это Википедия, где одна и та же статья существует на разных языках) качество статистического машинного перевода оказалось приемлемым, и машинные переводчики стали достоянием людей. Конечно, это не работает в случае редких языков, потому что если у вас есть тексты на редком языке, но мало переводов на другие языки, то статистическую машину практически невозможно обучить. Интересно то, что и эту проблему можно обходить, и перевод может делаться через другой язык. Например, если нет хорошей накопленной базы параллельных текстов для пары хорватский — испанский, но при этом есть довольно много хорватско-английских и испано-английских примеров, можно сначала переводить с хорватского на английский, а потом с английского на испанский. Потери в качестве при таком подходе, естественно, будут больше обычного.
Человеческий язык — это такой преобразователь смыслов в тексты и обратно, и в процессе этого преобразования мы встречаемся с неоднозначностью, причем в обе стороны.
Про умный, или аналитический, лингвистический перевод — в противовес статистическому — я могу рассказать на примере компании ABBYY. Именно в последние годы удалось добиться результатов в масштабнейшем проекте, в рамках которого большое количество лингвистов и программистов трудились вместе над огромным многоуровневым лингвистическим описанием двух языков — русского и английского. Изначально это делалось как раз для решения задачи машинного перевода, но ближе к концу разработки стало ясно, что созданное описание может быть использовано для решения большего круга задач в области автоматической обработки текстов. Настолько большего, что машинный перевод даже отошел на второй план. Теперь мы в ABBYY говорим о большой многофункциональной лингвистической технологии, которая получила название Compreno. Сердцем упомянутого лингвистического описания является так называемое универсальное дерево понятий или универсальная семантическая иерархия. Все слова двух языков (в данный момент, кстати, уже идет работа над третьим) являются листьями на этом дереве, а информация о синтаксической и семантической сочетаемости «размазана» по дереву — что-то задается для целых ветвей, а что-то для конкретных листьев (слов). Это очень сложная модель, для создания которой понадобилась вся современная лингвистическая наука. Можно сказать, что перевод производится через метапредставление: текст на исходном языке конвертируется в метапредставление, а затем синтезируется на другом языке. И это действительно работает — пока работает неидеально, потому что человек все равно умнее, глубже и тоньше, чем машина. Интересно, что потребовалось как раз таки подключить статитистические методы и начать оценивать вероятность встречаемости различных элементов лингвистического описания в текстовых корпусах. После этого система начала хорошо работать.

i =,m j =,n ∑ aij p( Θ j ) . (6) Параллельные алгоритмы решения статистических игр Опишем параллельные алгоритмы реше ния статистических игр

— С какими фундаментальными проблемами сталкивается машинный перевод?
— Проблем, грубо говоря, три, и они все связаны с устройством человеческого языка. Человеческий язык — это такой преобразователь смыслов в тексты и обратно, и в процессе этого преобразования мы встречаемся с неоднозначностью, причем в обе стороны. Почему так вышло? Считается, что причина в эволюционной природе языка: в процессе эволюции в языке возникало много неоднозначности, но носителям языка она не очень мешала, потому что им всегда удавалось с ней справляться за счет обращения к контексту. Язык принципиально контекстно-зависим. Мы говорим в контексте и слышим в контексте, и хорошо умеем использовать контекст для снятия неоднозначности.
Раз мы говорим про перевод, мы должны упомянуть два вида неоднозначности в языке: с одной стороны, это омонимия, с другой — синонимия. Омонимия — это когда мы разные вещи обозначаем одним и тем же языковым выражением (не обязательно на уровне слов, иногда и на уровне целых фраз). Синонимия — это когда мы один и тот же смысл выражаем разными языковыми выражениями. Любой переводчик знает об этих проблемах: в процессе перевода ему сначала нужно просто понять, что имелось в виду. В этот момент он разрешает омонимию. Это обычно не очень сложно, если ты хорошо знаешь язык. А вот в момент синтеза, создания текста на языке, на который переводишь, особенно если это не родной язык, тебе часто приходится хорошо подумать, о том, какое именно в данном конкретном случае надо подобрать слово, чтобы это было правильно. Т.е. синонимия и омонимия окружают нас со всех сторон, и для методов автоматической обработки это очень серьезная проблема, потому что мы в любой момент должны рассматривать альтернативы. Мы видим слово «лук» и должны понять — это лук, который растет на грядке, или это лук, из которого стреляют? Пример синонимии: например, как из пары «смелый — храбрый» выбрать то слово, которое лучше подойдет в данном конкретном случае?
А некоторые слова вовсе не сочетаются друг с другом: мы говорим «проливной дождь», «сильный дождь», «сильный ливень», а «проливной ливень» — не говорим. В общем, проблема выбора альтернатив при анализе и при синтезе очень существенна.
Еще одна большая проблема — это эллипсис, т.е. пропущенные слова. Естественный язык допускает пропуск слов. Так, например, в русском языке мы регулярно пропускаем какие-то местоимения. «Ты любишь музыку? — Люблю». Во фразе «Люблю» пропущено и «я», и «музыку», но они подразумеваются, и мы их спокойно восстанавливаем. А если перевести эту фразу на английский: «Do you like music? — Yes, I do». Там будет местоимение «I», субъект не опускается в данном случае, а «музыка» пропустится. Эти пропущенные элементы как раз очень неприятны для статистического перевода. Машина не понимает, откуда и как их восстанавливать, и это всегда сложно. А для перевода через метаязык они могут неплохо быть восстановлены, если алгоритмы достаточно умны для этого. Но главное, что эллипсис — это же тоже абсолютно контекстная вещь. Также как омонимия разрешается за счет контекста, так и эллипсис восстанавливается за счет контекста. Т.е. чем больше контекста машина может понять и применить, тем лучше она будет работать. Если она видит только соседние слова — она будет ошибаться. Если она понимает предложение целиком — она будет ошибаться меньше. Если она понимает текст целиком — она будет ошибаться еще меньше. Если она понимает текст в контексте того мира, в котором этот текст был создан, то она наверное не будет ошибаться вообще, но таких систем пока еще не создано.
— Есть ли задачи на этом поприще, которые вы бы хотели решать?
— Я лично не занимаюсь машинным переводом. Я занимаюсь отдельной задачей — извлечением информации из текстов. Она в каком-то смысле близка к переводу, потому что перевод — это тоже извлечение информации, но немного другой акцент. В тех задачах, которые я решаю в 

Скачать книгу здесь Автор: Горский Л.К. Название: Статистические алгоритмы исследования надежности Год издания: 1970 УДК: 621 Число страниц


Данная информация обрабатывается программой, использующей статистические алгоритмы, чаще всего алгоритм скрытых цепей Маркова [Linda Van Guilder, 1995]

1.7. Основные результаты и выводы 53. Глава П. Статистические алгоритмы прослеживания и классифи кации 55.


Ключевые слова: кодирование, статистическими, алгоритм, указатель, килобайт, байт, буфер, декодирование, поиск, длина, ASCII, бит, подстрока, LZW, инициализация


Исследовательский анализ данных Statistics Toolbox имеет множество способов для исследования данных: статистические гра­ фики, алгоритмы для кластерного

Достаточно подробно описано, спасибо. Странно, что вы нигде в статье не использовали название алгоритма — «Порядковая статистика». 6 марта 2011


Словарные и словарно-статистические алгоритмы сжатия. Дата добавления: 2014-02-12; просмотров: 4; Опубликованный материал нарушает авторские права


Управляемые статистические генетические алгоритмы. Статья опубликована в выпуске журнала № 4 за 2008 год.[

Во-первых, люди довели до ума алгоритмы статистического машинного перевода.  Статистических «переводчиков» создано много, алгоритмы опубликованы. 7 ноября 2014


Графовые алгоритмы кластеризации 5. Иерархический подход 6. Другие методы: a. Статистические алгоритмы кластеризации b. Ансамбль кластеризаторов c


Нейросетевые и непараметрические статистические алгоритмы в задаче обнаружения сигналов © 2006 А. Е

Дизамбигуация в текстах на английском языке Методы: Как правило, статистические алгоритмы на основе марковских моделей Точность: ~96%.