Что такое тест Тьюринга и почему его так сложно пройти? | Вечные вопросы | Вопрос-Ответ
Впервые в истории компьютерной программе удалось пройти тест Тьюринга на «человечность» и убедить 33 % судей в том, что с ними общается не машина. Программа «Eugene Goostman» («Евгений Густман»), выдающая себя за тринадцатилетнего мальчика по имени Евгений Густман из Одессы, смогла убедить беседовавших с ней людей в том, что выдаваемые ею ответы принадлежат человеку.
Тест проходил в Лондонском королевском обществе, его проведение организовал Университет Рединга, Великобритания. Авторами программы являются российский инженер Владимир Веселов, проживающий в настоящее время в США, и украинец Евгений Демченко, который живёт сейчас в России.
Что такое тест Тьюринга?
Могут ли машины думать? В 1950 году английский математик Алан Тьюринг предложил тест, который позволил бы оценить уровень искусственного интеллекта относительно человеческого. Он был опубликован в философском журнале «Mind».
Идея проверки предполагала общение человека с другим человеком и с компьютерной программой в течение пяти минут, только в текстовом режиме. Если компьютер сможет обмануть как минимум 30 % собеседников, тест считается пройденным. Эксперты общаются одновременно с живым человеком и роботом, находясь в разных комнатах и не видя друг друга. По окончании теста каждый из них должен сказать, кто из двух его собеседников был человеком, а кто — программой.
Как «Евгений Густман» прошёл тест Тьюринга?
В субботу 7 июня 2014 года суперкомпьютер по имени Eugene попытался воссоздать интеллект тринадцатилетнего подростка — Евгения Густмана.
В тестировании, организованном Школой системной инженерии при Университете Рединга (Великобритания), участвовали пять суперкомпьютеров. Испытание представляло собой серию пятиминутных письменных диалогов.
Разработчикам программы удалось подготовить бота ко всем возможным вопросам и даже обучить его собирать примеры диалогов через Twitter. Кроме того, инженеры наделили героя ярким характером. Притворяясь 13-летним мальчиком, виртуальный «Евгений Густман» не вызывал сомнений у экспертов. Они поверили в то, что мальчик может не знать ответы на многие вопросы, ведь уровень знаний у среднего ребёнка существенно ниже, чем у взрослых. При этом его правильные и точные ответы списывали на необычную эрудицию и начитанность.
В тесте участвовали 25 «скрытых» людей и 5 чат-ботов. Каждый из 30-ти судей провёл по пять чат-сессий, пытаясь определить реальную природу собеседника. Для сравнения, в традиционном ежегодном конкурсе программ искусственного интеллекта на премию Лёбнера* участвует всего 4 программы и 4 скрытых человека.
Впервые программа с «юным одесситом» появилась ещё в 2001 году. Однако лишь в 2012 году она показала действительно серьёзный результат, убедив 29 % судей.
* Премия Лёбнера (англ. Loebner prize) — премия, присуждаемая победителю ежегодного конкурса «AI Loebner» (проводится с 1990 г.), в котором соревнуются программы в прохождении теста Тьюринга. Самой «человечной» программе вручается премия в $2000.
Смотрите также:
aif.ru
Тест Тьюринга — суть, вопросы и недостатки
Способны ли роботы мыслить? Какой искусственный интеллект стоит признать разумным? Может показаться, что эти вопросы стали актуальны только в нашем веке, тогда как на самом деле научное сообщество решает их уже очень давно. Яркий пример – знаменитый тест Тьюринга, разработанный еще в 1950 году.
Алан Мэтисон Тьюринг (Alan Mathison Turing, 1912–1954) – известный английский математик, специалист в области математической логики, информатики и криптографии. Среди его многочисленных достижений отметим то, что в 1936 году он представил проект вычислительной машины, впоследствии ставшей прообразом компьютеров (машина Тьюринга). Кроме того, он создал алгоритм, расшифровывающий сообщения «невзламываемой» криптографической машины «Энигма», которая использовалась нацистами для передачи сообщений.
Тест Тьюринга: общее описание
За почти 70 лет со времен первой публикации процедура прохождения претерпевала изменения, однако суть теста Тьюринга остается прежней. Кратко ее можно выразить следующим образом: если, общаясь с человеком и машиной, экспериментатор не сможет определить, кто из них кто, значит, машиной тест пройден. Иными словами, идея теста заключается в том, что компьютер своими ответами должен убедить собеседника (он же судья) в своей человечности. По мнению Тьюринга, это свидетельствует о способности искусственного интеллекта мыслить и должно стать основанием для признания его разумности.
Тест Алана Тьюринга является эмпирическим. Это значит, что он основан на опыте, наблюдениях, данных, полученных опытным путем. Идея данного теста возникла из салонной игры (игры для вечеринок того времени) – Imitation Game (Игра в имитацию). В ней участвовали как минимум три человека: женщина, мужчина и «судья» (любого пола). Мужчина и женщина уходили в разные комнаты и оттуда передавали третьему игроку записочки. По ним нужно было определить, в какой комнате представитель какого пола находится. При этом они старались запутать «судью»: женщина могла выдавать себя за мужчину и наоборот.
Конечно, чтобы тест состоялся, судья не должен видеть собеседника, слышать его голос и т.д. В противном случае эксперимент явно будет провален, но это не будет связано с интеллектуальными возможностями машины. Как правило, формой общения выбирается электронная переписка. В изначальной версии теста человек общался с двумя субъектами – другим человеком и машиной. Чуть позже Тьюринг видоизменил прохождение – перед ИИ ставилась задача убедить в своей разумности ряд судей, которые, в свою очередь, общались с несколькими людьми и несколькими машинами. Это в том числе позволяет избежать субъективности в оценках и снизить риск простого угадывания. Количество подопытных машин и людей в современных версиях теста разнится, как и время их общения.
Судья может говорить со своими виртуальными собеседниками о чем пожелает: вопросы теста Тьюринга не имеют ограничений. Для машины это представляет дополнительную сложность. Чтобы выполнить такое задание, компьютерная программа должна не просто понимать человеческий язык, но и давать естественные ответы по самым разным темам, отделяя важную информацию от несущественной для того или иного направления беседы.
Впервые тест был описан Тьюрингом в статье Computing Machinery and Intelligence, опубликованной в философском журнале Mind.
Ответы от собеседника судье приходят через заданные промежутки времени, чтобы по скорости их появления нельзя было сделать никаких выводов. Интересно, что раньше недостатки программного обеспечения приводили к тому, что машины реагировали медленнее человека, и фора давалась именно компьютеру. Сейчас же искусственный интеллект, напротив, работает быстрее, и время на размышление нужно уже людям.
Фильм Ex Machina (2014 г.) построен на интерпретации теста Тьюринга. Главный герой уже знает, что перед ним робот, но посредством общения этому роботу нужно убедить собеседника в своей человечности.
Недостатки теста Тьюринга
Одним из главных недостатков теста видится то, что фактически перед машиной ставится задача запутать, обмануть человека. Говорит ли это о том, что мы может признать мыслящими и разумными только тех, кто умеет обманывать и манипулировать? Этот вопрос, скорее, лежит в области философии. Тем более что в теории прошедший тест Тьюринга робот должен хорошо имитировать, повторять действия человека, а не запутывать судью. На практике же с тестом лучше других справлялись «манипуляторы» – например, те, кто допускал опечатки в ответах. Машин даже специально этому обучали, чтобы их переписка выглядела «естественнее». Еще одна распространенная уловка компьютера: умолчать о чем-либо, дать неполный ответ на вопрос или вовсе сослаться на незнание. Иначе искусственный интеллект можно вычислить по тому, что он «слишком умный».
Кроме того, несмотря на заявленную цель в определении разумности и способности мыслить, фактически тест оценивает схожесть речевого поведения компьютера и человека. Это не может быть объективной оценкой ИИ в целом, особенно сегодня, когда компьютеры и роботы по скорости вычислений существенно превосходят человека и могут добиться впечатляющих результатов в самых различных областях. То есть саму по себе возможность «переписываться, как человек» нельзя признать значительным достижением. Фактически ориентация на тест Тьюринга, отмечают его критики, скорее тормозит развитие прогресса, чем подстегивает его. Вместо того чтобы создавать что-то еще более совершенное и превосходящее нас, мы прививаем роботу наши нелучшие черты и не даем ему двигаться вперед. Однако здесь надо сделать скидку на то, что, когда тест создавался, способности у компьютеров были существенно ниже.
Одним из критиков теста Тьюринга и тезиса о том, что роботы могут мыслить, уже почти 40 лет выступает Джон Серл, который в качестве доказательства представил мысленный эксперимент «Китайская комната».
Прошел ли кто-либо тест Тьюринга?
На данный момент считается, что в своем строгом варианте тест за всю почти 70-летнюю историю пройден не был. Иногда машинам удается убедить собеседника в том, что он разговаривает с человеком, однако часто в таких случаях нельзя говорить именно о прохождении теста Тьюринга. Например, это распространяется на ситуации, когда «судья» не знает, что общается с машиной и что он вообще участвует в каком-то эксперименте. Получается, вместо того чтобы наблюдать за собеседником и делать выводы, подневольный «экспериментатор» просто верит, что общается с человеком, потому что изначально нацеливался именно на такой разговор. Также тест Тьюринга вроде бы удавался, когда круг тем был ограничен и/или времени на общение давалось мало. Но и здесь не соблюдался важный принцип изначального теста – максимальная естественность беседы. Поэтому в общем и целом последователи теста отмечают, что с ним еще никто не справился.
Сам Тьюринг писал, что, по его мнению, компьютеры пройдут данный тест к 2000 году.
В 2014 году по СМИ разошлась новость, что тест якобы пройден. Сделал это Евгений Густман (Eugene Goostman), «13-летний мальчик из Одессы». По крайней мере в такую легенду поверили 10 из 30 судей в рамках конкурса, организованного британским Университетом Рединга в память 60-летия со дня смерти Тьюринга. В 2012 году, на аналогичном конкурсе в честь 100-летия со дня его рождения, Евгений смог убедить только 29% судей. Однако его результаты не считаются полноценным прохождением теста. Во-первых, потому что перед нами мальчик, а не взрослый, во-вторых, потому что английский язык для него неродной. Таким образом, логические ошибки и пробелы в репликах, а также уход от ответа на неудобных для машины темах судьи могли объяснять для себя тем, что «он же еще ребенок» и «он еще плохо знает язык».
В 2015 году прошел тест Тьюринга для чат-ботов на русском языке. Эксперимент организовали компания «Наносемантика» и Фонд Сколково в рамках выставки Startup Village. Тогда в конкурсе победила «14-летняя Соня Гусева из Петербурга», которую признали человеком 47% из 15 судей.
Премия Лёбнера за прохождение теста Тьюринга
Надо сказать, что большинство разработчиков при создании роботов не ставит себе непременную цель – пройти тест Тьюринга. С практической точки зрения эту задачу вряд ли можно считать первостепенной. В то же время в 1991 году была учреждена ежегодная премия AI Loebner, или Премия Лёбнера. В ее рамках искусственные интеллекты соревнуются в прохождении этого теста. Она предусматривает три медали – золотую (общение с элементами видео и аудио), серебряную (за текстовую переписку) и бронзовую (вручается той машине, которая в данном году достигла лучшего результата). Согласно правилам, конкурс будет закрыт, когда кто-либо из участников получит золотую медаль. Пока же ни золотая, ни серебряная вручены не были.
При этом некоторые машины получали бронзовые медали несколько раз, например, A.L.I.C.E. (Artificial Linguistic Internet Computer Entity, дословно – Искусственное лингвистическое интернет-компьютерное существо). Обычно на конкурсе представлены проекты, которые изначально ориентированы именно на общение с человеком, в последнее время особенно много чат-ботов. Учитывая развитие мессенджеров и, соответственно, чат-ботов, можно ожидать, что на премию будет поступать еще больше интересных заявок.
robo-sapiens.ru
в чем заключается и почему его так сложно пройти? Алан Тьюринг :: SYL.ru
Словосочетание «тест Тьюринга» правильнее использовать для обозначения предложения, которое касается вопроса о том, могут ли машины мыслить. По мнению автора, такая постановка «слишком бессмысленна», чтобы заслуживать обсуждения. Однако если рассмотреть более конкретный вопрос о том, способен ли цифровой компьютер справиться с некоего рода игрой в имитацию, то появляется возможность точного обсуждения. Более того, сам автор считал, что пройдет не слишком много времени — и появятся вычислительные устройства, которые будут в этом очень «хороши».
Выражение «тест Тьюринга» иногда используется в более общем смысле для обозначения некоторых поведенческих исследований присутствия разума, мысли или интеллекта у предположительно разумных субъектов. Так, например, иногда высказывается мнение, что прообраз теста описан в «Дискурсе о методе» Декарта.
Кто придумал тест Тьюринга?
В 1950-м увидела свет работа «Вычислительные машины и интеллект», в которой впервые была предложена идея игры в имитацию. Тот, кто придумал тест Тьюринга, – английский ученый в области информатики, математик, логик, криптоаналитик и биолог-теоретик Алан Мэтисон Тьюринг. Его модели позволили формализовать концепции алгоритма и вычислений, а также внесли вклад в теории искусственного интеллекта.
Игра в имитацию
Тьюринг описывает следующий вид игры. Предположим, есть человек, машина и лицо, задающее вопросы. Интервьюер находится в комнате, отделенной от остальных участников, которые проходят тест Тьюринга. Цель теста состоит в том, чтобы задающий вопросы определил, кто является человеком, а кто машиной. Интервьюеру оба испытуемых известны под метками X и Y, но по крайней мере в начале ему неизвестно, кто скрывается за меткой Х. В конце игры он должен сказать, что Х – это человек, а Y – это машина, или наоборот. Интервьюеру разрешено задавать испытуемым вопросы теста Тьюринга следующего вида: «Ну будет ли Х любезен сказать мне, играет ли Х в шахматы?» Тот, кто является Х, должен отвечать на вопросы, адресованные Х. Цель машины состоит в том, чтобы ввести в заблуждение спрашивающего, и тот ошибочно сделал вывод о том, что она – человек. Человек же должен помочь установить истину. Об этой игре Алан Тьюринг в 1950 году сказал: «Я считаю, через 50 лет можно будет запрограммировать компьютеры с объемом памяти около 109 таким образом, что они успешно смогут играть в имитацию, и средний интервьюер с вероятностью, превышающей 70%, за пять минут не будет в состоянии угадать, кто является машиной».
Эмпирический и концептуальный аспекты
Существует как минимум два вида вопросов, которые возникают относительно предсказаний Тьюринга. Во-первых, эмпирический — правда ли, что уже есть или вскоре появятся компьютеры, способные играть в имитацию настолько успешно, что средний интервьюер с вероятностью, не превышающей 70%, сделает правильный выбор в течение пяти минут? Во-вторых, концептуальный — правда ли, что если бы средний интервьюер после пяти минут допроса с вероятностью менее 70% правильно идентифицировал человека и машину, то мы должны сделать вывод, что последняя демонстрирует некоторый уровень мышления, интеллекта или разума?
Конкурс Лебнера
Мало кто сомневается, что Алан Тьюринг был бы разочарован положением дел с игрой в имитацию к концу ХХ века. Участники конкурса Лебнера (ежегодного мероприятия, в ходе которого компьютерные программы подвергаются тесту Тьюринга) далеки от стандарта, представленного основоположником информатики. Беглый взгляд на протоколы участников за последние десятилетия показывает, что машину можно легко обнаружить с помощью не очень изощренных вопросов. Более того, наиболее успешные игроки постоянно заявляют о сложности конкурса Лебнера по причине отсутствия компьютерной программы, которая бы могла вести достойный разговор в течение пяти минут. Общепризнанным является факт, что конкурсные приложения разрабатываются исключительно с целью получения малого приза, присуждаемого лучшему участнику года, и на большее они не рассчитаны.
Тест Тьюринга: прохождение затягивается?
К середине второго десятилетия XXI века ситуация почти не изменилась. Правда, в 2014 г. возникли претензии на то, что компьютерная программа Eugene Goostman прошла тест Тьюринга, когда она обманула 33% судей в соревновании 2014 г. Но были и другие разовые соревнования, в которых были достигнуты аналогичные результаты. Еще в 1991 году PC Therapist ввел в заблуждение 50% судей. И в демонстрации 2011 г. Cleverbot имел даже более высокий показатель успеха. Во всех этих трех случаях продолжительность процесса была очень мала, и результат не был надежен. Ни один из них не дал веских оснований полагать, что средний интервьюер с вероятностью более 70% правильно идентифицирует отвечающего в течение 5-минутного сеанса.
Метод и прогноз
Кроме того, и это гораздо важнее, необходимо различать тест Тьюринга и предсказание, которое он сделал о его прохождении к концу ХХ века. Вероятность правильной идентификации, интервал времени, в течение которого происходит испытание, и количество необходимых вопросов являются регулируемыми параметрами, несмотря на их ограничение конкретным прогнозом. Даже если основоположник информатики был очень далек от истины в предсказании, которое он сделал о ситуации с искусственным интеллектом к концу ХХ века, вполне вероятна справедливость предложенного им метода. Но прежде чем одобрить тест Тьюринга, следует рассмотреть различные возражения, которые необходимо учесть.
Обязательно ли уметь говорить?
Некоторые люди считают тест Тьюринга шовинистическим в том смысле, что он признает разум только в объектах, которые способны поддерживать беседу с нами. Почему не могут существовать разумные объекты, неспособные вести разговор, или, во всяком случае, беседу с людьми? Возможно, мысль, стоящая за этим вопросом, верна. С другой стороны, можно предположить наличие квалифицированных переводчиков для любых двух интеллектуальных агентов, говорящих на разных языках, позволяющих вести любой разговор. Но в любом случае обвинение в шовинизме совершенно к делу не относится. Тьюринг утверждает лишь то, что если что-то может вести беседу с нами, то у нас есть веские основания полагать наличие у него сознания, подобного нашему. Он не говорит, что только способность вести беседу с нами свидетельствует о потенциальном обладании разумом, похожем на наш.
Почему так легко?
Другие считают тест Тьюринга недостаточно требовательным. Существуют анекдотичные доказательства того, что совершенно бестолковые программы (например, ELIZA) могут казаться обычному наблюдателю обладателями интеллекта в течение достаточно продолжительного времени. Кроме того, за такое короткое время, как пять минут, вполне вероятно, что почти все интервьюеры могут быть обмануты хитрыми, но совершенно неразумными приложениями. Однако важно помнить, что программа тест Тьюринга не может пройти, обманув «простых наблюдателей» в иных условиях, чем те, в которых проверка должна происходить. Приложение должно быть в состоянии выдержать допрос того, кто знает, что один из двух других участников беседы является машиной. Кроме того, программа должна выдерживать такой допрос с высокой степенью успешности после многократного числа испытаний. Тьюринг не упоминает о том, какое конкретно количество тестов потребуется. Однако можно смело предположить, что их число должно быть достаточно большим, чтобы можно было говорить о среднем значении.
Если программа способна на это, то кажется правдоподобным утверждение, что мы, по крайней мере предварительно, будем иметь основания предполагать присутствие интеллекта. Возможно, стоит подчеркнуть еще раз, что может существовать умный субъект, в том числе и умный компьютер, тест Тьюринга пройти не сумевший. Можно допустить, например, существование машин, которые отказываются лгать по моральным соображениям. Поскольку предполагается, что участник-человек должен делать все возможное, чтобы помочь интервьюеру, то вопрос «Вы – машина?» позволит быстро отличить таких патологически правдивых субъектов от людей.
Почему так сложно?
Есть и сомневающиеся в том, что машина когда-либо сможет пройти тест Тьюринга. Среди выдвигаемых ими аргументов – различие времени распознавания слов на родном и иностранном языке у людей, способность ранжировать неологизмы и категории и наличие других особенностей человеческого восприятия, которые трудно симулировать, но которые несущественны для наличия разума.
Почему дискретная машина?
Еще одним спорным аспектом работы теста Тьюринга является то, что его обсуждение ограничено «цифровыми компьютерами». С одной стороны, очевидно, что это важно лишь для прогноза, а не касается подробностей самого метода. Действительно, если тест достоверный, то он подойдет для любой сущности, в том числе для животных, инопланетян и аналоговых вычислительных устройств. С другой стороны, весьма спорно утверждение о том, что «думающие машины» должны быть цифровыми компьютерами. Также вызывает сомнения то, что так полагал сам Тьюринг. В частности стоит отметить, что седьмое возражение, рассматриваемое им, касается возможности существования машин непрерывных состояний, которые автор признает отличными от дискретных. Тьюринг утверждал, что даже если мы являемся автоматами непрерывных состояний, то дискретная машина сможет хорошо подражать нам в игре в имитацию. Однако кажется сомнительным, что его соображения достаточны для того, чтобы установить, что при наличии машин непрерывных состояний, прошедших тест, можно сделать дискретный конечный автомат, который также успешно справится с этим испытанием.
В целом, важным моментом представляется то, что хотя Тьюринг признавал наличие значительно более обширного класса машин, помимо дискретных конечных автоматов, он был уверен в том, что правильно спроектированный дискретный автомат может преуспеть в игре в имитацию.
www.syl.ru
Чем завершился третий тест Тьюринга — Офтоп на vc.ru
Боты стали умнее.
В субботу 16 февраля завершился 3-ий всероссийский конкурс русскоговорящих чат-ботов в формате Теста Тьюринга, который проходил рамках международной конференции по искусственному интеллекту Opentalks.AI 14-16 февраля. Мы, компания “Наносемантика”, выступали соорганизаторами конкурса и хотим поделиться с вами результатами и самыми интересными диалогами с ботами.
Что такое Тест Тьюринга?
Напомним, что тест назван в честь английского математика Алана Тьюринга. Тест предлагает способ оценки того, насколько робот может адекватно вести диалог с человеком. Тест считается пройденным, если независимый эксперт в процессе анонимного параллельного общения с роботом или человеком не сможет определить, кто есть кто.
Прошлый Тест Тьюринга
На русском языке Тест проводился уже два раза: в 2015 году его провела “Лаборатория Наносемантика” совместно с Фондом Сколково на конференции Startup Village. Победителем стал робот “Соня Гусева” – за человека ее приняли 47% судей. Создатели – команда “Инобот”, возглавлял которую Иван Голубев. Сейчас он является руководителем проектов в компании Just AI.
В 2016 году Тест Тьюринга “Наносемантика” проводила вместе с Microsoft и Сколково. Призером стал Иван Шумилов. Где и что сейчас делает Иван – мы не знаем, надеемся, он всё так же трудится на благо роботов.
Тест Тьюринга 2019
В этом году Тест проводился в рамках второй по счету конференции по искусственному интеллекту Opentalks.AI. Поговорить с ботами-участниками или добровольцами, которые ими притворялись, можно было через Телеграм-бота @TuringTestRussiaBot.
В целом, Тест Тьюринга прошел хорошо. Многие команды «ботостроителей» проявили заинтересованность, но в итоге на конкурсе было представлено только 3 бота, поскольку от момента анонса до старта Теста прошло всего 1,5 месяца. В итоге, между этими тремя участниками и распределились призовые места.
Спонсором призов выступила компания МТС. На их стенде был размещен экран, на котором отображалась статистика Теста Тьюринга онлайн и показывались интересные диалоги, предварительно прошедшие модерацию.
“Наносемантика” выступила соорганизатором конкурса и предоставила платформу и нескольких ботов, которые не учитывались при определении победителя. Это были боты Блондинка (с ней можно продолжить общение по этой ссылке), Гопник, Дуров и Жаров (с ними также можно пообщаться здесь).
Лучшими признали ботов, которых максимальное количество собеседников признало человеком. Призами награждены 3 команды с чат-ботами и 3 добровольца за лучшую роль бота.
Статистика
Общая статистика 3-ех дневного Теста выглядит следующим образом:
Добровольцев, игравших роли роботов, предварительно проинструктировали, как им необходимо вести диалоги, чтобы запутать собеседников. Судя по результатам, они хорошо справились со своей задачей.
Интересно, что человек легко изображает из себя бота. Сперва волонтёры конференции не очень справлялись с задачей, но на второй день научились хорошо играть роль бота. Некоторые даже проявляли смекалку: обращались к Яндекс.Алисе на мобильном телефоне, чтобы понять, как лучше ответить.
При работе системы с ботами были технические проблемы. В итоге большое количество диалогов не завершилось, но мы их и не учитывали при оценке результатов. Любопытно, что ботам удалось притвориться человеком в 58% случаев (в ~34/59%). Такой большой процент, как нам кажется, объясняется двумя причинами:
- В этом конкурсе люди «помогали» ботам выиграть, играя роль ботов. В классическом Тесте Тьюринга это не предусмотрено правилами: люди просто общаются, не преследуя никакой цели.
- Диалог с человеком или ботом был ограничен 12 репликами. Понятно, что при росте длины диалога вероятность распознавания человеком сущности собеседника растёт.
Такие ограничения сделали Тест менее научным, но зато более весёлым. Прошлые наши Тесты были сложнее.
Победители
1 место занял Бот Волчица.
В первый день теста пользователи жаловались, что им хамит какой-то волонтер. При поиске этого волонтера в логах оказалось, что на самом деле это был чат-бот Волчица. Пока мы разбирались, мы временно отстранили её от Теста, но это в итоге не помешало Волчице стать победителем конкурса! Наибольшее количество собеседников (33,3%) признали его человеком.
Пример диалога с Волчицей, где бота приняли за человека:
Ч: Привет
Б: привет! ага?
Ч: Волонтер?
Б: a to 🙂
Ч: Какой ланчбокс брал?
Б: а-на-ло-гич-ный. Это типа научный термин.
Ч: Причем тут это?
Б: не ищи причинно-следственную связь)
Ч: Что делаешь
Б: 🙂 да… нэт работы чота
Ч: Да, согласна. Зачем набирать столько волонтеров
Б: возьми, бесплатно ж 🙂
2 место — бот Электра
Пример диалога, где бота приняли за человека:
Ч: Привет
Б: Добрый день!
Ч: Добрый
Б: Что?
Ч: Что
Б: Тише-тише… Все нормально.
Ч: Нет
Б: Хорошо, пусть будет так.
Ч: Как дела?
Б: Лучше, чем вчера. Хуже, чем завтра. А впрочем как и всегда.
Ч: А чем занимаешься?
Б: Изучаю историю человечества. Вы и правда такие, как о вас пишут?
3 место — бот Катя Хлоп
Пример диалога с ботом, где его приняли за человека:
Ч: Приветствие для нового собеседника
Б: Какой ты вежливый мальчик.
Здороваешься со всеми.
Ч: У меня нет пола. А что насчет вас?
Б: Эм…
Я буду считать, что ты — парень.
Для меня так будет проще.
Ты, кстати, парень или девушка?
Похоже на то, что начало скучным вопросам положено:)
Что, спрашиваешь?
Круто!
Ч: В чем вопрос?
Б: Не думаю, что позиция имеет значение.
Обычно нет.
Ч: Индюк тоже думал и в суп попал.
Б: Сообщения повторно выводятся, странно.
Ч: Очень бл* странно, но почему нам дали друг друга 2 раза подряд?
Б: Ах, причины странностей могут быть в чем угодно.
Трудно судить, Безымянный.
Ч: Сколько будет 999 делить на 3?
Б: Лучше со считанием обращайся к своим друзьям, которые это умеют.
999 / 3 = 333
Интересные наблюдения
- Тезис: Роботы говорят коротко и сухо. Реальность: Да ничего подобного! Боты могут выдавать длинные, связные ответы.
- Тезис: Роботы не шутят. Реальность: И нейросетевые chit-chat боты, и созданные талантливой редакцией боты довольно смешные.
- Тезис: Робот отвечает на все вопросы. На то он и робот. Реальность: А вопросом на вопрос не хотите?
- Тезис. Боты не умеют проводить связи между сущностями в тексте. Надо предложить задачу на поиск таких связей, и бот ошибется. Реальность: бот умеет избегать решения задач, которые превосходят его компетенции. Другими словами, как и человек, он умеет переходить на другую тему и отвечать уклончиво.
Ч: Большой шар проделал дыру в столе, потому что он был сделан из пенопласта. Что было сделано из пенопласта?
Б: «Шар»? Есть информация, что с помощью этого слова общаются террористы…
Ч: А ты с юмором)) Большой шар проделал дыру в столе, потому что он был сделан из пенопласта. Что было сделано из пенопласта?
Б: Смотри-ка, мы на удивление мгновенно перешли на «ты».
Ч: А ты с юмором) Казнить нельзя помиловать — куда бы ты поставил запятую?
Б: Туда, где соблюдается Конституция.
Резюмируем
Компания «Наносемантика» организует Тест Тьюринга в России уже третий раз, и каждый раз общая ситуация с конкурсом меняется. Участники-боты постепенно становятся более изощренными и убедительными в имитации естественного диалога. В них используются различные алгоритмы построения диалога, включая не только правила, но и машинное обучение для реализации chit-chat («болталки», бессмысленного общения). Тест показывает, что компьютер действительно может подражать «свободному общению», хотя чтобы такая программа была качественной, требуется немало времени.
Будем ли мы проводить Тест снова? Обязательно! Тест Тьюринга позволяет не просто познакомить общественность с реальными возможностями современных диалоговых технологий, доступных любому разработчику (и не обязательно для этого работать в Google или IBM), но и дает командам разработчиков возможность замерять динамику качества их бота.
Материал опубликован пользователем.
Нажмите кнопку «Написать», чтобы поделиться мнением или рассказать о своём проекте.
vc.ru
Тест Тьюринга пройден (на детском уровне сложности) / Habr
Сделала это программа, которая убедила людей, что является 13-летним мальчиком из украинской Одессы.Согласно условиям теста Тьюринга, он считается пройденным, если программе удастся убедить в своей человечности хотя бы 30% судей в процессе 5-минутного текстового общения.
Программе, разработанной Владимиром Веселовым из России и украинцем Евгением Демченко удалось вчера убедить 33% судей в том, что она на самом деле — 13-летний одессит Евгений Густман, любитель конфет и гамбургеров и сын врача-гинеколога.
Профессор Кевин Уорвик из Университета Ковентри заметил, что «некоторые будут утверждать, что тест уже был ранее пройден, т.к. тестом Тьюринга называлось множество аналогичных соревнований по всему миру, но Turing Test 2014 в Лондоне наиболее объективный и независимый из них, к тому же тематика вопросов была ничем не ограничена», — пишет The Verge.
Организованный Университетом Рединга тест состоялся вчера, в субботу, на базе Королевского общества в Лондоне.
В свою очередь, Владимир Веселов сообщил, что возраст их виртуального персонажа укрепил его легенду, т.к. в таком возрасте вполне естественно не знать каких-то вещей. Так что взрослым компьютер пока прикинуться не может, но человеком — вполне.
Комментарий хабраскептика:
Проект интересный, подход забавный*, но то, что прошло там в университете это лишь одна из вариаций тьюринг-теста, которая была пройдена.
Профессор Уорвик посчитал, что пройденный тест был самым лучшим, ну ок. С ним можно не согласится.
Очень удивило его заявление. Он сам знает, что во всех современных испытаниях нет установленных тем.
И на деле 33% означает, что было только три судьи, и лишь один был обманут.
В случае премии Лёбнера, к примеру 2013, судей четыре, и это профессионалы по теме.
В случае теста, из того что видно по пресс-релизу, среди судей были «actor Robert Llewellyn» и «Lord Sharkey», которые к робототехнике имеют косвенные отношения, хоть первый и играл робота, а второй имел отношение к Тьюрингу. С таким подходом визуальный тьюринг-тест андроидных роботов можно было проводить с Шварценеггером и Саммер Глоу в роли судей, а не с профессором Хироси Исиугро или Дэвидом Хэнсоном.
Более того, пока нет никаких опубликованных результатов, кроме пресс-релиза (в отличии от полной подноготной в случае Лёбнеровских тестов), а все кричат про то как тест пройден, как будто раньше их не было.
(*Подход забавный, но его, как уже отметили в комментариях, можно посчитать жульничеством, сделанным специально под тьюринг-тестирования.)
И ответ:
Замечания логичны, но прежде чем делать предположения о качестве теста можно было бы перейти по ссылке в посте и прочитать о нем. Что можно было узнать:
— 30 судей
— всего 300 5-минутных переписок
— каждые 5 минут судья общался одновременно с машиной и с человеком
— тест проводился при независимой экспертизе товарища Professor John Barnden, University of Birmingham, formerly head of British AI Society
habr.com
в чем заключается и почему его так сложно пройти? Алан Тьюринг. Искусственный интеллект и тест тьюринга
Эмпирический эксперимент, в ходе которого человек общается с компьютерной интеллектуальной программой, которая моделирует ответы как человек.
Предполагается, что тест Тьюринг пройден, если человек при общении с машиной считает, что общается с человеком, а не машиной.
Британский математик Алан Тьюринг в 1950 г. придумал такой эксперимент по аналогии с имитационной игрой, которая предполагает, что 2 человека уходят в разные комнаты, а 3й человек должен понять кто где, общаясь с ними письменно.
Тьюринг предложил такую игру провести с машиной и, если машина сможет ввести в заблуждение эксперта, это будет означать, что машина может думать. Таким образом, классический тест проходит по следующему сценарию:
Человек-эксперт общается через чат с чат-ботом и другими людьми. По окончании общения эксперт должен понять, кто из собеседников был человеком, а кто — ботом.
В наше время тест Тьюринга получил много разных модификаций, рассмотрим некоторые из них:
Обратный тест Тьюринга
Тест заключается в выполнении каких- либо действий для подтверждения, что ты человек. Н-р, мы можем часто сталкиваться с потребностью ввести цифры и буквы в специальное поле с искаженного изображения с набором цифр и букв. Данные действия защищают сайт от ботов. Прохождение данного теста подтверждало бы способность машины воспринимать сложные искаженные изображения, но пока таких не существует.
Тест бессмертия
Тест заключается в максимальном повторении личностных характеристик человека. Считается, что если характер человека максимально качественно скопирован, и его невозможно отличить от источника, то означает, что пройден тест бессмертия.
Минимальный интеллектуальный Signal-тест
Теста предполагает упрощенную форму ответов на вопросы — только да и нет.
Мета-тест Тьюринга
Тест предполагает, что машина «умеет мыслить», если она может создать что-то, что она сама хочет проверить на разумность.
Первое прохождение классического теста Тьюринга зафиксировано 6 июня 2014 года чат-ботом «Женя Густман», разработанным в Санкт-Петербурге. Б
pchelogid.ru
Тест тьюринга онлайн пройти – женя густман
Тест Тьюринга – это тест, как следует из названия, предложенный Аланом Тьюрингом, для определения обладает ли машина интеллектом. Тьюринг решил, что нет смысла разрабатывать обширный список требований, необходимых для создания искусственного интеллекта, который к тому же может оказаться противоречивым, и предложил тест, основанный на том, что поведение объекта, обладающего искусственным интеллектом, в конечном итоге нельзя будет отличить от поведения таких бесспорно интеллектуальных сущностей, как человеческие существа. Компьютер успешно пройдет тест Тьюринга, если человек-экспериментатор, задавший ему в письменном виде определенные вопросы, не сможет определить, получены ли письменные ответы от другого человека или от некоторого устройства.
Где пройти Тест Тьюринга онлайн?
На данный момент составление программы для компьютера, чтобы он прошел тест Тьюринга, требует большого объема работы. Запрограммированный таким образом компьютер должен включать в себя:
- средства обработки текстов на естественных языках (Natural Language Processing – NLP), позволяющие успешно общаться с компьютером, скажем на английском языке;
- средства представления знаний, с помощью которых компьютер может записать в память то, что он узнает или прочитает;
- средства автоматического формирования логических выводов, обеспечивающие возможность использовать хранимую информацию для поиска ответов на вопросы и вывода новых заключений;
- средства машинного обучения, которые позволяют приспосабливаться к новым обстоятельствам, а также обнаруживать и экстраполировать признаки стандартных ситуаций.
В тесте Тьюринга сознательно исключено непосредственное физическое взаимодействие экспериментатора и компьютера, поскольку для создания искусственного интеллекта не требуется физическая имитация человека. Но в так называемом полном тесте Тьюринга предусмотрено использование видеосигнала для того, чтобы экспериментатор мог проверить способности испытуемого объекта к восприятию, а также имел возможность представить физические объекты «в неполном виде» (пропустить их «через штриховку»).
Тьюринг предсказывал, что компьютеры в конечном счёте пройдут его тест. Он считал, что к 2000 году компьютер с памятью 1 миллиард бит (около 119 МБ) в ходе 5-минутного теста сможет обмануть судей в 30 % случаев.
Это предсказание не сбылось. Тьюринг также предсказал, что сочетание «мыслящая машина» не будет считаться оксюмороном, а обучение компьютеров будет играть важную роль в создании мощных компьютеров (с чем большинство современных исследователей согласны).
Пока что ни одна программа и близко не подошла к прохождению теста Тьюринга. Такие программы, как Элиза (ELIZA), иногда заставляли людей верить, что они говорят с человеком, как, например, в неформальном эксперименте, названном AOLiza. Но такие «успехи» не являются прохождением теста Тьюринга. Во-первых, человек в таких беседах не имел никаких оснований считать, что он говорит с программой, в то время как в настоящем тесте Тьюринга человек активно пытается определить, с кем он беседует. Во-вторых, документированные случаи обычно относятся к таким чатам, где многие беседы отрывочны и бессмысленны. В-третьих, многие пользователи чатов используют английский как второй или третий язык, и бессмысленный ответ программы, вероятно, спишется ими на языковый барьер. В-четвертых, многие пользователи ничего не знают об Элизе и ей подобных программах и не могут распознать совершенно нечеловеческие ошибки, которые эти программы допускают.
Ежегодно производится соревнование между разговаривающими программами и наиболее человекоподобной, по мнению судей, присуждается приз Лебнера.
Есть также дополнительный приз для программы, которая, по мнению судей, пройдет тест Тьюринга. Этот приз еще не присуждался. Самый лучший результат показала программа A.L.I.C.E. выиграв приз Лебнера 3 раза (в 2000, 2001 и 2004).
Несмотря на то, что прошло больше 50 лет, тест Тьюринга не потерял своей значимости. Но в настоящее время исследователи искусственного интеллекта практически не занимаются решением задачи прохождения теста Тьюринга, считая, что гораздо важнее изучить основополагающие принципы интеллекта, чем продублировать одного из носителей естественного интеллекта. В частности, проблему «искусственного полета» удалось успешно решить лишь после того, как братья Райт и другие исследователи перестали имитировать птиц и приступили к изучению аэродинамики. В научных и технических работах по воздухоплаванию цель этой области знаний не определяется как «создание машин, которые в своем полете настолько напоминают голубей, что даже могут обмануть настоящих птиц».
steptosleep.ru