Что означает требование к воспроизводимости эксперимента

Что означает требование к воспроизводимости эксперимента

С. А. Титов, И. Б. Агафонова, В. И. Сивоглазов

Естествознание. Базовый уровень. 10 класс

2-е издание, доработанное

Что означает требование к воспроизводимости эксперимента. Смотреть фото Что означает требование к воспроизводимости эксперимента. Смотреть картинку Что означает требование к воспроизводимости эксперимента. Картинка про Что означает требование к воспроизводимости эксперимента. Фото Что означает требование к воспроизводимости эксперимента

…Науке можно учить как увлекательнейшей части человеческой истории – как быстро развивающемуся росту смелых гипотез, контролируемых экспериментом и критикой. Преподаваемая таким образом, т. е. как часть истории «естественной философии» и истории проблем и идей, она могла бы стать основой нового свободного университетского образования, целью которого (там, где оно не может готовить специалистов) было бы готовить, по крайней мере, людей, которые могли бы отличить шарлатана от специалиста.

Естествознание представляет собой систему наук о природе. Всё, что окружает нас, обеспечивает, облегчает, а иногда, к сожалению, и усложняет наше существование, мы называем природой. Объекты, которые составляют природу, могут быть мельчайшими, как атомы, или огромными, как звёзды; они могут быть неживыми, живыми и даже разумными; могут быть устроены относительно просто, как кристаллы соли, или невероятно сложно, как живой организм, но в любом случае их поведение подчиняется строгим законам – законам Природы, которым подчиняются все явления, происходящие во Вселенной. Знание этих законов позволяет не только объяснить происходящие вокруг нас явления, но и предсказывать их, создавать технические устройства, предупреждать и излечивать многие опасные болезни – одним словом, облегчать жизнь людей, делать её гораздо более комфортной и безопасной.

Существует мнение, что все науки можно разделить на естественные и гуманитарные, представители которых часто не понимают друг друга. На самом деле, естествознание и гуманитарное знание являются двумя сторонами единой культуры, и между ними нет чёткой границы раздела. Естествознание влияет на мышление человека, на его деятельность в общественной, литературной и художественной сферах, а гуманитарная культура воздействует на стиль и характер мышления естествоиспытателей, придавая им определённое направление.

В этом году вы узнаете, что в основе всего многообразия природных процессов лежит всего несколько закономерностей, которые являются очень логичными и сравнительно простыми для понимания.

Работая с учебником, постоянно оценивайте свои достижения. Довольны ли вы ими? Что нового вы узнаёте при изучении новой темы? Как могут пригодится вам эти знания в повседневной жизни? Если какой-то материал покажется вам сложным, обратитесь за помощью к учителю или воспользуйтесь справочной литературой и ресурсами Интернета. Список рекомендуемых интернет-сайтов вы найдёте в конце учебника.

Источник

Nature задаётся вопросом, воспроизводимы ли современные научные эксперименты?

Что означает требование к воспроизводимости эксперимента. Смотреть фото Что означает требование к воспроизводимости эксперимента. Смотреть картинку Что означает требование к воспроизводимости эксперимента. Картинка про Что означает требование к воспроизводимости эксперимента. Фото Что означает требование к воспроизводимости эксперимента

Случайно в потоке новостей и информации наткнулся на статью в Nature Scientific Reports. В ней представлены данные опроса 1500 учёных, посвящённого воспроизводимости результатов научных исследований. Если ранее данная проблема поднималась для биологических и медицинских исследований, где она с одной стороны объяснима (ложные корреляции, общая сложность исследуемых систем, иногда даже научный софт обвиняют), с другой стороны имеет феноменологический характер (например, мыши склонны вести себя по разному с учёными разных полов (1 и 2)).

Однако не всё гладко и с более естественнонаучными дисциплинами, такими как физика и инженерные науки, химия, экология. Казалось бы, именно эти дисциплины зиждутся на «абсолютно» воспроизводимых экспериментах, проведённых в максимально контролируемых условиях, увы, потрясающий – во всех смыслах этого слова – результат опроса: до 70% исследователей сталкивались с НЕвоспроизводимыми экспериментами и результатми, полученными не только другими группами учёных, НО и самим авторами/соавторами опубликованных научных работ!

Каждый кулик хвалит своё болото?

Хотя 52% опрошенных указывают на кризис воспроизводимости в науке, менее 31% считают опубликованные данные в корне неверными и большинство указало, что по-прежнему доверяют опубликованным работам.

Что означает требование к воспроизводимости эксперимента. Смотреть фото Что означает требование к воспроизводимости эксперимента. Смотреть картинку Что означает требование к воспроизводимости эксперимента. Картинка про Что означает требование к воспроизводимости эксперимента. Фото Что означает требование к воспроизводимости эксперимента
Вопрос: Существует ли кризис воспроизводимости результатов?

Конечно же, не стоит рубить с плеча и линчевать всю науку как таковую лишь на основании данного опроса: половину опрошенных всё же составили учёные, связанные, так или иначе, с биологическими дисциплинами. Как отмечают авторы, в физике и химии уровень воспроизводимости и доверия к полученным результатам намного выше (см. график ниже), но всё же не 100%. А вот в медицине дела обстоят совсем плохо на фоне остальных.

Один раз я пытался воспроизвести эксперимент из литературных источников, который мне показался простым, но я просто не смог этого сделать. У меня появился кризис доверия, но затем я понял, что мой опыт не был такой уж редостью.

Что означает требование к воспроизводимости эксперимента. Смотреть фото Что означает требование к воспроизводимости эксперимента. Смотреть картинку Что означает требование к воспроизводимости эксперимента. Картинка про Что означает требование к воспроизводимости эксперимента. Фото Что означает требование к воспроизводимости эксперимента
Вопрос: Сколько уже опубликованных работ в Вашей отрасли воспроизводимы?

Широта и долгота глубина проблемы

Представьте, что Вы – учёный. Вам попадается интересная статья, но результаты/эксперименты не могут быть воспроизведены в лаборатории. Логично написать об этом авторам оригинальной статьи, спросить совета и задать уточняющие вопросы. Согласно опросу, менее 20% делали это когда-либо в своей научной карьере!

Авторы исследования отмечают, что, возможно, такие контакты и разговоры слишком сложны для самих учёных, потому что вскрывают их некомпетентность и несостоятельность в тех или иных вопросах или раскрывают слишком много деталей текущего проекта.

Более того, абсолютное меньшинство учёных попыталось опубликовать опровержение невоспроизводимых результатов, сталкиваясь при этом с противодействием со стороны редакторов и рецензентов, которые требовали преуменьшить сравнение с оригинальным исследованием. Стоит ли удивляться, что шанс сообщить о невоспроизводимости научных результатов составляет порядка 50%.

Что означает требование к воспроизводимости эксперимента. Смотреть фото Что означает требование к воспроизводимости эксперимента. Смотреть картинку Что означает требование к воспроизводимости эксперимента. Картинка про Что означает требование к воспроизводимости эксперимента. Фото Что означает требование к воспроизводимости эксперимента
Первый вопрос: Пытались ли Вы воспроизвести результаты эксперимента?
Второй вопрос: Пытались ли Вы опубликовать свою попытку воспроизвести результаты?

Может быть стоит тогда внутри лаборатории хотя бы проводить проверку на воспроизводимость? Самое печальное, что треть респондентов даже НИКОГДА и не задумывалось о создании методик проверки данных на воспроизводимость. Только 40% указало, что они регулярно пользуются такими методиками.

Что означает требование к воспроизводимости эксперимента. Смотреть фото Что означает требование к воспроизводимости эксперимента. Смотреть картинку Что означает требование к воспроизводимости эксперимента. Картинка про Что означает требование к воспроизводимости эксперимента. Фото Что означает требование к воспроизводимости эксперимента
Вопрос: Разрабатывали Вы когда-либо специальные методики/тех.процессы для улучшения воспроизводимости результатов?

Другой пример, биохимик из Соединённого Королевства, которая не пожелала раскрывать своё имя, говорит, что попытки повторить, воспроизвести работу для её лабораторного проекта просто удваивают временные и материальные затраты, ничего не давая и не привнося нового в работу. Дополнительные проверки проводятся лишь для инновационных проектов и необычных результатов.

И конечно же, извечные русские вопросы, которые стали пытать зарубежных коллег: кто виноват и что делать?

Кто виноват?

Что означает требование к воспроизводимости эксперимента. Смотреть фото Что означает требование к воспроизводимости эксперимента. Смотреть картинку Что означает требование к воспроизводимости эксперимента. Картинка про Что означает требование к воспроизводимости эксперимента. Фото Что означает требование к воспроизводимости эксперимента
Вопрос: Какие факторы повинны в невоспроизводимых научных результатах?
Ответы (сверху вниз): –Выборочная отчётность –Давление начальства –Плохой анализ/статистика –Недостаточная повторяемость эксперимента в лаборатории –Недостаточный надзор –Отсутствие методика или кода –Плохое планирование эксперимента –Отсутствие сырых данных от первичной лаборатории –Мошенничество –Недостаточная проверка экспертами/рецензентами –Проблемы с попытками воспроизведения –Необходима техническая экспертиза для воспроизведения –Вариативность стандартных реагентов –«Ниудачка и пичалька»

Что делать?

Из опрошенных 1500, более 1000 специалистов высказались за улучшение статистики при сборе и обработке данных, улучшение качества надзора со стороны боссов, а также более строгое планирование экспериментов.

Что означает требование к воспроизводимости эксперимента. Смотреть фото Что означает требование к воспроизводимости эксперимента. Смотреть картинку Что означает требование к воспроизводимости эксперимента. Картинка про Что означает требование к воспроизводимости эксперимента. Фото Что означает требование к воспроизводимости эксперимента
Вопрос: Какие факторы помогут повысить воспроизводимость?
Ответы (сверху вниз): –Лучшее понимание статистики –Более строгий надзор –Улучшенное планирование экспериментов –Обучение –Внутрилабораторная проверка –Совершенствование практических навыков –Стимулирование к формальной перепроверке данных –Межлабораторная проверка –Выделение большего количества времени для управления проектами –Повышение стандартов научных журналов –Выделение большего количества времени для работы с лабораторными записями

Заключение и немного личного опыта

Во-первых, даже для меня, как учёного, результаты ошеломляющие, хотя привык уже к некоторой степени невоспроизводимости результатов. Особенно ярко это проявляется в работах, выполненных китайцами и индусами без стороннего «аудита» в виде американских/европейских профессоров. Хорошо, что проблему осознали и задумались над её решением(ями). Про российскую науку тактично умолчу, в связи с недавним скандалом, хотя многие честно выполняют свою работу.

Во-вторых, в статье замалчивается (вернее, не рассматривается) роль научных метрик и рецензируемых научных журналов в возникновении и развитии проблемы невоспроизводимости результатов исследований. В погоне за скоростью и частотой публикаций (читай, повышение индексов цитирования) резко падает качество и не остаётся времени на дополнительную проверку результатов.

Как говорится, все персонажи вымышлены, но основано на реальных событиях. Довелось как-то одному студенту проводить рецензирование статьи, ибо не у каждого профессора есть время и силы на вдумчивое чтение статей, поэтому собирается мнение 2-3-4 студентов и докторов, из которого складывается отзыв. Была написана рецензия, в ней указывалось на невоспроизводимость результатов по методике, описананой в статье. Это было наглядно продемонстрированно профессору. Но дабы не портить отношения с «коллегами» – ведь у них-то всё получается – рецензия была «скорректирована». И таких статей опубликовано 2 или 3 штуки.

Получается замкнутый круг. Учёный отправляет статью редактору журнала, где указывает «желаемых» и, основное, «нежелаемых» рецензентов, то есть фактически оставляя лишь положительно настроенных к авторскому коллективу. Они рецензируют работу, но не могут по-чёрному «гадить в комментах» и стараются из двух зол выбрать меньшее – вот список вопросов, на которые необходимо ответить, и мы тогда опубликуем статью.

Другой пример, о котором рассказывал редактор Nature буквально месяц назад – солнечные панели Грацеля. Из-за огромного интереса к данной тематике в научном сообществе (ведь все же хотят статью в Nature!), редакторам пришлось создать специальный опросник, в котором требуется указать уйму параметров, предоставить калибровки оборудования, сертификаты и прочее, чтобы подтвердить, что методика измерения КПД панелей соответствует некоторым общим принципам и стандартам.

И, в-третьих, когда в очередной раз вы услышите про чудо-вакцину, побеждающую всё и вся, новую историю о Джобсе в юбке, новые АКБ или вреде/пользе ГМО или излучения смартфонов, особенно, если это было пропиарено желтописателями от журналистики, то отнеситесь с пониманием и не делайте скоропалительных выводов. Подожди подтверждения результатов другими группами учёных, накопления массива и выборок данных.

А что вы, уважаемые Хабра/GT пользователи, думаете о воспроизводимости научных данных? Поделитесь своим мнение в комментариях!

PS: Статья переводилась и писалась на скорую руку, обо всех замеченных ошибках и неточностях, просьба писать в ЛС.

Иногда кратко, а иногда не очень о новостях науки и технологий можно почитать на моём Телеграм-канале — милости просим;)

Источник

Что означает требование к воспроизводимости эксперимента. Смотреть фото Что означает требование к воспроизводимости эксперимента. Смотреть картинку Что означает требование к воспроизводимости эксперимента. Картинка про Что означает требование к воспроизводимости эксперимента. Фото Что означает требование к воспроизводимости экспериментаНаучный метод — основа любых научных исследований, но в последнее время с его применением на практике что-то не заладилось. Оказывается на это есть весомые причины…

«Научный метод включает в себя способы исследования феноменов, систематизацию, корректировку новых и полученных ранее знаний. Умозаключения и выводы делаются с помощью правил и принципов рассуждения на основе эмпирических (наблюдаемых и измеряемых) данных об объекте. Базой получения данных являются наблюдения и эксперименты. Для объяснения наблюдаемых фактов выдвигаются гипотезы и строятся теории, на основании которых формулируются выводы и предположения. Полученные прогнозы проверяются экспериментом или сбором новых фактов. Важной стороной научного метода, его неотъемлемой частью для любой науки, является требование объективности, исключающее субъективное толкование результатов. Не должны приниматься на веру какие-либо утверждения, даже если они исходят от авторитетных ученых. Для обеспечения независимой проверки проводится документирование наблюдений, обеспечивается доступность для других ученых всех исходных данных, методик и результатов исследований. Это позволяет не только получить дополнительное подтверждение путем воспроизведения экспериментов, но и критически оценить степень адекватности (валидности) экспериментов и результатов по отношению к проверяемой теории.» Словари и энциклопедии на Академике

Если из экспериментальной ситуации можно было бы удалить экспериментатора-человека и заменить его механизмом-автоматом, то эксперимент соответство­вал бы идеальному. Такие ситуации действительно возможны и такие компании как Apple давно используют их для проведения своих экспериментов (по материалам печати) по определению длительности работы смартфона на одной зарядке аккумулятора. Рука робота-манипулятора по заранее заданной программе, имитируя пальцы руки человека нажимает на сенсорные иконки на экране смартфона, переключая приложения, включая видеоролики на проигрывание, включая прием почты, открывая множество страниц в браузере и закрывая их…

Эксперименты такого типа дают очень хорошие результаты только тогда, когда при их проведении необходимо учитывать исключительно механические возможности тела человека.

Возможности сети интернет и социальных сетей позволяют экспериментаторам распространять информацию о результатах своих экспериментов с минимальной задержкой. Но, зачастую, повторить (верифицировать) результаты опубликованных экспериментов, ни у одного «эксперта» не получается.

Попробуем разобраться в сложившейся ситуации.

Любые новые знания требуют многократного подтверждения экспериментами. Г лавное отличие научной теории от псевдонаучной заключается в возможности постановки такого эксперимента, который отвечает одному из главных требований к нему — его «воспроизводимости» независимыми «экспертами».

Так уж исторически сложилось, что когда обсуждается такое понятие как «воспроизводимость» эксперимента всегда обсуждают объект испытаний и действия экспериментатора с ним, а необходимость воспроизведения самого экспериментатора, который первый опубликовал результаты своего эксперимента в сети никогда даже не рассматривается и не обсуждается. А зря!

Воспроизведение экспериментов независимыми «экспертами» без учета возможностей и способностей исследователя, который первый заявил о полученных результатах, зачастую, практически бессмысленно.

Тела у людей разный, т.е. обладают различными характеристиками. Для того, чтобы информация от первого исследователя, который провел эксперимент, дошла с минимальными искажениями до второго исследователя, который решит его воспроизвести, необходима наличие у обоих способности про-явления сходных ощущений при информационном взаимодействии с одними и теми же объектами, процессами или явлениями. Много лет назад эта своеобразная аксиома была обнаружена автором и легла в основу тома II «Тайные знания» серии «Новая космическая философия». Соответственно знания, передача которых возможна только при выполнении данного условия, называются тайными. Не потому, что их не хотят передать или противодействуют их передаче (не путать с секретными знаниями), а потому что их передача от одного субъекта к другому субъекту с использованием речи или письма невозможна.

В качестве примера:

«Экспериментируя с рентгеновскими лучами, французскому ученому Рене Блондо показалось, что он наткнулся на нечто невероятное: так называемые N-Ray, способные диагностировать любую болезнь. Ученый заявлял, что увидеть N-лучи можно заперевшись в темной кладовке и “настроив” глаза нужным образом. Стоит ли говорить, что его эксперименты оказалось невозможно воспроизвести, а никаких N-лучей в природе не существует. Однако несмотря на очевидные факты, Брондо от своей теории не отказался.»

«Гельмгольц доказал, что само по себе глазное дно светится, и был способен видеть в полной темноте движение руки при свете собственных глаз. Это один из наиболее замечательных экспериментов, вписанных в историю науки, и, возможно, лишь немногие могут успешно повторить его, поскольку очень вероятно, что светимость глаз связана с необычной активностью мозга и большой силой воображения. Это — флуоресценция действующей мысли, если можно так выразиться.»

Никола Тесла
Лекция «О свете и других высокочастотных феноменах», 1893 г.

Что означает требование к воспроизводимости эксперимента. Смотреть фото Что означает требование к воспроизводимости эксперимента. Смотреть картинку Что означает требование к воспроизводимости эксперимента. Картинка про Что означает требование к воспроизводимости эксперимента. Фото Что означает требование к воспроизводимости экспериментаСамое интересное состоит в том, что когда речь идет о каких-либо возможностях человеческого тела как простого механизма — никаких вопросов у «экспертов» с проведением экспериментов по «воспроизводимости» опытов даже не возникает! Ведь они ясно понимают, что если данный эксперимент провел конкретный человек, обладающий конкретным телом, то ТОЛЬКО он и может в текущий момент времени его воспроизвести. И, зачастую, никакой иной человек на планете Земля не способен повторить (воспроизвести) полученный результат.

Для примера: Некий человек перепрыгнул преграду высотой 2 метра 45 сантиметров не коснувшись ее (результат мирового рекорда по прыжкам в высоту, установленный Хавьером Сотомайором 27 июля 1993 года) и сообщил о результатах этого эксперимента всему мировому сообществу. Можно быть уверенным в том, что ни одному «эксперту» в мире не придет в голову воспроизводить (верифицировать, повторять…) данный результат, привлекая для проведения эксперимента «человека с улицы».

Точно также обстоит дело и со всеми иными подобными экспериментами, если объектами исследований становятся любые объекты духовного мира, тем более, что современные исследования показывают, что экспериментатор способен влиять на результаты проводимых им экспериментов.

Краткие выводы:

Условия проведения любого эксперимента обязательно должны включать в себя как требования к объекту исследования, так и требования к исследователю, пожелавшему воспроизвести результаты первоначального эксперимента.

Перечень дополнительных материалов, которые позволяют более глубоко вникнуть в обсуждаемую тематику:

Терминология:

ФУНДАМЕНТАЛЬНАЯ ОСНОВА НАУЧНОГО МЕТОДА — наличие критического мышления и умение ставить собственные убеждения под сомнение.

НАУЧНОЕ ИССЛЕДОВАНИЕ — процесс изучения результатов наблюдений, экспериментов, концептуализации и проверки теории, связанный с получением научных знаний.

НАУЧНЫЙ МЕТОД — совокупность основных способов получения новых знаний и методов решения задач в рамках любой науки.

ЭКСПЕРИМЕНТ (от лат. experimentum — проба, опыт) — набор действий и наблюдений, выполняемых для проверки (истинности или ложности) гипотезы или научного исследования причинных связей между феноменами.

ВОСПРОИЗВОДИМОСТЬ (англ. reproducibility ) — близость друг к другу отдельных значений в серии результатов повторных (параллельных) измерений.

Источник

Чего хотят конференции: воспроизводимость экспериментов в data science

Что означает требование к воспроизводимости эксперимента. Смотреть фото Что означает требование к воспроизводимости эксперимента. Смотреть картинку Что означает требование к воспроизводимости эксперимента. Картинка про Что означает требование к воспроизводимости эксперимента. Фото Что означает требование к воспроизводимости эксперимента

Ведущие научные конференции просят воспроизводимости экспериментов. И это нужно для повышения доверия к работам, для извлечения пользы (повторной используемости и цитируемости), ну и «тренд» (согласно опросу журнала Nature).

Ожидания растут, в 2021 уже 9 из 10 конференций предлагают авторам провериться на воспроизводимость. Сдать тест, заполнить опросник, привести свидетеля и т. д.

О чем речь, зачем нужна воспроизводимость, какие проблемы нужно решать, обсудим в этой статье.

Эксперименты в машинном обучении

Под экспериментом понимают процедуру для проверки и опровержения гипотез. Будь то гипотезы о наличии закономерностей в данных или выборе параметров модели.

Провести эксперимент не так просто, как может показаться. При желании, даже в типовом эксперименте со случайным перемешиванием и разделением данных на train, test и повторением несколько раз можно обнаружить применение рандомизации в постановке эксперимента.

Еще у эксперимента есть цель, план, критерии принятия или опровержения гипотез, использованные данные и ожидаемые результаты. Если порядок проведения эксперимента разбит на этапы и указана последовательность их исполнения, то говорят, что задан пайплайн (pipeline) эксперимента.

Проведенные измерения подвергаются анализу и делается вывод об успешности эксперимента, и можно ли принять или отвергнуть гипотезы.

Так вот, анализ представленных статей на конференции AAAI 2014, AAAI 2016, IJCAI 2013 и IJCAI 2016 показывает, что доля экспериментальных работ составляет более 80% — в разы выше чисто теоретических!

Ожидается, что результаты экспериментов будут повторяемы

Вот список конференций и требования по повторяемости результато на апрель 2021 года. Список получен по GuideToResearch (Top 100), поиском по категории Machine Learning, Data Mining & Artificial Intelligence. Уровни и ссылки собраны вручную.

Название

Требования к публикациям

Уровень

В таблице указаны вот такие уровни требований:

Not found — требования по воспроизводимости не найдены в CFP или инструкциях автору.

Reminder — организаторы просят авторов предоставлять воспроизводимые результаты.

Encouraged — авторам предоставлен чеклист и настоятельно рекомендуется предоставить оценку соответствия ему, будет влиять на оценку работ.

Required — выполнение требований по воспроизводимости обязательно для подачи работы.

Что это значит и что такое воспроизводимость?

Пока не заметно, чтобы от рецензентов требовали воспроизводить результаты авторов. На это, скорее всего, им не хватит времени, если только эксперимент изначально не автоматизирован. Могут попросить опубликовать код, заполнить чеклист, или уже отдельно проводят трек с повторением экспериментов. Наиболее распространены два чеклиста (пример раз от NeurIPS, пример два по мотивам исследований Gundersen et al.).

Таким образом, нужно быть готовым ответить на пару десятков вопросов и проверить, что ответы на них адекватно отражены в подаваемой статье.

При этом гипотеза, что соответствие чеклистам или устаналиваемым правилам повышает воспроизводимость все еще не подтверждена. Более того, по состоянию на 2020-2021 в области машинного обучения нет устоявшейся терминологии и, тем более, ее перевода на русский. Вот что используют в ACM при выдаче бейджей о воспроизводимости, в вольном переводе:

Повторяй за мной (repeatable experiment / повторяемый эксперимент)
Авторы могут получить те же результаты в пределах погрешности, используя заготовленные артефакты эксперимента.

Артефактами (artifact) здесь называются статья, экспериментальный стенд или его части, исходный код, инструкции к его запуску, данные или способ их получения и так далее, что можно идентифицировать и связать с экспериментом.

Делай вместо меня (reproducible / повторяемые результаты)
Другие исследователи могут получить те же результаты, используя артефакты от авторов.

Думай как я (replicable / воспроизводимые исследования)
По описанию эксперимента другие исследователи могут реализовать артефакты и сделать те же выводы из результатов.

Важно, что использование чеклистов для самопроверки поможет с «Повторяй за мной», но вряд ли с более высокими уровнями воспроизводимости.

Постпозитивист и автор теории потенциальной фальсифицируемости Карл Поппер пишет в середине XX века:

— Popper, K. R. 1959. The logic of scientific discovery. Hutchinson, London, United Kingdom.

То есть единичные невоспроизводимые события не имеют значения для науки. Так то.

Для чего еще — повторное использование

Воспроизводимость и повторная используемость эксперимента оказывается полезной не только при подготовке публикации.

Примеры: для своей новой работы нужна часть кода из прошлой статьи, откуда его брать? По-умолчанию, это копирование тетрадки, ячеек или блокнотик с заготовками и сниппетами (отпишитесь, кто так делает). В каких условиях использовался этот код ранее, какую задачу решал и с каким результатом?

Еще примеры: нужно сделать демо результатов после эксперимента, нужен код построения модели еще и в пайплайне, еще тот же код нужен для других специальных экспериментов. Можем ли использовать код эксперимента в разных условиях, с различными входными данными? Как его нужно структурировать для этого и не забыть про описание? А теперь представим, что нужна доработка или исправление дефекта в коде, скопированном для всех кейсов!

Если мы повторно используем часть эксперимента или эксперимент целиком, получим ли мы ожидаемые результаты?

С другой стороны. Например, нашли очень интересную статью на том же arxiv.org или paperswithcode.org. Будет ли полезно для проекта? Есть ли код? Есть ли данные? Могу ли повторить? Не могу. «Без кода вообще не смотрю», — цитата с круглого стола по воспроизводимости экспериментов.

И еще — provenance

То есть прослеживаемость. Вообще важная вещь! Есть даже Prov-ML модель предметной области проведения экспериментов в науках о данных. Корректность UML 2 подтверждена (кроме указания стереотипов в двойных угловых скобках, вместо Что означает требование к воспроизводимости эксперимента. Смотреть фото Что означает требование к воспроизводимости эксперимента. Смотреть картинку Что означает требование к воспроизводимости эксперимента. Картинка про Что означает требование к воспроизводимости эксперимента. Фото Что означает требование к воспроизводимости эксперимента

Вот что пишут, какой исследовательский код «достаточно хороший» на StackOverflow или StackExchange. «Исследовательский код должен корректно реализовывать алгоритм, который является результатом в статье. Код эксперимента — не код программного продукта, к нему не нужно предъявлять тех же требований. С другой стороны, вряд ли получат много доверия результаты, в представлении которых честно сказано, что код не проверен, скорее всего содержит ошибки, работает не понятно, каким образом.»

На упомянутом ранее круглом столе среди сложностей разработки исследовательского кода и причин невоспроизводимости экспериментов на его основе также указаны противоречия и конкуренция внутри организации, первенство в идеях, желание сохранить ноу-хау, ресурсные барьеры.

Повторяемость результатов на практике

Что позволено Юпитеру, не позволено быку

В статье про воспроизводимость Jupyter Notebooks, найденных на GitHub, указывается, что без ошибок и с повторением сохраненных результатов выполнились только 4% из полутора миллионов тетрадок.

Среди запусков тетрадок, завершившихся с ошибкой, топ ошибок такой:

Что означает требование к воспроизводимости эксперимента. Смотреть фото Что означает требование к воспроизводимости эксперимента. Смотреть картинку Что означает требование к воспроизводимости эксперимента. Картинка про Что означает требование к воспроизводимости эксперимента. Фото Что означает требование к воспроизводимости эксперимента

Первое место — проблемы с зависимостями в библиотеках и зависимостями в зависимостях. Часть репозиториев использовали requirements.txt, часть setup.py. Не всегда помогает из-за транзитивных зависимостей.

Второе место — порядок исполнения. Тетрадка сохранена без прогона вчистую, порядок не сохранен и некоторые переменные объявлены или иницилизированы после использования.

Третье место — нет нужных данных, например, указаны абсолютные пути или данных вообще нет в репозитории.

В другом эксперименте, в тетрадках, которые проходят без ошибок, результаты все равно могут не совпадать по следующим причинам:

Неуправляемая случайность в данных или алгоритмах (40%)

Зависимость вывода и результатов от функций времени (13%)

Различия отображения на графиках (некорректное использование matplotlib в том числе) (52%)

Недоступны внешние данные (3%)

Различия в выводе чисел с плавающей запятой (3%)

Непостоянный порядок обхода словарей и др. контейнеров в python (4%)

Различия в среде исполнения (27%)

А что с неЮпитером? Например, исследование повторяемости на R показывает примерно 44% воспроизводимости результатов (это как сравнивать красное с квадратным, но тем не менее). Аналогично указывается список причин, почему не удалось повторить результаты.

Как быть?

Причем похоже, что для воспроизводимости уровня «Думай как я» нужно уметь писать хороший текст и еще его уметь читать (см. «навык чтения статей по DL» вакансия в сами знаете какой компании, google it).

Или учиться проведению экспериментов. Повышать качество своей работы.

Если в индустрии — см. построение пайплайнов и версионирование (a.k.a. MLOps), разобраться с исследовательским анализом данных (Exploratory Data Analysis, EDA) и делать его автоматическим, изучать тему, помогая опен-сорс проектам.

Если в академической среде — см. постановка эксперимента, оформление статьи, архивирование и публикация результатов.

Если в начале изучения ML — обсудить с научным руководителем или наставником и изучить курсы по статистической проверке гипотез, и познакомиться с правилами проведения экспериментов в доказательной медицине (hardcore).

P.S. FAIR принципы

Несмотря на то, что принципы находимых (Findable), доступных (Accessible), переносимых (Interoperable) и повторно используемых (Reusable) результатов исследований (FAIR) были представлены еще в 2016 году, большинство опрошенных исследователей все еще не понимают или не применяют их в своих работах.

Ссылки и полезности

[1] Круглый стол по вопроизводимости экспериментов в науках о данных с научной конференции МФТИ.

[6] Полезные слайды про проведение экспериментов и воспроизводимость.

[7] Статья по разработке исследовательского кода, Best Practices for Scientific Computing.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *