Найти бозон Хиггса может каждый!




12 мая ЦЕРН объявил «Higgs Boson Machine Learning Challenge», конкурс на лучший алгоритм по поиску событий с участием бозона Хиггса в наборе экспериментальных данных. Конкурс продлится до 15 сентября, победителей ждут денежные призы от $2000 до $7000. Удачное решение может быть интегрировано в реальный процесс обработки данных с детектора ATLAS. Для участия в конкурсе не нужны специальные знания в физике элементарных частиц.

Бозон Хиггса в Большом адронном коллайдере детектируют не непосредственно, а по продуктам распада. Протоны огромной энергии сталкиваются в центре детектора. В процессе столкновения может родиться бозон Хиггса, который за короткое время распадается на другие частицы. По предсказаниям стандартной модели самый популярный канал распада — на пару кварков B и анти-B. В конкурсе предлагается сосредоточиться на более редких событиях, когда бозон Хиггса распадается на тау-лептон и антитау-лептон. Так как эти лептоны тоже быстро распадаются по различным каналам, детектор «видит» лишь продукты их распада. Однако подобный набор продуктов распада может получиться множеством других способов, поэтому многие события образуют фон и, чтобы изучать именно бозон Хиггса, надо отличать события с бозоном от фона.

В коллайдере происходит огромное количество столкновений, поэтому очень важно быстро и качественно отличать интересные события от неинтересных по данным с детектора. Этим и предлагается заняться конкурсантам.

Каждое событие описывается тридцатью числами, из которых 17 — непосредственные данные с детектора, а 13 — производные величины, вычисленные по сырым данным, которые по мнению экспертов могут оказаться полезными для предсказания. Среди сырых данных, например, PRI_tau_pt — перпендикулярная компонента импульса детектированного «адронного тау» (тау-лептона, восстановленного по адронному каналу распада). Среди производных, например, DER_mass_MMC — оценочная масса бозона Хиггса, который мог с наибольшей вероятностью сгенерировать это событие (если там вообще был бозон Хиггса). Полное теоретическое описание параметров приводится в специальной статье, хотя, возможно, не стоит её читать, чтобы подойти к задаче с незашоренным взглядом.

Участникам предлагается обучающий набор из 250 тысяч событий, для которых известно, являются они сигналом или шумом, и предлагается классифицировать 550 тысяч заранее известных контрольных событий. Результаты будут оцениваться по формуле, учитывающей количество правильных и неправильных ответов. Чтобы затруднить подгонку результатов, вам не сообщается точный результат проверки: до окончания конкурса проверка ведётся на случайном поднаборе размером 18% от контрольной выборки.

Участники могут объединяться в команды до четырёх человек и посылать до пяти решений за сутки. Можно обсудить подходы к решению на форуме. Для проверки вашего решения достаточно послать файл с предсказаниями: загружать исходники можно уже потом, если будете претендовать на приз.

Авторы трёх лучших решений получат денежные призы: $7000, $4000 и $2000. Также коллаборация ATLAS выберет команду победителей, решение которой наилучшим образом будет подходить для использования в эксперименте (с учётом производительности, надёжности и других параметров). Эта команда будет приглашена в ЦЕРН для встречи с коллаборацией ATLAS (с покрытием транспортных расходов).

Источник: habrahabr.ru/post/225591/