Большие данные и рентгеновский лазер

  1. От физики элементарных частиц до фотонной науки
  2. Иглы и стога сена
  3. Новая машина, новые требования

Рентгеновский лазерный источник света Linac с когерентным излучением, расположенный в SLAC, генерирует пучок ультраярких рентгеновских лучей, достаточно мощный, чтобы освещать отдельные молекулы, избирательно выбивать электроны из ядра атомов, создавать сверхгорячую и сверхплотную плазму и исследовать нежные нанокристаллы биологических образцов.

Высокоскоростные детекторы LCLS с высоким разрешением, которые собирают информацию об этих процессах и структурах атомного и молекулярного масштаба, требуют хранения данных с чрезвычайно высокой скоростью и в огромных масштабах. Эксперимент на одном приборе LCLS дает в среднем около 10 миллионов рентгеновских изображений за 48 часов. Более крупные эксперименты LCLS генерируют от 150 до 200 терабайт (около 154 000–205 000 гигабайт) данных за один и тот же период времени.

К счастью для ученых LCLS, сообщество физики элементарных частиц накапливало опыт в экстремальном сборе данных в течение многих лет.

От физики элементарных частиц до фотонной науки

Система сбора данных LCLS была создана той же группой экспертов, которая работала над системой сбора данных для BaBar, эксперимента по физике элементарных частиц, который брал данные в SLAC между 1999 и 2008 годами.

Сообщество физики элементарных частиц - это то, откуда мы пришли, говорит Амедео Пераццо, который возглавляет отдел управления фотонами и систем данных в SLAC, который управляет данными LCLS. Являясь членом основной группы потоков данных BaBar, Пераццо создал диагностический инструмент для компьютерной архитектуры параллельного процессора эксперимента и отвечал за другие усовершенствования систем запуска и сбора данных BaBar.

Игорь Гапоненко, разработчик программного обеспечения для систем данных LCLS, приехавший в SLAC в качестве приглашенного ученого в 1997 году для работы над сотрудничеством с BaBar, говорит: «Те из нас, кто имел большой опыт работы в области физики высоких энергий и ее информационной культуры - для нас [беспрецедентные скорости передачи данных LCLS] не так уж удивительно.

«В этом и заключалась идея перенести опыт физики высоких энергий в фотонную науку, потому что ожидалось, что LCLS будет производить много данных».

LCLS принял тот же формат для хранения своих необработанных данных, что и эксперимент BaBar, формат под названием eXtended Tagged Container. Это потому, что это быстро, легко расширяется и позволяет выполнять обратное чтение даже во время записи файла данных, говорит Пераццо.

Это потому, что это быстро, легко расширяется и позволяет выполнять обратное чтение даже во время записи файла данных, говорит Пераццо

Инженер-физик LCLS Себастьян Каррон Монтеро работает в одной из многочисленных экспериментальных комнат.

Мэтт Бердсли, SLAC

Иглы и стога сена

Существует много общих потоков между требованиями к данным в LCLS и в экспериментах по физике элементарных частиц.

Одним из них является необходимость анализировать данные на лету, а также хранить и анализировать несколько петабайт данных.

В физике элементарных частиц ученые часто ищут конкретные, редкие события на фоне большого количества фоновых событий. Это как найти иголку в стоге сена. Физики разработали системы сбора данных, которые сохраняют только тюки сена, которые, скорее всего, содержат иголку, а остальные отбрасывают. Эти автоматизированные системы хранения данных используют сложные программные триггеры, которые быстро и автоматически идентифицируют наиболее перспективные тюки.

Данные также обычно дополнительно обрабатываются, так что часть информации о сене, которая считается наиболее интересной для дальнейшего анализа, сразу же становится доступной для сообщества исследователей, в то время как эти тюки сена, которые считаются менее интересными, могут храниться на менее дорогой ленте.

Данные для потенциально иглосодержащих тюков сена могут быть отсортированы на основе различных характеристик и распределены по высокоскоростным сетям в компьютерные центры по всему миру. Это гарантирует, что все исследователи не пытаются получить доступ к одному и тому же набору данных из одного и того же места в одно и то же время. Это также позволяет исследовательским центрам собирать различные части данных, распределяя нагрузку, а не отдельно анализируя одни и те же данные в целом.

Пераццо говорит, что в ближайшие несколько лет требования к данным в LCLS значительно возрастут, поскольку LCLS перейдет на более чувствительные детекторы, более сложные эксперименты, несколько одновременных экспериментов и другие запланированные обновления.

Вероятным решением будет стратегия распространения данных, аналогичная системам физики элементарных частиц «иголка в стоге сена», благодаря которой исследователи могут регулярно инициировать высокоскоростную передачу данных в другие хранилища данных по всему миру, где они могут оставаться доступными в течение более длительных периодов времени. время, освобождая LCLS для принятия данных из новых экспериментов.

«Довольно скоро мы будем получать в 20 раз больше данных, чем сегодня», - говорит Пераццо. «В этот момент мы не сможем работать так же, как сейчас».

Новая машина, новые требования

Хотя LCLS-вычисления выросли из физики элементарных частиц, они также открывают новые возможности.

В физике высоких энергий ученые имеют общий словарный запас и стандартизированные системы данных, и отдельные эксперименты могут длиться годами. Но в LCLS эксперименты обычно проводятся в течение всего нескольких дней, и ученым необходим немедленный доступ к их данным, чтобы они могли решить, менять ли образцы или рентгеновские лучи в середине эксперимента.

Пользователям LCLS нужна «надежность, гибкость и оперативность», - говорит Себастьян Каррон Монтеро, физик-инженер, работающий над системами данных для приборов атомной, молекулярной и оптической науки в LCLS. «Иметь их всех одновременно очень сложно. И каждый из них использует разные инструменты ».

Существует стремление улучшить пользовательский интерфейс, чтобы сделать инструменты данных LCLS более доступными для ученых, предлагать больше данных в режиме реального времени во время экспериментов, обучать персонал более тесному взаимодействию с пользователями при изучении систем данных и продолжать работать над общими стандартами данных.

Пераццо говорит, что система его департамента для обработки данных LCLS, а также система запланированного расширения под названием LCLS-II, масштабируема для решения этих задач.

«Я верю, что мы находимся в правильном месте», - говорит Пераццо. «Другие рентгеновские лазерные установки принимают к сведению то, что мы достигли».

Примечание редактора: версия этой статьи была опубликована в SLAC сегодня ,

 
Карта