Новый инструмент машинного обучения для эффективной обработки больших объёмов данных
Большие объёмы данных стали серьезной проблемой для ученых-космонавтов, анализирующих их. Для решения этой проблемы команда исследователей разработала инструмент машинного обучения для эффективной маркировки больших, сложных наборов данных, чтобы позволить моделям глубокого обучения отфильтровывать и выявлять потенциально опасные солнечные события. Новый инструмент маркировки может быть применен или адаптирован для решения других задач, связанных с огромными наборами данных.
«Маркировка данных с помощью многозначных аннотаций является важнейшим этапом контролируемого машинного обучения (МО). Однако маркировка наборов данных - утомительное и трудоемкое занятие», - говорит доктор Субхамой Чаттерджи, из SwRI, специализирующийся на солнечной астрономии и инструментарии. «Новое исследование показывает, как сверточные нейронные сети (CНС), обученные на грубо маркированных астрономических видео, могут быть использованы для улучшения качества и широты маркировки данных и снижения необходимости вмешательства человека».
Методы глубокого обучения позволяют автоматизировать обработку и интерпретацию больших объемов сложных данных путем извлечения и изучения сложных закономерностей. Команда SwRI использовала видеозаписи солнечного магнитного поля, чтобы определить области, где на солнечной поверхности возникают сильные, сложные магнитные поля, которые являются основным предвестником явлений космической погоды.
«Обучаясь мы использовали грубые метки, вручную проверяя только наши расхождения с машиной», - сказал соавтор исследования д-р Андрес Муньос-Харамильо, физик солнечной энергии из SwRI, специализирующийся на машинном обучении. Затем мы перенастроили алгоритм с исправленными данными и повторяли этот процесс до тех пор, пока не пришли к единому мнению». В то время как маркировка нового потока обычно выполняется вручную, такое итеративное взаимодействие между человеком и алгоритмом машинного обучения сокращает ручную проверку на 50%».
Итеративные подходы к маркировке, такие как активное обучение, могут значительно сэкономить время, снижая стоимость подготовки больших данных к MО. Более того, постепенно маркируя видео и ища момент, когда алгоритм MО меняет свою классификацию, ученые SwRI еще больше использовали настроенный алгоритм MО для создания более богатой и полезной базы данных.
«Мы создали сквозной подход с глубоким обучением для классификации видеозаписей эволюции магнитных пятен без явного предоставления сегментированных изображений, алгоритмов отслеживания или других созданных вручную характеристик», - сказал доктор Дерек Лэмб из SwRI, соавтор исследования, специализирующийся на эволюции магнитных полей на поверхности Солнца. «Эта база данных будет иметь решающее значение для разработки новых методик прогнозирования появления сложных областей, способствующих возникновению явлений космической погоды, что потенциально увеличит время, которое мы имеем для подготовки к космической погоде».
(Добавил: ProW)