来自好意思国加州的一位少年 Matteo Paz 摆布我方开荒的 AI 算法,在重大的天地数据中,到手从好意思国国度航空航天局的海量不雅测数据中识别出逾越 150 万个此前未知的天体。凭借此项建设,Paz 取得了好意思国顶尖的高中生科学竞赛——Regeneron 科学天才奖的最高奖项及 25 万好意思元奖金,其究诘后果更所以舒服作家的身份,发表在了天文体限度的巨擘期刊 The Astronomical Journal 上。而取得这些建设的他体育游戏app平台,如今才刚 18 岁。
图丨 后排的 Matteo Paz 对我方取得第又名感到战抖(来源:Society for Science)
一位少年的天文梦
张开剩余91%Paz 的天文探索之路始于童年。小学时,母亲常带他进入好意思国加州理工学院的公众不雅星讲座,在他心中埋下了探索星空的种子。2022 年,他加入了加州理工天文体讲授 Andrew Howard 主导的“加州理工行星发现者学院”暑期名堂,系统学习天文体学问。次年,他参与了加州理工为期六周的“暑期究诘承接”(Summer Research Connection)名堂,该名堂旨在将当地高中生与校园科研导师对接。恰是在此时间,他遭受了对其科研生存产生宝贵影响的导师——Davy Kirkpatrick。
Kirkpatrick 是加州理工红外处理与分析中心(IPAC,Infrared Processing and Analysis Center)的资深科学家。Paz 回忆说念:“我极度行运能遭受 Davy。我铭记第一天和他言语时,就建议我想完成一篇论文,这对于一个短期名堂来说磋商浩大。但他莫得打击我,反而饱读动我深远探讨。他给了我极大的学术解放,这对我动作科学家的成长至关宝贵。”Kirkpatrick 本东说念主曾接收惠于良师的指导,他默示:“我但愿能将这种指导精神传递下去,匡助更多有后劲的年青东说念主杀青他们的科学遐想。”
Kirkpatrick 交给 Paz 的任务,聚焦于挖掘好意思国国度航空航天局(NASA,National Aeronautics and Space Administration)已退役的“近地天体广域红外巡天探伤器”(NEOWISE,Near-Earth Object Wide-field Infrared Survey Explorer)任务所积聚的海量数据。
NEOWISE 千里镜(前身为 WISE)自 2009 年起在红外波段对全天进行扫描,主要搜寻小行星和彗星等近地天体,同期也捕捉到了大量远方天地天体的红外辐照变化。这些因亮度变化而被称为“变源”(variable objects)的天体,包括爆发的超新星(supernovae)、脉动变星(pulsating variable stars)、食双星(eclipsing binary stars)以及类星体(quasars)等,它们的光变弧线蕴含着天体物理过程、天地距离乃至天地演化的谬误信息。NEOWISE 在十余年间积聚了近 200 太字节(TB)的数据,包含约 2000 亿条单次曝光记载。
图丨 WISE 航天器绕地球轨说念运行的见识图(来源:NASA)
相关词,从如斯重大的数据会聚筛选变源,对传统东说念主工秩序而言无异于大海捞针。Kirkpatrick 率先仅但愿 Paz 尝试分析一小片天区,动作见识考证。但 Paz 凭借其在东说念主工智能选修课上培养的兴味以及在帕萨迪纳长入学区数学学院打下的坚实数学基础(他在八年事已完成 AP 微积分 BC 课程),敏感地封闭到 AI 是惩办这一难题的谬误,于是决定开荒一个机器学习模子来自动化分析总计数据集。
在短短六周的暑期名堂中,Paz 不仅构念念并初步杀青了名为 VARnet 的东说念主工智能模子,还与 Kirkpatrick 及加州理工的其他天文体家(如 Shoubaneh Hemmati、Daniel Masters、Ashish Mahabal 和 Matthew Graham)深远洽商,学习了相关天体物理学问,并了解到 NEOWISE 不雅测节律对探伤某些类型变源的局限性。暑期名堂扫尾后,究诘并未留步。2024 年,Paz 与 Kirkpatrick 连接协作,他不停优化 VARnet 模子,使其大意处理 NEOWISE 的总计原始数据。最终,该模子在对逾越 4.5 亿个天体进行筛选后,从约 190 万个可能的变源中,阐明了 150 万个此前未被编主义新发现。
VARnet 模子:AI 赋能天文新发现
Paz 在 The Astronomical Journal 上发表的论文《一种基于亚毫秒傅里叶和小波的模子,用于从 NEOWISE 单次曝光数据库中索求候选变源》(A Submillisecond Fourier and Wavelet-based Model to Extract Variable Candidates from the NEOWISE Single-exposure Database)属目阐扬了 VARnet 的时期细节。
图丨相关论文(来源:The Astronomical Journal)
VARnet 是一个专为快速分析天文时辰序列数据而遐想的信号处理模子,该模子的中枢在于和会多种信号处理时期和深度学习秩序,以极高遵守从嘈杂、不规矩的光变弧线(表情天体亮度随时辰变化的图)中索求有用信息。着手,他使用 DBSCAN 聚类算法将属于同 一个天体的零星不雅测点集结起来。然后,对网罗到的数据进行详尽的预处理:将星等调整为线性流量,减去中位数以暖热相对变化,使用四分位距进行表率化以摧毁特别值,终末用反双曲正弦函数压缩数据规模,同期对时辰戳进行归一化。
图丨特别索求经过(来源:The Astronomical Journal)
VARnet 模子自己是一个深度神经荟萃,其架构整合了多种时期。它摆布打破小波变换来进行时频分析,这有助于去噪并捕捉光变弧线中一霎的高频细节变化,如凌星事件的快速着落。Paz 还建议了一种“有限镶嵌傅里叶变换”(FEFT,Finite-Embedding Fourier Transform)。与表率傅里叶变换不同,FEFT 能将随心长度的输入时辰序列映射到一个固定长度的特征向量中,这对于处理长度相反巨大的 NEOWISE 数据至关宝贵。
更宝贵的是,FEFT 能让荟萃在窥探中自符合地学习遴荐最宝贵的频率信息进行镶嵌,有用捕捉光变弧线中执续时辰较长的周期性或趋势性变化。卷积神经荟萃则被用来学习和识别光变弧线中的时序形状,举例亮度的飞腾、着落、峰值等特定步地。终末,全承接层(FC Layers)阐扬整合来自不同处理模块(时域、频域、不同圭臬)的通盘特征信息,并作念出最终的分类判决,判断该天体属于静止、瞬变、脉动如故凌星等预设类别。
图丨 VARnet 模子架构(来源:The Astronomical Journal)
窥探这么复杂的模子需要海量的标注数据,但 NEOWISE 数据中已知且分类准确的变星数目相对不及,特殊是瞬变天体。为此,Paz 接受了生成合成数据的战略。他为四种主要天体类别构建了数学模子,不仅模拟了光变弧线的典型步地(如瞬变的爆发与衰减、脉动的复杂波形、凌星的周期性着落),还精准地复现了 NEOWISE 的不规矩采样节律和竟然的噪声水平。
通过立时化模子参数,其能生成险些无穷量的、高度传神的合成光变弧线用于窥探 VARnet。这种秩序极地面增强了模子的泛化智商,而竟然的已知变星数据则被保留用于最终的模子性能考证。
VARnet 的泄漏十分出色。在竟然的红外源考证集上,它对四种天体类别的分类 F1 分数达到了 0.91。在差异“竟然变化”与“无变化/噪声”这个更基础的任务上,其精准率和调回率均逾越 97%,F1 分数高达 0.974,线路出极高的可靠性。在高性能 GPU 救济下,分析单个天体源的平均耗时低于 53 微秒。
150 万个新发现的酷好
Paz 发现的这 150 万个“候选”变源,对于究诘天地演化和基本物理礼貌而言具有宝贵酷好。在其发表的论文中,Paz 列举了 VARnet 发现的一些具体案例,以展示其遒劲的探伤智商。
举例,VARnet 发现了一个此前未被编主义食双星候选体,位于 J2000 坐标赤经 18h53m48.3s,赤纬 -59°08′75.1″,通事后续分析,其周期被细则为约 5.877 天。
(来源:The Astronomical Journal)
另一个宝贵发现是分离双星系统 2MASS J01542169-5944445。这个位于 J2000 赤经/赤纬 28.59051°,-59.74571°的系统此前在 GALAH 巡天第三次数据发布中被记载为化学特异星,但从未被识别为变源天体。VARnet 发现了其显耀的凌星信号,周期约为 5.8061 天,可能存在一个影响其化学因素的伴星。
在究诘星河系外磋商时,VARnet 的智商相通出色。举例它探伤到了星系 LEDA 174461 的渺小但显耀的亮度变化,以及星系 LEDA 358365 里面发生的一次与超新星 AT 2023lkp 相符的瞬变事件。同期,它还标志了星系 LEDA 340305 的步履星系核泄漏出的显耀亮度加多。这些具体的发现,不仅考证了 VARnet 的探伤精度和广度,也为后续的属目究诘提供了成功的磋商。
(来源:The Astronomical Journal)
这些新发现的“表率烛光”(如造父变星)可能为惩办现时的“哈勃常数危急”提供谬误陈迹。而大量超新星、黑洞和双星系统候选者,则为究诘恒星演化、元素发祥、星系酿成以及顶点物理要求下的物资步履提供了前所未有的样本库。
为了让这些发现大意被更平素的天文体界所摆布,Paz 和他的导师正在将这些遗弃整理、汇编成一个名为 VarWISE 的公开星表目次。加州理工学院的一个红外究诘小组仍是运转摆布该目次来究诘远方天地中的双星系统。他们仍是发现了数十个往常未被探伤到的双星系统。Kirkpatrick 补充说,这项究诘还有助于筹办远方系新手星的质料。
图丨 Matteo Paz 在 2023 年的一个研讨会上展示了他名堂的初步职责(来源:Kitty Cahalan)
值得一提的是,VARnet 还能有望在天文体除外阐述作用。“我杀青的模子不错用于天文体中的其他时域究诘,以及任缘何时辰序列边幅出现的数据。”Paz 评释说念,“我能看到它与(股票市集)图表分析的相关性,那处的信息相通以时辰序列步地出现,周期性因素可能至关宝贵。你也不错用它来究诘大气效应,比如欺侮,其中周期性的季节和日夜轮回饰演着宝贵脚色。”
但脚下,Paz 更但愿摆布他的 NEOWISE 发现,深远究诘阿谁困扰天文体界已久的天地膨大率问题。“这要么将有助于惩办现时究诘中一个极具争议的话题,要么将揭示一些对于天地发祥的信得过基础性的东西。”
参考贵寓:
1.https://iopscience.iop.org/article/10.3847/1538-3881/ad7fe6#ajad7fe6s4
2.https://www.caltech.edu/about/news/exploring-space-with-AI
3.https://scitechdaily.com/teen-wins-250k-for-using-ai-to-discover-1-5-million-hidden-objects-in-space/
运营/排版:何晨龙体育游戏app平台
发布于:北京市