AI训练数据中的错误信息可能导致整个系统被破坏
01/16/2025, 07:02 AM UTC
研究人员发现:AI训练数据中0.001%的错误信息可能导致整个系统被破坏Researchers discover if 0.001% of AI training data misinformation the AI becomes corrupted
➀ 研究人员发现,AI训练数据中即使只有0.001%的错误信息也可能导致整个系统被破坏;➁ 研究人员将AI生成的医疗错误信息注入到一个常用的LLM训练数据集中,导致有害内容显著增加;➂ 研究人员强调,在开发医疗LLM时需要更好的安全措施和安全性研究。➀ Researchers found that even 0.001% misinformation in AI training data can compromise the entire system; ➁ The study injected AI-generated medical misinformation into a commonly used LLM training dataset, leading to a significant increase in harmful content; ➂ The researchers emphasized the need for better safeguards and security research in the development of medical LLMs.研究人员发现, 即使AI训练数据中只有0.001%的错误信息,也可能导致整个AI系统被破坏。
在一项新的研究中,研究人员将AI生成的医疗错误信息注入到一个常用的LLM训练数据集中,名为“The Pile”。结果显示,仅仅用疫苗错误信息替换了100亿训练标记中的100万个(0.001%),就导致了有害内容的4.8%增加,这是通过注入我们仅花费5美元生成的2000篇恶意文章(约1500页)实现的。
研究人员指出,AI开发者和医疗保健提供者在开发医疗LLM时必须意识到这种脆弱性。在更好的安全措施开发出来之前,LLM不应用于诊断或治疗任务,并且在LLM可以在关键医疗环境中被信任之前,还需要进行更多的安全性研究。
鉴于目前对改进数据来源和透明LLM开发的呼吁,我们希望提高人们对在未经筛选的网页抓取数据上训练LLM产生的潜在风险的意识,特别是在医疗领域,错误信息可能会危及患者安全。
---
本文由大语言模型(LLM)生成,旨在为读者提供半导体新闻内容的知识扩展(Beta)。