维基百科将发布专用于训练人工智能模型的数据集，以抵御网络爬虫抓取-爱云资讯

（爱云资讯消息）维基百科将要发布一个专为训练人工智能模型优化的数据集，来劝阻人工智能开发者抓取维基百科平台内容。4月16日，维基媒体基金会宣布与谷歌旗下的数据科学社区平台Kaggle合作，发布了一个测试版数据集，其中包含结构化的英文和法文维基百科内容。

维基百科表示，Kaggle托管的这个数据集专为机器学习工作流程设计，能让人工智能开发者更便捷地获取机器可读的文章数据，用于建模、微调、基准测试、对齐和分析。该数据集采用开放许可，截至4月15日已包含研究摘要、简短描述、图片链接、信息框数据和文章章节，但不含参考文献或音频文件等非文字元素。

维基百科表示，Kaggle用户可获取的结构良好的维基百科内容JSON格式数据，相比抓取或解析原始文章文本更具吸引力。目前自动化人工智能机器人持续消耗维基百科平台带宽，这给维基百科服务器带来压力。维基百科已与谷歌和互联网档案馆达成内容共享协议，但维基百科与Kaggle的合作将使中小企业和独立数据科学家更便捷地获取这些数据。

Kaggle合作伙伴关系负责人布伦达·弗林（Brenda Flynn）表示："作为机器学习社区获取工具和测试的平台，Kaggle非常荣幸能托管维基媒体基金会的数据。Kaggle很高兴能在确保这些数据保持可获取、可用且实用的过程中发挥作用。"

维基百科将发布专用于训练人工智能模型的数据集，以抵御网络爬虫抓取

相关文章

人工智能技术

人工智能公司

人工智能硬件

人工智能产业