维基百科将发布专用于训练人工智能模型的数据集,以抵御网络爬虫抓取
2025-04-17 22:07:03爱云资讯1243
(爱云资讯消息)维基百科将要发布一个专为训练人工智能模型优化的数据集,来劝阻人工智能开发者抓取维基百科平台内容。4月16日,维基媒体基金会宣布与谷歌旗下的数据科学社区平台Kaggle合作,发布了一个测试版数据集,其中包含结构化的英文和法文维基百科内容。
维基百科表示,Kaggle托管的这个数据集专为机器学习工作流程设计,能让人工智能开发者更便捷地获取机器可读的文章数据,用于建模、微调、基准测试、对齐和分析。该数据集采用开放许可,截至4月15日已包含研究摘要、简短描述、图片链接、信息框数据和文章章节,但不含参考文献或音频文件等非文字元素。
维基百科表示,Kaggle用户可获取的结构良好的维基百科内容JSON格式数据,相比抓取或解析原始文章文本更具吸引力。目前自动化人工智能机器人持续消耗维基百科平台带宽,这给维基百科服务器带来压力。维基百科已与谷歌和互联网档案馆达成内容共享协议,但维基百科与Kaggle的合作将使中小企业和独立数据科学家更便捷地获取这些数据。
Kaggle合作伙伴关系负责人布伦达·弗林(Brenda Flynn)表示:"作为机器学习社区获取工具和测试的平台,Kaggle非常荣幸能托管维基媒体基金会的数据。Kaggle很高兴能在确保这些数据保持可获取、可用且实用的过程中发挥作用。"
相关文章
- 维基百科将发布专用于训练人工智能模型的数据集,以抵御网络爬虫抓取
- 《数据中心算力碳效可信评价技术规范》发布
- 终结大数据杀熟 云从科技参与“防算法歧视”国家标准正式发布
- 苏州数据基础设施(数联网)共建仪式启幕,数据要素市场迎来新篇章
- 博大数据高辉对话算力行业专家:AI大模型与算力产业深度融合,推动可持续发展
- 店雷达:1688跨境选品工具和数据分析运营插件
- Meta AI宣布即将使用欧盟用户数据训练人工智能模型
- 世界级航空枢纽凤凰展翅!科华数据高可靠电源助力又一超级工程
- LG U+携手Denodo打造现代化一体化数据管理基础设施
- 长安汽车与腾讯合作再深化,共建智能驾驶数据闭环
- 从辅助到共生:大数据和AI驱动特需儿童康复的范式变革
- 罗盘数据管控平台:智控风险,赋能未来
- GSMA:2030年移动技术将为中国经济贡献2万亿美元,数据流量翻四倍
- 是德科技推出用于大规模AI数据中心的系列解决方案
- 是德科技推出AI数据中心构建器以验证和优化网络架构和主机设计
- 云劭博携手河南大学:构建“数据+算法+场景“自主学习新生态!