Meta部署新的网络爬虫机器人,以收集大量数据用于其AI模型。
编辑日期:2024年08月21日
根据三家监控网络爬虫的公司提供的信息,Meta在上个月推出了新的网络爬虫工具——Meta External Agent。这款工具与OpenAI的GPTBot类似,能够抓取网络上用于人工智能训练的数据,比如新闻文章中的文本或在线讨论组中的对话。
根据使用档案的历史记录显示,Meta 确实于 7 月底更新了一个针对开发者的公司网站,其中有一个标签显示了新爬虫的存在,但截至目前,Meta 尚未正式公布这款新的爬虫机器人。
Meta的Llama是最大的语言模型之一,尽管该公司尚未披露最新版模型Llama 3的训练数据,但其初始版本的模型采用了来自Common Crawl等来源的大规模数据集进行训练。
今年早些时候,在一次财报电话会议中,Meta的联合创始人兼首席执行官马克·扎克伯格曾夸口表示,公司的社交平台已经建立了一个用于人工智能训练的数据集,其规模甚至“超过了Common Crawl”。
新爬虫的存在表明,Meta庞大的数据库可能已不足以满足需求,因为该公司持续致力于更新Llama项目并扩展Meta AI,而这通常需要新的、高质量的训练数据来不断优化和提升其功能。
根据Dark Visitors提供的数据,目前全球约有25%的热门网站已经屏蔽了GPTBot,但仅有2%的网站屏蔽了Meta的新爬虫机器人。