跳转至

AI之家

Meta部署新的网络爬虫机器人，以收集大量数据用于其AI模型。

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

Meta部署新的网络爬虫机器人，以收集大量数据用于其AI模型。

编辑日期：2024年08月21日

meta部署新的网络爬虫机器人以收集大量

根据三家监控网络爬虫的公司提供的信息，Meta在上个月推出了新的网络爬虫工具——Meta External Agent。这款工具与OpenAI的GPTBot类似，能够抓取网络上用于人工智能训练的数据，比如新闻文章中的文本或在线讨论组中的对话。

根据使用档案的历史记录显示，Meta 确实于 7 月底更新了一个针对开发者的公司网站，其中有一个标签显示了新爬虫的存在，但截至目前，Meta 尚未正式公布这款新的爬虫机器人。

Meta的Llama是最大的语言模型之一，尽管该公司尚未披露最新版模型Llama 3的训练数据，但其初始版本的模型采用了来自Common Crawl等来源的大规模数据集进行训练。

今年早些时候，在一次财报电话会议中，Meta的联合创始人兼首席执行官马克·扎克伯格曾夸口表示，公司的社交平台已经建立了一个用于人工智能训练的数据集，其规模甚至“超过了Common Crawl”。

新爬虫的存在表明，Meta庞大的数据库可能已不足以满足需求，因为该公司持续致力于更新Llama项目并扩展Meta AI，而这通常需要新的、高质量的训练数据来不断优化和提升其功能。

根据Dark Visitors提供的数据，目前全球约有25%的热门网站已经屏蔽了GPTBot，但仅有2%的网站屏蔽了Meta的新爬虫机器人。

大家在看

图标描述

图标描述

微软AI大模型通识教程

AI大模型开发

AI大模型入门教程

图标描述

Python入门教程

图标描述

Python进阶教程

图标描述

Python小例子200道练习题

图标描述

Python练手项目

Python从零到一60题

Python从零在线练习题

Python爬虫教程...

NumPy入门教程

NumPy文章

NumPy练习题

Pandas入门

Pandas练习

数据可视化教程

Flask开发

Django开发

Python办公自动化，数据处理，文档生成，电子邮件管理

运用人工智能技术的智能喂食器能辨识后院中每只鸟的独特身份为它们赋予名字只提供改写后的内容

已实现976的算力利用率无问芯穹推出了全球首例专用于单一任务的千卡异构芯片混合训练平台

更新马斯克已否认据消息为了测试gro...

中共中央提出构建人工智能安全管控体系

ai模型提前5年预测乳腺癌mit研究...

Page Views: Site Views: Visitors:

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析