跳转至

AI之家

据悉，一些知名公司如苹果和英伟达利用存在争议的YouTube资源来训练人工智能模型。这些资源包含5.7GB的数据，涵盖了4.8万个频道和17.4万个视频字幕。

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

据悉，一些知名公司如苹果和英伟达利用存在争议的YouTube资源来训练人工智能模型。这些资源包含5.7GB的数据，涵盖了4.8万个频道和17.4万个视频字幕。

编辑日期：2024年07月17日

据悉，这些科技企业在训练人工智能模型时，利用了一个名为 YouTube Subtitles 的庞大数据库，该数据库容量高达 5.7GB，包含了多达 4.89 亿个单词。

这个数据集源于EleutherAI的匠心制作，初次亮相于2020年，涵盖了超过48000个频道的173536条YouTube视频字幕信息，其中包括了超过12000个已被平台移除的视频的字幕内容。

YouTube Subtitles 数据集主要采集热门 YouTube 频道的资源，附上相关信息如下：

"The Pile" 数据集合是一个综合性的数据集，其中囊括了多个不同的训练数据集，而YouTube Subtitles 则是它的一个组成部分。这个数据集合的独特之处在于，它的大部分内容对任何具备足够存储空间和计算能力的用户都开放。

大家在看

图标描述

图标描述

微软AI大模型通识教程

AI大模型开发

AI大模型入门教程

图标描述

Python入门教程

图标描述

Python进阶教程

图标描述

Python小例子200道练习题

图标描述

Python练手项目

Python从零到一60题

Python从零在线练习题

Python爬虫教程

NumPy入门教程

NumPy文章

NumPy练习题

Pandas入门

Pandas练习

数据可视化教程

Flask开发

Django开发

Python办公自动化，数据处理，文档生成，电子邮件管理

全新车型问世，由知名法拉利设计师匠心打造，价格上限设定为20万元，敬请期待。

amd-发布-rocm-613支持-rx-7900-gre-显卡及-tensorflow

小米米家智能多功能养生壶p1上市接入澎湃智联售价199元

首个类sora开源复现方案opensora可在英伟达rtx3090显卡上ai生成视频最高4秒240p

Kimi的研究论文揭示了一种关键的推理架构，该架构承担了80%的流量处理任务。

Page Views: Site Views: Visitors:

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析