跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

据悉,一些知名公司如苹果和英伟达利用存在争议的YouTube资源来训练人工智能模型。这些资源包含5.7GB的数据,涵盖了4.8万个频道和17.4万个视频字幕。

编辑日期:2024年07月17日

据悉,这些科技企业在训练人工智能模型时,利用了一个名为 YouTube Subtitles 的庞大数据库,该数据库容量高达 5.7GB,包含了多达 4.89 亿个单词。

这个数据集源于EleutherAI的匠心制作,初次亮相于2020年,涵盖了超过48000个频道的173536条YouTube视频字幕信息,其中包括了超过12000个已被平台移除的视频的字幕内容。

YouTube Subtitles 数据集主要采集热门 YouTube 频道的资源,附上相关信息如下:

"The Pile" 数据集合是一个综合性的数据集,其中囊括了多个不同的训练数据集,而YouTube Subtitles 则是它的一个组成部分。这个数据集合的独特之处在于,它的大部分内容对任何具备足够存储空间和计算能力的用户都开放。

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析