据悉,一些知名公司如苹果和英伟达利用存在争议的YouTube资源来训练人工智能模型。这些资源包含5.7GB的数据,涵盖了4.8万个频道和17.4万个视频字幕。
编辑日期:2024年07月17日
据悉,这些科技企业在训练人工智能模型时,利用了一个名为 YouTube Subtitles 的庞大数据库,该数据库容量高达 5.7GB,包含了多达 4.89 亿个单词。
这个数据集源于EleutherAI的匠心制作,初次亮相于2020年,涵盖了超过48000个频道的173536条YouTube视频字幕信息,其中包括了超过12000个已被平台移除的视频的字幕内容。
YouTube Subtitles 数据集主要采集热门 YouTube 频道的资源,附上相关信息如下:
"The Pile" 数据集合是一个综合性的数据集,其中囊括了多个不同的训练数据集,而YouTube Subtitles 则是它的一个组成部分。这个数据集合的独特之处在于,它的大部分内容对任何具备足够存储空间和计算能力的用户都开放。
大家在看
AI安装教程
AI本地安装教程
微软AI大模型通识教程
微软AI大模型通识教程
AI大模型入门教程
AI大模型入门教程
Python入门教程
Python入门教程
Python进阶教程
Python进阶教程
Python小例子200道练习题
Python小例子200道练习题
Python练手项目
Python练手项目
Python从零在线练习题
Python从零到一60题