多种异构模态数据,如:文本、图像、音视频等
多模态
计算机视觉
通过摄影机和电脑模拟人眼对目标进行识别、跟踪和测量等
自然语言处理
人机交互,让计算机理解和处理人类语言的复杂性和多样性等
音频
表格
通过与环境的交互来学习策略,以达成回报最大化或实现特定目标
强化学习
UI RefExp Saved:动态生成的UI Bert数据集的快照
2024-05-10
COCO-Karpathy:用于图像描述的Karpathy分割数据集
SBU Captioned Photo Dataset:Flickr图像与描述性标题的数据集
Riksarkivet Test Images Demo:历史文档图像数据集
Persian License Plate v1:用于识别波斯语车牌的数据集
Visual Genome:连接语言和视觉的众包密集图像注释数据集
Conceptual 12M:面向视觉-语言预训练的大规模图像-文本对数据集
COYO-700M:大规模图像-文本对数据集
RedCaps:来自Reddit的大规模图像-文本对数据集
Conceptual Captions:大规模图像描述数据集