Invoices (Sparrow) 数据集 - Gitee AI
来源: | 作者:DE.Tech | 发布时间: 2024-04-28 | 428 次浏览 | 分享到:

Invoices (Sparrow) 数据集 - Gitee AI

数据集描述:

  • 数据集内容:包含500份发票文档,这些文档已经被注释和处理,准备好用于Donut机器学习模型的微调。

  • 注释和数据准备:由Katana ML团队完成。

  • Sparrow:Katana ML提供的开源数据提取解决方案。


原始数据集信息:

  • 作者:Kozłowski, Marek; Weichbroth, Paweł

  • 年份:2021

  • 数据集名称:"Samples of electronic invoices"

  • 存储库:Mendeley Data

  • 版本:V2

  • DOI:10.17632/tnj49gpmtz.2


在datasets中使用:

from datasets import load_dataset

dataset = load_dataset("katanaml-org/invoices-donut-data-v1")

// 执行上面脚本时,请设置环境变量:
export HF_ENDPOINT=https://hf-api.gitee.com
export HF_HOME=~/.cache/gitee-ai



"Invoices (Sparrow)"数据集是一个专门用于机器学习模型微调的发票文档数据集。该数据集由Katana ML团队进行注释和准备,并使用了Sparrow这一开源解决方案进行数据提取。原始数据集的详细信息提供了数据集的作者、年份、名称、存储库、版本和DOI,有助于用户进一步查找和引用该数据集。

返回
深度元素科技,您的信赖之选