Invoices (Sparrow) 数据集 - Gitee AI
来源:
|
作者:DE.Tech
|
发布时间: 2024-04-28
|
428 次浏览
|
分享到:
Invoices (Sparrow) 数据集 - Gitee AI
数据集描述:
原始数据集信息:
作者:Kozłowski, Marek; Weichbroth, Paweł
年份:2021
数据集名称:"Samples of electronic invoices"
存储库:Mendeley Data
版本:V2
DOI:10.17632/tnj49gpmtz.2
在datasets中使用:
from datasets import load_dataset |
|
dataset = load_dataset("katanaml-org/invoices-donut-data-v1") |
// 执行上面脚本时,请设置环境变量: |
export HF_ENDPOINT=https://hf-api.gitee.com |
export HF_HOME=~/.cache/gitee-ai |
"Invoices (Sparrow)"数据集是一个专门用于机器学习模型微调的发票文档数据集。该数据集由Katana ML团队进行注释和准备,并使用了Sparrow这一开源解决方案进行数据提取。原始数据集的详细信息提供了数据集的作者、年份、名称、存储库、版本和DOI,有助于用户进一步查找和引用该数据集。