Tether Data 的 AI 部门 QVAC 已发布 Genesis II,该公司向其用于人工智能预训练的开源合成数据集新增了 1070 亿个代币。完整的数据集现在涵盖 19 个教育领域的 1480 亿个代币,使其成为同类数据集中规模最大的。
Genesis II 拓展至计算机科学、统计学和机器学习等新领域,同时引入了一种全新的“选项级推理”方法,该方法能够教会模型通过多项选择题进行推理。这建立在 QVAC 在 Genesis I 中提出的故障分析方法之上。
Tether 首席执行官 Paolo Ardoino 表示,该计划将人工智能从流畅性提升到结构化理解。该数据集以知识共享许可协议发布在 QVAC 的博客和 Hugging Face 网站上,支持在集中式人工智能平台之外开展开放研究和本地模型开发。