NVIDIA开源高效图像视频生成套件
SANA是NVIDIA实验室推出的高分辨率图像与视频生成代码库,覆盖SANA、SANA-1.5、SANA-Sprint等多个模型,提供完整训练推理管线。对需要自托管文生图/视频服务的团队来说,这是目前少数同时支持高效推理和完整训练流程的开源方案。
汇总了 MedQA、MedMCQA、PubMedQA 等主流医学 QA 数据集的关键元信息,覆盖 USMLE、印度执照考试等场景。做医疗 AI 的团队不用再逐个爬论文找数据,直接对比规模、任务类型和许可协议即可快速选型。
A curated collection of datasets for Large Language Models (LLMs), covering medical AI, NLP, multimodal learning, instruction tuning, reasoning, code generation, and evaluation benchmarks.
医疗 AI 数据集的最大痛点不是找不到,而是许可协议混乱和标注标准不统一。这个仓库没解决后者,但把 MedQA 和 MedMCQA 等核心数据集的规模差异(12K vs 194K)直接摆出来,帮你快速判断预训练还是微调场景该用哪个。
真正该警惕的是 PubMedQA 的 Yes/No/Maybe 三分类设计——很多团队直接拿来做生成式微调,会导致输出分布偏移。建议优先看 MedMCQA 的四选项格式,更接近实际临床多选场景。
如果你在做医疗 RAG,BioASQ 的语义索引任务数据比纯 QA 对构建医学知识图谱更有价值,但这个仓库没标注版本信息,需要自己去 BioASQ 官网确认 2024 年批次是否已更新。
医学LLM数据集导航站,填补医疗AI数据选型工具空白
独特价值:唯一聚焦医学场景的LLM数据集元信息平台,降低数据选型成本