首页 / 行业

NLP大模型必备-FudanNLP开源中文图书集合CBook-150K

2023-04-25 11:41:00

为了助力大模型研究，复旦大学自然语言处理实验室开源了中文图书数据集合CBook-150K，包含15万本中文图书的下载和抽取方法，涵盖人文、教育、科技、军事、政治等众多领域。

当前很多研究表明，高质量数据对于训练大规模语言模型具有至关重要的作用。图书中的内容在质量、专业水准、可靠性等方面远高于互联网数据。OpenAI在训练GPT 3时，也使用了大量图书资源。但是目前还缺乏大规模的中文图书开放集合。此外，由于绝大多数电子书籍的保存方式为PDF格式，从其中抽取文本内容也需要分析工具支持。复旦大学自然语言处理实验室结合此前自主开发的相关PDF分析工具，开源了中文语料图书集合CBook-150K。

复旦大学自然语言处理实验室，自2019年起，自研了PDF处理工具DocAI，针对非扫描件PDF，具有能够处理复杂格式、高效、高准确率、可私有化部署等特点。DocAI在全CPU解决方案下，单核CPU处理100页文档仅需10秒。提取字符准确率100%，结构分析准确率95%。DocAI智能文档解析系统支持对DOC、PDF等常见电子文档进行智能解析，对文档中的标题、段落、表格等半结构化数据进行结构化分析还原。该应用场景具有文件类型多，格式复杂，兼容性要求高等特点，特别是对于跨页表格，多栏排版等复杂场景的支持。是目前支持段落、表格融合识别的为数不多的智能文档解析工具之一。DodAI不依赖第三方资源，支持离线环境下的私有化部署和使用，确保文档隐私与安全。