CBook-150K：复旦大学自然语言处理实验室的中文图书语料库

CBook-150K:复旦大学自然语言处理实验室的中文图书语料库

CBook-150K是由复旦大学自然语言处理实验室开发的一个大规模中文图书语料库。该项目旨在为自然语言处理研究提供丰富的中文文本资源,包含了约15万本中文图书的MD5链接。这个语料库的规模和多样性使其成为中文自然语言处理研究的宝贵资源。

项目概述

CBook-150K项目由复旦大学自然语言处理实验室开发和维护。该项目的主要特点包括:

大规模语料:包含约15万本中文图书的MD5链接
多样化内容:涵盖了各种主题和类型的中文图书
开源可用:通过GitHub开源发布,供研究人员使用
实用工具:提供了图书解析和处理的相关代码

项目的GitHub仓库地址为:https://github.com/FudanNLPLAB/CBook-150K

MD5链接结构

CBook-150K项目中的MD5链接按照以下结构组织:

├── CBOOK_MD5
    ├── MD5_0_9999
        ├── MD5_0_999.txt
        ├── MD5_1000_1999.txt
        ├── ...
        ├── MD5_9000_9999.txt
    ├── MD5_10000_19999
        ├── MD5_10000_10999.txt
        ├── MD5_11000_11999.txt
        ├── ...
        ├── MD5_15000_15999.txt
    ├── ...
    ├── MD5_140000_149999
        ├── MD5_140000_140999.txt
        ├── MD5_141000_141999.txt
        ├── ...
        ├── MD5_149000_149999.txt

这种结构使得研究人员可以方便地访问和管理大量的MD5链接。

MD5快传插件使用

为了方便用户获取和使用这些图书资源,项目推荐使用MD5快传插件。以下是使用步骤:

下载并安装插件
在百度云盘中使用插件
将MD5链接复制到插件的秒传窗口中进行转存
转存成功后即可批量下载图书文件

百度云盘插件使用界面

秒传窗口

图书解析

CBook-150K项目不仅提供了图书的MD5链接,还提供了解析不同格式图书的示例代码。主要支持以下格式:

PDF(非扫描版)
EPUB
MOBI

对于PDF格式的解析,项目推荐使用两种方法:

DocAI:复旦大学自然语言处理实验室自主开发的非扫描件PDF处理工具
Python第三方库PyPDF2

以下是使用PyPDF2解析PDF的示例代码:

import PyPDF2
import os

# 保存每页文本信息
page_info = []
try:
    # 指定pdf文件路径
    book_path = os.path.join(pdf_chinese_md5_dir,PDF_MD5)
    with open(book_path, 'rb') as pdf_fp:
        pdf_reader = PyPDF2.PdfReader(pdf_fp)
    if pdf_reader.is_encrypted:
        # 如果PDF文档是加密的，则需要提供密码才能继续处理
        pass
    else:
        # 遍历每一页并提取文本信息
        for i in range(len(pdf_reader.pages)):
            page = pdf_reader.pages[i]
            text = page.extract_text()
            # 如果提取到的文本信息非空，则认为该PDF文档包含文本信息
            if text.strip():
                page_info.append(text.strip()+'\n')
except Exception as e:
    print(e)

对于EPUB格式的解析,项目提供了以下示例代码:

import zipfile
from bs4 import BeautifulSoup
import os

# 每个chapter文本
chapter_content_list = []
# 指定epub文件路径
book_path = os.path.join(epub_chinese_md5_dir,EPUB_MD5)
# 使用ZipFile库打开epub文件
book = zipfile.ZipFile(book_path)
# 获取书籍的文本HTML名称
xhtml_data = [string for string in book.namelist() if string.endswith('xhtml') or string.endswith('html') or string.endswith('xml')]
# 解析每个HTML文本格式
for k in range(len(xhtml_data)):
    try:
        chapter_file = book.open(unquote(xhtml_data[k]))
        chapter_content = chapter_file.read().decode('utf-8')
        chapter_content = BeautifulSoup(chapter_content, 'html')
        chapter_content_list.append(chapter_content.get_text().strip())
    except Exception as e:
        print(e)
    continue

对于MOBI格式的解析,项目提供了以下示例代码:

import mobi
import shutil
from bs4 import BeautifulSoup
import os

# 指定mobi文件路径
book_path = os.path.join(mobi_chinese_md5_dir,MOBI_MD5)
# 提取TMP文件路径
tempdir, filepath = mobi.extract(book_path)
#获取HTML文件内容后删除中间文件
try:
    with open(filepath,'r',encoding='utf-8') as mobi_fp:
        chapter_content = mobi_fp.read()
    shutil.rmtree(tempdir)
    #利用BeautifulSoup提取HTML文本信息并作格式化后重新提取
    chapter_content = BeautifulSoup(chapter_content, 'html.parser')
    chapter_content = chapter_content.prettify()
    chapter_content = BeautifulSoup(chapter_content, 'html.parser')
    file_content = chapter_content.get_text().strip()
except Exception as e:
    print(e)