〔助校〕 自管理的古籍OCR、校对、结构化众包平台
项目介绍
“助校”是为服务“清代学术笔记分主题检索数据库”而设计、开发的古籍众包整理平台,为项目实践而生,伴随项目进步,在项目推进中解决了影响古籍整理效率和成果应用能力的诸多问题,已在多个项目、百余种校对任务中经近百人团队的检验。
项目主持人在平台新建项目后,平台会在后台完成待整理任务的OCR和数据处理、导入,将任务归属到项目下,完成项目初始化;对于版面复杂、拼版、抄本等整理任务,平台会针对性处理,以使文本识别、行序复原呈现最优效果。
主持人可邀请多人加入团队,成员申领任务后分头从事校对,主持人可设置成员权限,并实时查看工作统计,导出word、xml、json等多种格式的成果数据。
功能服务
- 古籍扫描、图像处理、OCR
- 资料元数据管理,如卷目、页面类型、原书页码、出版页码等
- 图文对照的文本校对,支持纵向、横向排版,支持半筒子叶、筒子叶、拼版
- 管理文本行的排序、类型、段尾标记等,可导出高可用性的结构化数据
- 支持团队众包,修订记录精细、可追溯,按时长、各修订类型数目字统计工作量
- 导出 DOCX / XML / JSON / TXT 等格式数据
- 可培训自有校对队伍,或交成熟团队校对,完善的平台设计和权限管理,保障数据安全
- 平台持续完善中,可按需开发,开发、答疑人员随时响应
优势和特色
- OCR 字库大,平均准确度不低于95%
- 行序还原算法适配性高,对夹注、版面倾斜等效果良好
- 面向校订者的UI设计,减少按钮、紧凑排版、最大化图文区域,主要功能均支持快捷键操作,保障效率
- 图文互操作便捷,可双向快速、批量地定位、选中、操作,直观观察修订成果
- 可根据资料特点定制页面类型、行类型等
- 可便利修改行序、行类型、段位标记,支持批量修订
- 内置异体字字库、不易输入的字符面板等便捷工具,支持自定义
- 内置多部专业辞典,页内查询效率高
- 可高亮与文本匹配的关键词,可内置、自定义词库
- 经百余种校对任务和50余人校对团队实践检验
预览
👆 项目概览,实时更新统计数据,方便掌握项目进展
👆 面向校订者的UI设计,减少按钮、紧凑排版、最大化图文区域,主要功能均支持快捷键操作,保障效率;图文互操作便捷,可双向快速、批量地定位、选中、操作,直观观察修订成果
👆 可在表格CELL或图文对齐的局部图像区域校对,数据双向同步;使用快捷键可即时查询内置辞典;支持标记问题行,做行备注
👆 行序还原算法适配性高,对夹注、版面倾斜等效果良好,可通过行序标记图快速发现、修订行序错误,特别复杂的版面可通过流水灯检查行序错误
👆 全面支持Unicode 15.1,生僻字、异体字可通过内置工具录入,针对表外字较多的任务,开发字体应对。
👆 支持竖直排版和水平排版
👆 便捷工具,录入不便输入的字符,可自定义字符
👆 多部内置词典,即时解决校对中查词典的需求
👆 选项配置
👆 全面支持快捷键,脱离鼠标即可完成校对,提升工作效率,即时反馈的助记帮用户快速掌握快捷键
👆 项目管理,编辑项目信息、增删任务和成员、设定成员权限
👆 工作统计,精细的数目字统计,掌握各任务进展、细节和成员工作情况,方便计算工作量
关于
“助校”由武汉大学古籍所、武汉大学文化遗产智能计算实验室、北京新田科技公司合作研发,欢迎联系试用。
依托“助校”,我们未来将拓展文本微观分析方面的功能,推动开发面向学术研究分析的数据库,欢迎来信来电交流,共同推动古籍数字化工作。
联系人:齐建军 / 18910351736 / qijj@xintian.tech