快好知 kuaihz订阅观点

 

字节和北大合作研发识典古籍官网 现已上线685部古籍

2月24日消息,在字节跳动与北京大学的合作之下,识典古籍官网现已上线了685部古籍,包括双方参与设计与研发的《永乐大典》高清影像数据库,用户可以登录官网或者在今日头条古籍频道查看已上线古籍

据了解,古籍数字化业务的研发复杂度很高,例如古籍的格式里,大字是正文,小字是注解,单独一列的大字是标题。

为了把这些复杂的结构区分开,字节方面定义了一套古籍的元数据协议。字节团队将一页一页的古籍变成了结构化的数据,可以满足行业通用的 TEI(Text Encoding Initiative)元数据标准,能区分章节、标题、内文,方便搜索、翻看,而且还能进一步编辑整理。

(图源:识典古籍官网)

借助飞书文档提供的SDK,字节已经为合作方北大的专家学者们提供了古籍整理平台,便于精校现有古籍、增加新的书目。

识典古籍是由“北京大学—字节跳动数字人文开放实验室”研发的古籍数字化平台,该平台于2022年10月正式上线测试版,并向公众免费开放。

未来三年,“识典古籍”将陆续完成一万种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录,届时将全部免费开放。

“识典古籍”项目负责人介绍,该平台当前主要使用了三种技术,包括文字识别、自动标点和命名实体识别。目前行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。

(图源:字节跳动技术范儿公众号)

值得一提的是,日前,36氪报道称,字节跳动在大模型上已有所布局,分别在语言和图像两种模态上发力。字节跳动相关技术负责人对此回应:技术中台在这些领域有探索,还很初期,不成熟。

一名知情人士透露,语言大模型团队由字节搜索部门牵头,目前团队规模在十数人左右。图片大模型团队则由产品研发与工程架构部下属的智能创作团队牵头。

另有知情人士表示,字节跳动语言大模型团队在今年组建,探索方向主要为与搜索、广告等下游业务的结合,“搜索业务部门、AI Lab和AML(应用机器学习)团队都调了一部分人支援语言大模型,团队目前的预期是在今年年中推出大模型”。

,

本站资源来自互联网,仅供学习,如有侵权,请通知删除,敬请谅解!
搜索建议:古籍  古籍词条  字节  字节词条  现已  现已词条  北大  北大词条  上线  上线词条  
报道

 常熟每日优鲜被执行241万余元

12月15日消息,天眼查App显示,常熟每日优鲜电子商务有限公司近日新增两则被执行人信息,执行标的共计241万余元,执行法院分别为宁波市海曙区人民法院和常熟市人...(展开)

报道

 雷军卸任小米电子软件董事长

9月14日消息,天眼查信息显示,近日,天星数科关联公司北京小米电子软件技术有限公司发生工商变更,雷军卸任董事长,林斌卸任董事,洪锋卸任法定代表人、董事、经理,新...(展开)