? 中新社北京8月14日电 (记者 刘亮)在人工智能时代,,,,,,,,Token(即“词元”)作为处理文本的最小数据单元,,,,,,,,如同互联网时代的“流量”。。。。。。。中国国家数据局局长刘烈宏14日在北京举行的新闻发布会上介绍,,,,,,,,截至今年6月底,,,,,,,,中国日均Token消耗量已突破30万亿。。。。。。。 国务院新闻办公室当天举行新闻发布会,,,,,,,,介绍“十四五”时期数字中国建设发展成就。。。。。。。刘烈宏在会上表示,,,,,,,,2024年初,,,,,,,,中国日均Token的消耗量为1000亿,,,,,,,,截至今年6月底,,,,,,,,日均Token消耗量已突破30万亿,,,,,,,,1年半时间增长了300多倍,,,,,,,,这反映了中国人工智能应用规模?????焖僭龀。。。。。。。 他指出,,,,,,,,人工智能快速发展,,,,,,,,与中国高度重视数据工作密不可分。。。。。。。中国是第一个把数据作为生产要素的国家,,,,,,,,多措并举促进数据资源的开发利用。。。。。。。中国强调“人工智能+”行动到哪里,,,,,,,,高质量数据集的建设和推广就要到哪里。。。。。。。 近年来,,,,,,,,中国大力推动高质量数据供给,,,,,,,,出台高质量数据集建设相关文件,,,,,,,,多部门联合推动相关工作。。。。。。。同时,,,,,,,,持续推进高质量数据集建设工作。。。。。。。截至今年6月底,,,,,,,,中国已建设高质量数据集超过3.5万个,,,,,,,,总体量超400PB。。。。。。。据悉,,,,,,,,1PB可存储约5亿张2MB大小的高清照片,,,,,,,,400PB相当于中国国家图书馆数字资源总量的140倍左右。。。。。。。 人工智能模型的训练也推动数据交易需求攀升。。。。。。。刘烈宏介绍,,,,,,,,截至今年6月底,,,,,,,,中国各地高质量数据集累计交易额近40亿元人民币,,,,,,,,数据交易机构挂牌的高质量数据集总规模达246PB。。。。。。。以北京数交所为例,,,,,,,,高质量数据集占交易总量的比例从去年的10%跃升到目前的近80%。。。。。。。 中文数据在国内大模型的训练性能提升方面发挥着重要作用。。。。。。。刘烈宏说,,,,,,,,中国多数模型训练使用的中文数据占比已超过60%,,,,,,,,有的模型已达80%。。。。。。。中文高质量数据的开发和供给能力持续增强,,,,,,,,推动中国人工智能模型性能快速提升。。。。。。。(完)