马忠文丨史料不止是数据

音符科技网

《近代史资料》总151号

大数据时代被纳入各类数据库的史料不知凡几。面对汹涌而来的资料大潮,史学工作者无不眼花缭乱,疲于应付,这已经变得常态化了。在共享史料“爆炸”带来的红利时,研究者也会陷入无以自拔的痛苦中。一方面,史料的拓展为研究带来了契机和动力;同时,如何把控海量的资料,进行扎实有效的研究,也变得十分棘手。一个明显的倾向是史料很容易被“数据化”——正在以“数据”或“大数据”的形式呈现在史学工作者面前,被当作“数据”来处理。这种现象需要引起学界的注意和思考。

一、史料的无限拓展与有效“占有”

史料是史学研究的基础。从理论上说,各种史料都是片段的、琐碎的,反映的都是历史过程的不同侧面,都有一定的局限性;而且,史料也是源源不断被发掘出来的。当下史学研究在梳理学术史的时候,更多关注的是观点的演化和异同,却很少注意到围绕某个领域或主题的史料,其实也有一个不断积累、更新的过程。史学的进步,除了研究视角的变换,材料的推陈出新,往往发挥着主导性作用。换句话说,新材料的发现永远在路上,史料是不可能穷尽的。

前辈学人也有曾有过对史料“竭泽而渔”的理想。谈及古典学和一些冷门绝学,人们常常会认为可以“穷尽”材料,这是因为相关研究留存下来的文献有限,勤勉的学者基本上可以做到了如指掌,说“竭泽”也有一定道理。不过,从长时间动态的观察来分析,再“冷”再“绝”的学问,都会有新材料不断出现。即使没有新文献的披露,实物与考古资料的不断发现,也会推动古史研究的进步。可见,具体到每一位学者,以个人之力永远不可能真正“全面”地掌握材料。比较而言,古人占有史料的“全”与“不全”与当时媒介、信息交流的发达程度有相当的关系。因为信息交流的原因,前贤无法见到同时代其他学人集藏资料的情况司空见惯,在古籍版本研究中,近代以来不见于历代藏书大家著录的宋元珍本偶尔仍会现身,便是明证。

迈入大数据时代后,情况大为不同了。史料的发掘、交流、共享实现了革命性的突破。数据库和各种检索方式很大程度改变了材料的搜集效率和范围。大量旧有已刊文献的数字化,未刊文献在新技术加持下的涌现,以及 *** 传输的高速便捷,最短时间内就实现了史料海量汇聚与密集性呈现,这是传统史学研究无法企及的。

马忠文《晚清日记书信考释》

不过,即便如此,也不能说史料已经到了可以“穷尽”的时代。史料虽铺天盖地涌来,研究者大可不必被这番声势所慑服。应该坚信,我们面临的问题的不是能不能“全部占有”史料,而是占有哪些史料?只要研究是由个人来完成的,占有“全部”史料就不可能。史料的“足”与“不足”本来就是相对的。通常所说的“详尽占有”,不是指搜集材料的数量和范围,应是针对具体研究中最基础、最核心的那些史料而言的,当然也包括最新发现的有价值的材料。

关于这个问题,笔者认为有两点值得注意。首先,数字时代材料的膨胀有些“鱼龙混杂”,新材料的披露、旧材料的重新组合、材料的重复等情况交织在一起,给研究带来不少烦恼和困惑。研究者必须花费大量时间和精力去做史料的筛选,资料越多,鉴别与研究的难度反而更大。其次,新发现的资料是否有价值,只能在对已有史料熟悉把握基础上才能作出判断和取舍。说到底,面对海量史料,掌握真正对某项研究最基础和最核心的材料,至为关键。反之,没有扎实的研究积累和敏锐的学术判断力,也很难确定哪些新材料对自己的研究真正有用。

在数字技术飞速发展的今天,扫描、影印、出版档案、稿本等未刊资料,很受学界关注。不少数据库都以收入“未刊”史料,来突出其价值之独特性。可见,未刊资料往往是以“新史料”的面目出现的。不过,这个问题也要从两方面来看。未刊史料的披露,肯定是“史料”的增量因素,其积极意义必须肯定。但也不能武断地认为,未曾刊过就一定有重要价值,能解决重要问题。事实上,史料是积累起来的,尤其是基础和核心史料,大部分都是已刊文献。对已刊文献不熟悉和掌握,而过分寄希望于未刊资料,很容易本末倒置,使研究陷入歧途。对此,似应引起学人的足够重视。

总之,“全面”“详尽”占有资料,是相对而言的,每一代学人都曾面对过。关键是能否牢牢掌握基础史料和核心史料,随时把握专业领域内史料发掘的基本动态,并对新披露出的材料作出及时的判断,不断丰富自己对“有效”史料的占有。这才是应对大数据时代史料“膨胀”的制胜之道。

马忠文主编《近代史所藏李景铭档案》

二、史料需要感悟

大数据时代数据无处不在,数据观念深入人心,或有意,或无意,传统史料都常常被以“数据”待之。这样的转变很微妙,甚至在一些人看来,史料和数据并无二致。其实不然。数据是科学概念,是指通过观察、实验或计算得出的结果,可以用来做新的研究、设计或决策。每一种数据都是确定的、唯一的、可直接采信的。史料则不同,从理论上说,每条史料作为文本,蕴含着特有的信息,都有其形成的语境和背景,史料需经过考辨真伪后,方能取舍采信。可见,史料不能完全等同于科学语境下只注重文本意义的数据。

前辈学者阅读文献,注重史料辨析,辨别真伪,即是对史料文本与语境的综合分析和考察,一定意义上说,史料学就是研究史料形成的历史。史料的考辨是必不可少的环节,直接与重建史实相关,没有史料固然不可能重建历史,有了史料不甄别真伪,直接拿来用,同样无法构建起令人信服的历史。因此,在大数据时代,强调考订,避免史料“数据式”的直接利用,意义不可小觑。人们不可能对每一件史料都去做细致的考察,但必须要树立重视语境的意识和思维,并在研究实践中贯彻始终,这一点并不为过。

现在保存下来的清代和民国 *** 档案数量巨大,史料价值无需多言。特别是随着数字扫描技术的普及,档案数字化和 *** 传播技术的结合,出现了大批查阅方便的档案数据库。不过,当我们打开页面,看到各类原始官方文书时,切不可只当其为文本或数据,必须要考虑到这些档案形成的过程和背景,才能更好地理解和使用它们。例如,清代外官和京官的奏折,都是经过精心起草缮写的,甚至上奏时间都可能是有计划性的;清末一些地方督抚上折的同时,更是暗中联络言官,授意奏事,彼此呼应,制造声势。如此说来,仅仅看奏折内容而不关注奏折背后的情形,恐怕很难了解历史真相。研究晚清史,还需要熟知清代各类公文的流程和运转机制。即以奏折而言,督抚和廷臣的奏疏,奉朱批后,由军机处录副,形成朱批奏折和录副奏折两个文书系统,朱批返回到上奏者手中(以后再集中缴回),录副则保存于军机处。然而,也有不少原折被皇帝做了“留中”处理,这些被留中的原折并无批示,数日后发下“归箍”,实际上掺入其他录副奏折中被保存下来。这些没有奉批的奏折,或被认为是言官的“无稽之谈”不值当办理,也有事关机密,皇帝甚至连军机大臣也不希望他们知道,所以被“留中”(时人俗称“淹了”)。今天查询这些奏折,却发现内容多关朝局内幕,难怪皇帝不愿让他人知道。可见,不了解档案形成的过程,就不能准确地把握史料的真正价值。

王建朗、马忠文主编《近代史研究所藏稿钞本日记丛刊提要》

还有一类常见文献——地方志,人们似乎也很少留意其形成过程。中国古代地方志是适应大一统体制,借以反映地方历史、风俗、民情的文献。一般说来,清代州县地方志多聘请曾任职该州县的长官主纂,再组织名流、士绅和长于文字的文人参与编纂而成。很多情况表明,州县地方志的纂写,大多受到地方世家大族势力的制约,尤其是涉及地方宗族、家族传记的内容,褒扬隐讳,存在鲜明的倾向性。名门望族的孝行、烈女、贞妇明显多于一般寒门小户。了解这些情况,需结合其他文献综合考量,才能避免使用方志资料立论的片面性。

新闻报刊在晚清兴起后,始终与中外关系、朝局变迁息息相关,成为今天研究近代史的重要参考资料。特别是甲午战争后,近代报刊成为维新人士宣传变法思想的阵地,报刊与政治的联系愈加密切,庚子后革命党人宣传革命思想的报刊同样风靡一时。可见,近代报刊的发展与政治斗争的兴起始终伴随,很难说报道内容都是客观真实的。在研究庚子后的晚清政局时,《申报》《大公报》中大量有关京城动态、派系斗争报道和见闻,被研究者所引用,作为立论定性的依据。其实,太过依赖这类材料存在一定风险。清末的报刊已经介入政治斗争中,地方督抚或拉拢、收买报刊,或自办书报以为喉舌,媒介中的各类报道都有相对的倾向性,可否采信需要慎重对待。即如光绪三十三年(1907)丁未政潮期间《申报》对奕劻、岑春煊两派斗法、慈禧太后态度变化等情形的报道,细节虽十分生动,却未必可信,这些消息大多来源不明,系“无根之谈”,多为京城官场中的传言。所以,如果直接通过报刊数据库检索,拿来即用,不与其他日记、书信、电文等原始材料综合考订,得出的结论可能会远离真相。所以,使用材料必须要有探查其形成过程的意识。否则,史料很容易被消解成“数据”来简单利用,历史背后的复杂性很容易被遮掩或略去。

三、检索不能取代史料研读

传统史学是通过对史料的搜集、考辨,再进入研究、撰写阶段。研究者通过对各类史料研读,重建史实内部的联系,尽量恢复原始场景,寻求历史内在的因果关系,找出合乎情理的历史逻辑,完成历史过程的认识。可是,近些年数字技术的普及、史料的“膨胀”,以及检索手段的迅捷,潜移默化地影响了史学研究的方式,“检索史学”悄然出现,用检索材料来代替研读史料的现象十分普遍,其实质是淡化、省略史料考订这个史学研究中最重要的环节。资料激增,确实给筛选、处理材料带来了考验,但大多数情况下研究者还是因为获取资料便捷,便直接将研究的重心放在史料表层的处理上。不研读史料,便不能进入历史内部,去获得问题意识,进而展开研究;于是许多学者只好满足于从大量平面化的资料中勾稽逻辑,将文章写成逻辑严谨、文字流畅却没有历史感的研究“论著”。可以说,这种新的八股模式是将史料“数据化”和简单化的结果。

换个角度说,检索本来也有难以克服的局限。检索词的选择就不是简单的事情。举例来说,自从出现全文报刊数据库后,通过检索,利用近代报纸研究近代史变得十分普遍。像《申报》《大公报》《东方杂志》这样的名报刊,引用率陡增,全文检索大大开拓了研究者的视野,霎时间为研究者提供了靠人工翻阅无法获取的新鲜史料,在建立近代史上各事件、人物的广泛关联性方面开辟了新天地,由此受益者多矣。然而,这种靠检索建立历史关联的 *** ,效率似乎很高,局限性也是明显的。毕竟,这种通过关键词检索建立起来的联系,是外在的,与历史本来的内部联系通常很难完全吻合。

徐雁平、马忠文主编《晚清珍稀稿本日记》

以人物检索为例,用什么样的名字,才能搜索到丰富而完整的人物资料?这里不是简单的科技文献检索,而是史料搜集,需要了解时人称呼他人的各种习俗,对此今人未必都能尽知。按照清人习惯,直呼其名是大为失礼的,一般称字号或官位尊称,还有其他不同说法。举例来说,如果查阅袁世凯的材料,只输入“袁世凯”三个字是远远不够的,这三个字通常只能查出《申报》中附载的《邸抄》《京报》中上谕或奏折,都是官方文献;有关袁世凯的大量的信息,都是以其他代称或敬称反映出来的。袁氏曾官道员,驻朝鲜的通商委员,时人称他为“袁道”“袁观察”“袁委员”,升任直隶按察使后就有了“臬司”的官称;袁氏字慰亭,也做慰廷,做山东巡抚、直隶总督时又被成为“袁慰帅”“慰帅”,丁未政潮后官外务部尚书时又称“袁尚书”,更不用说“项城”“袁宫保”“本初(三国时袁绍的字)”之类的代称,这些都是查阅袁世凯资料时要考虑输入的词语。即便如此,可能还是有遗漏。可见,依据全文数据库检索材料也不是做万能的。我们在体验到数据库带来的便利时,也应考虑到再严密的检索,也有挂一漏万的时候。

大数据时代的各种资源共享与开放性,为学术研究带来前所未有的有利条件,这是必须要肯定的,尤其是在校勘、辑佚、版本异同比较等文献学领域功效尤为突出。但是,具体到史学研究,大数据只是在传统意义的史料搜集上实现了历史性的跨越,对研究本身的助力需要审慎评判。史料不是冰冷的数据,史料是鲜活的,有温度的,将史料“数据化”,忽略其语境和背景,实际已危害到史学作为学科存在的边界。研读史料和技术领域的数据利用毕竟是两回事。史学研究还是要遵循从历史内部找到切入点,发掘内在的历史逻辑,而不是从资料外部寻求关联,以代替内在的因果关系。在这个意义上,台湾地区学者黄一农教授多年前提出的“e考据”理论是对数字技术和史学结合的精准概括,即运用最新技术条件,充实传统史学以考据为基础的研究 *** ,这种模式中,史料(数据)检索是作为一种补充手段而存在的,并非研究本身。

(本文首发于《近代史资料》总151号,澎湃新闻经中国社科院近代史研究所《近代史资料》编辑部和作者授权转载)

文章版权声明:除非注明,否则均为音符科技网 wap.luzhiwang.com原创文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 分析师惊人预测:在这个时间点 金价将触及8000美元大关
  • 百利天恒股价创新高,实控人朱义坐稳四川首富
  • 在美被拘留韩国人最早将于10日乘包机返韩
  • 中国光大绿色环保盘中涨超10% 已收到逾20亿元可再生能源补贴
  • 100%!钨精矿与钨粉价格翻番
  • 司法部谈政府立法:加大立法审查力度,完善备案审查制度机制
  • 北京:小客车普通指标可不限次数切换购置燃油车或新能源车
  • 纸业股早盘走高 晨鸣纸业涨超8%理文造纸涨超4%
  • 9月8日投资早报|中芯国际筹划购买中芯北方49%股权继续停牌,广汽集团8月汽车销量13.57万辆同比下降8.43%,罗博特科筹划在港交所上市
  • 再鼎医药盘中涨超5% 预计FORTITUDE-102研究数据将于25H2或26H1公布
  • 伊朗最高领袖呼吁各国与以色列断交
  • 央行连续10个月增持黄金助推国际金价创新高 潼关黄金等股均涨超4%
  • 受益于AI服务器需求爆发  创金合信基金王鑫:液冷行情正逐步转向基本面驱动
  • 金阳新能源盘中涨近10% 机构预计BC扩产提供订单韧性
  • 上金所调降优化主板黄金询价合约手续费率
  • 美国就业数据疲软推高降息预期,黄金逼近3600美元关口
  • “人工智能+能源”迎重磅政策支持,两部门最新发文
  • 买方质疑业绩预测又遭分析师怒怼,今日开盘高位算力硬件股大幅下挫
  • “拒保”阴云下的新能源车险调查:省下的油费,补不上保险的窟窿
  • 荃信生物-B早盘涨超11% 公司成熟管线逐步迈入兑现期
  • 高盛:微降新意网集团目标价至10港元 维持买入评级
  • 阿里巴巴-W现涨超4% 旗下通义千问推出最强模型Qwen3-Max-Preview
  • 中信里昂:维持康方生物目标价177港元 评级“跑赢大市”
  • 高盛:对美团-W本地服务领导地位充满信心 维持目标价144港元
  • 进出口总值超29万亿元!今年前8个月我国货物贸易实现平稳增长
  • 广西钦州警方通报砖厂涉嫌利用残障人员非法务工:现场找到5名疑似残障人员,工厂负责人被控制
  • 辽宁警察学院原党委书记李锦奇接受审查调查
  • 兴证国际:予贝壳-W买入评级 有望受益于地产行业止跌回稳带来的β弹性
  • 浙江一男子加热中药忘关火,27天后回家才发现,当事人:后怕,还好燃气灶品质好
  • 官宣拆分,降门槛!科创人工智能ETF(589520)本轮拉升51%,后市怎么看?国产AI还能涨吗?
  • 广深铁路股份现涨超8% 绩后股价累计涨幅已超30%
  • 国内功率最大国产商业投运重型燃气轮机!“太行110”首台套商业机组出厂
  • 两部门发布关于推进“人工智能+”能源高质量发展的实施意见
  • 今年1至8月各地涉企行政检查数量同比普遍下降30%以上
  • 应星控股现涨超6% 附属将成为在中国举行的航海王知识产权展览战略参与方
  • 公募销售费用新规点评来了!对券商业绩影响有限,机构重申看好,顶流券商ETF(512000)20日吸金超56亿元
  • 兆威机电港股上市收证监会反馈意见:需说明香港兆威设立情况,未履行境外投资备案程序是否构成重大违法违规
  • 地平线机器人-W盘中涨超6%创上市新高 恒生科技权重调整
  • 历史缝隙里的人︱击碎时代一粒沙:“小公务员”穆齐贤的沉默与爆发
  • 内房股早盘集体走高 碧桂园涨超10%远洋集团涨超5%
  • 目录[+]

    取消
    微信二维码
    微信二维码
    支付宝二维码