当年有多悲伤今天就有多欢乐

记者手记当年有多悲伤 今天就有多欢乐

当西昌发射中心主任张学宇宣布:长征五号遥三运载火箭发射任务圆满成功的时候,位于海南文昌的指控中心一片欢腾。航天强国的大门,应声开启。

在这十年间,人们意识到:

不过要务必注意的是,无论人们对「知识图谱」如何定义、进行怎样的讨论,客观地说,它都是各个研究领域(例如,语义 Web,数据库,知识表征和推理,自然语言处理,机器学习等等)科学进展的结晶。

失败是最肥沃的土壤,当庆祝成功的时候,我们真诚地对2017年7月2日说一声:谢谢你,失败!

(3)第三条发展路线是从非结构化数据源中检索信息。

从某种程度上来说,我们可以认为知识图谱实现了计算机科学早期的愿景:创造智能化的系统,从而大规模集成知识和数据。本世纪初,研究者们提出了「知识图谱」这一术语,谷歌自 2012 年起便大力推广「知识图谱」技术,让它在学术界和工业界迅速流行了起来。

在数据方面,需要有更灵活的数据结构来表征新型的数据,从而产生了面向对象的思想和图数据结构。 在知识方面,需要进一步理解逻辑中知识的形式化,从而产生了描述逻辑。

硬件的物理、技术和成本限制 图表征和线性实现之间的差异 人类语言逻辑和计算机系统处理的数据之间的差异

相对于长五首飞时推迟了两小时的不完美和长五遥二的失利,908天后,中国航天人用这次华美的重生,雪洗痛楚,再度证明了自己。可以说,当年有多悲伤,今天就有多欢乐。

该系统展示了可以合理地被称为「理解」语义信息的能力。它使用单词关联和属性列表来建模对话语句中传达的关系信息。同时,他们通过格式匹配处理程序从英语句子中提取语义内容。

另一方面,出于类似的动机,Claudio 在一些场合也简短地介绍了知识图谱的历史(「知识图谱概念的简明叙述」),激发了年轻研究者的兴趣。这些反复发生的事件也促使作者撰写了本文和相关教程。

在实践层面上,「推理」特征的实现是多种多样的。Joseph Weizenbaum 的 ELIZA 系统就是一个很好的例子,只要程序编写正确,该程序就可以用英语进进行关于任何话题的对话。

天下难事必作于易,天下大事必作于细。火箭要想挣脱地球引力,突破空天束缚,要有足够的动力,也必须有精准的设计。这个复杂的巨系统,面对失败,只能是每一个节点抠得更细。

数字计算机的出现和普及、第一代编程语言(LISP、FORTRAN、COBOL、ALGOL 等最具代表性的语言)、一个新的科学和技术领域(即计算机科学)的诞生,标志着数字时代的开端。

上世纪 60 年代后期,Edward Shortliffe 开始开发第一个专家系统,该系统在 70 年代逐渐流行了起来。MYCIN 是专家系统的一个经典范例,它是一个识别引起严重感染的细菌的专家系统[14]。           

Newell、Shaw 和 Simon 在 1956 年发明的「Logic Theorist」是第一个标志性的处理复杂信息的程序。在这之后,他们于 1958 年开发的「通用解题程序」,很好地阐释了研究人员奉为圭臬的研究范式:「该程序是作者的研究工作的一部分,目的是理解人类智能、适应能力和创造能力背后的信息处理机制」。其目标为:「构建可以解决对智能和适应性有所需求的计算机程序,并探索这些程序中有哪些可以与人类处理问题的方式相匹配」。

发射后2220秒精准入轨,星箭分离,实践二十号卫星太阳翼依次打开,数据显示,本次火箭入轨精度直中靶心,相当于“十环”。这场干脆利落的成功,不仅让我们看到了一个新型火箭走向成熟的轨迹,也是一次航天人面对失败走向成功、堪称教科书级别的经典范例。

对于一名研究者来说,了解研究领域的历史背景对于推断出通往未来的可能途径至关重要。今天,这种重要性尤其凸显了出来,因为人们每天都淹没在了无穷无尽的信息的海洋中。这些历史背景堪称科研方法的「DNA」:为站在巨人的肩膀上而进行背景调研。

“这些再次充分说明,恐怖主义是世界各国面临的共同挑战,恐怖分子从来不分国籍、宗教、性别和年龄,因此反恐也绝不应有‘双重标准’。”华春莹说,各国应该加强合作,共同探索更加有效的预防性反恐和去极端化措施,维护各国的共同安全。(完)

知识图谱的概念所包含的基本要素可以追溯到古代。如果你想要深入挖掘它们的起源,应该同时考虑多个学科,其中包括数学、哲学、语言学和心理学[2]。然而,我们没有时间追溯回远古时代 [3],重新审视广泛的科学领域。

决策者知道,只有将失败研究得一清二楚,才能迎来彻头彻尾的成功。这正是中国人的聪明之处。回想当年核武器在不同条件下爆炸试验的数据和毁伤效果,美国进行了1030次,苏联715次,中国只有45次。但我们对每一次的成功失败都极为珍惜,研究得非常彻底。为以后的超越,以最少的数量赢得最大的积累。

这一想法是 Edgar Codd 的论文「A Relational Model of Data for Large Shared Data Banks」的核心,该论文描述了利用关系作为一种数学模型来提供表征独立性(Codd 将其称之为「数据独立性」)。这种理念促进了数据库管理系统和建模工具的发展。

在上世纪 50 年年代和 60 年代期间,人们意识到:

当时技术的局限性包括:

 自动推理的重要性和可行性 处理大型搜索空间的问题 对理解自然语言和其它人类对于知识的表征的需要 语义网络(和更加通用的图表征)作为抽象层的潜力 系统和高级语言对于管理数据的相关性

本文是智利大学教授 Claudio Gutierrez 为今年的 ISWC 大会所撰写的主题文章,从人工智能的起源开始,循序渐进地介绍了知识图谱诞生的历史,也探讨了该学科未来的研究方向。

S. C. Shapiro 的工作便是这一方向的早期探索,他提出了一种网络数据结构(一种存储方式)来组织和检索语义信息[13]。这些想法在语义网络和处理系统(SNePS)中得以实现,它可以被认为是第一个独立的 KRR 系统。

在文昌发射场的走廊里,都是这样的标识:“测试参数不合格不放过,测试结果有疑点不放过,设备性能不稳定不放过、故障不彻底查清不放过”“人员不带思想问题上岗,设施设备不带问题参试,火箭卫星不带问题上天”……

接下来,我们将重点介绍这一时代的五条发展路线:

此外,人们认为应该有更多的专用语言来处理数据,从而催生了 COBOL(1959)。COBOL 是一种早期的面向数据处理的编程语言,其语法看上去与英语类似。

因此,从时间的角度来看,我们将集中讨论现代意义上的计算出现之后(上世纪 50 年代),知识图谱的演变。此外,我们将每个时代划分为「数据」,「知识」和「数据+知识」来组织相关的思想、技术和系统。 我们以几十年为一个周期,但我们也意识到,周期之间的界限实际上较为模糊[4]。

长五遥三发射当天,团队每个人胸前的红色缎带上都印着:以必成之心,创未有之业。

作者选择从知识图谱学科历史发展的角度进行介绍,并且突出相关的重点内容。本文为读者展示了该领域的知识结构,引导读者跟进最新的相关思想、理论,以及我们认为具有标志性意义、并推动了当前学科发展的学术事件。本文旨在帮助读者理解哪些思想有效、哪些无效,并反映出它如何启发人们得出下一个想法。

2017年的那张时间表,探月三期、火星探测、载人空间站……似乎近在咫尺,2019年,它们都应该走上了星辰大海之路,在遥远的太空回望地球。但是,因为长五遥二发射失败,长五团队不仅面临自我任务的惨痛“归零”,还让其他任务的时间表停滞不前。长五总师李东赋词一首,有一句“怎堪回首说断箭,泪满面,肝肠断”。复飞那夜,浓云密布,李东因为抬头望不到月亮,还在愧疚因上次失利而影响了嫦娥五号任务。

“我们注意到有关报道。这是一起不幸的案件。”华春莹说,中方对无辜遇难者表示哀悼,对他们的家属和受伤人员表示慰问,对英国警方采取果断措施应对有关暴恐行为表示理解和支持。

他们终于看淡了一城一池的得失,将视线投向星辰大海。

20 世纪 80 年代,随着个人电脑的蓬勃发展,计算任务逐渐从工业界发展到家庭。在数据管理领域,关系型数据库工业发展迅速(Oracle、Sybase、IBM 等公司纷纷入场)。面向对象的抽象作为一种新的表征独立性的形式而发展起来。与此同时,互联网开始改变人们交流和交换信息的方式。

反观我们自身,人生几多巅峰,而更多的是平淡琐碎甚至谷底,自己也要在无人喝彩时默默坚守。在那些悲痛烦躁寂寞的时刻,能否将心从挫败、干熬时间,变成主动地跟失败对着干,也是一生必需的修炼。今天,长五团队尽情享受成功的场景,正是为中国的青少年演绎了一段强者成长史,阐明了如何把苦涩的眼泪变成蜜糖的奋斗规律。

有记者问,据报道,11月29日,一名身着伪造自杀式炸弹背心的男子在英国伦敦市伦敦桥附近持刀行凶,造成2人死亡。该男子最终被警方击毙。中方对此有何评论?

对于语义 Web 研究领域来说,尤其是其中前景最为光明的一个发展领域——知识图谱,我们注意到学生和初级研究者并没有完全地熟知他们所掌握的思想、概念和技术的来源。我们认为本文将是为克服这一缺点所迈出的一小步。

很早,人们就意识到在某种空间中进行搜索是所谓的「智能」或「推理」的努力的重要部分。为这样的空间建立一种好的表征可以使搜索更加容易。「排序」就是一个很直观的例子(70 年代以前,有 25% 的计算时间被用来对数据进行排序,使任何搜索过程都变得可行[8])。

上世纪 70 年代,计算机在工业界得到了更加广泛的应用。在这十年间,诸如苹果和微软等著名的公司纷纷成立。同时,像「Wordstar」和「Visicalc」等数据处理系统也诞生了。此时,存储和处理能力不断提升,人类的专业知识渐渐积累,从而推动了大型公司对改进数据管理方法的需求。

在系统层面上,人们基于关系模型,开发并实现了用于管理数据的软件应用程序,即关系型数据库数据库管理系统(RDBMS)。在这十年间,出现了两个关键系统:

2017年7月2日失利后,这个团队进入了知耻而后勇的战斗模式。

这一方向具有标志性的工作是:Charles Bachman 于 1963 年提出的集成数据存储(IDS)系统[9]。IDS 系统在磁盘上维护共享文件的集合,拥有构造和维护这些集合的工具和一种操作数据的应用程序语言。

长五成功是开启探月三期、火星探测、天和核心舱上天的钥匙,现在,航天强国大门开启,以后远征寰宇星辰大海,难道我们就不会再面对失败?

二、数据和知识的基石(20 世纪 70 年代)

由 Richard H.Richens 于 1956 年提出的「语义网络」是知识图谱领域最重要的概念之一,起初人们将它作为自然语言机器翻译的一种工具[10]。

甚至在计算机出现之前,对于从事数据处理的人来说,搜索的概念就广为人知。但是,对于在多样且复杂的空间(特别是在国际象棋、跳棋、围棋等游戏中产生的搜索空间)中进行搜索和表征的思想还是很新颖的。迪杰斯特拉(Dijkstra)于 1956 年提出了著名的最短路径算法,而这一算法在 1968 年被扩展,从而产生了 A* 算法。

山西省侨联充分发挥“中国华侨国际文化交流基地”的民族文化、地域文化特色,通过联合各基地开展“海外侨胞故乡行”、“中国寻根之旅”夏令营等主题活动,共同弘扬中华优秀文化、促进中外文化交流。

(4)第四条发展路线是处理数据的语言和系统。

当时技术的局限性则包括:

在建模层面上,Peter Chen 在他的论文「The Entity-Relationship Model – Toward a Unified View of Data」中介绍了「关系-实体」(ER)数据模型,提倡基于实体和它们之间的关系对数据建模。这样的 ER 模型以图的形式包含了现实世界的语义信息。这是早期尝试将概念设计与数据模型(在本例中是关系数据模型)联系起来的尝试之一。

据我们所知,我们仍然没有深刻理解知识图谱概念长期以来背后的思想、概念和技术[1]。我们希望本文可以对此作出贡献。

文中参考的相关论文,本文都会一一列出。

此后,研究者们继续在自动推理领域取得了一系列进展,其中较为突出的工作有:Robinson 第一定理(归结原理)[5]、Green 和 Raphael 通过开发问答系统将数据库中的定理证明和演绎联系起来[6][7]。

将这些来自不同学科的思想和技术融合起来,极大丰富了知识图谱的概念,但同时也给相关从业人员和研究人员提出了挑战:他们需要知道当前的研究进展如何根植于早期的技术,并从中发展而来。

对数据处理需求的增长带来了通过「表征独立性」(Representational Independence)概念体现的劳动分工。 这个时候,程序员和应用程序现在「忘掉」为了访问数据而对数据进行物理上的组织的方法。

三、管理数据和知识(20 世纪 80 年代)

在这次研讨会上,出现了诸如 Ray Reiter 提出的「封闭世界假设」和 Keith Clark 提出的「失败即否定」原则等重要的概念,这次会议可以被认为标志着数据逻辑方法的诞生,对该领域产生了深远的影响。人们普遍认为,这次研讨会形式化定义了逻辑和数据库之间的联系,并将其作为一个单独的字段。

(1)第一条发展路线是自动推理。

“中华傅山园”是为弘扬爱国主义优良传统,挖掘历史文化遗产,纪念我国乃至全世界颇具影响的傅山先生诞辰400周年而修建的太原市对外交流窗口。通过发掘传承傅山武学文化、中医药文化、膳食养生文化等多方位、大范围宣传傅山文化。

虽然「数据」流派重点关注数据结构,并创建系统以最好地管理数据,但「知识」流派则重点关注数据的意义。

这份工作后来影响了 Brachman 和 Levesque,启发他们确定了一个易处理的一阶逻辑的子集,而这后来成为了描述逻辑领域的第一个研究进展。(详见 1980 年代)

首先是长五团队如何面对失败?

这种做法保证了工作的效率,但是牺牲了后来被称为「数据独立性」的特性。IDS 成为了「CODASYL」标准的基础,后来还演变成了人们熟知的数据库管理系统(DBMS)。

沁河古堡群分布在沁河沿岸,是中国北方最大规模的古堡群,其封闭的建筑风格更显高官的胸襟气度,大开大合,是当时山西沁河流域富庶人家的独特历史见证。古堡不仅拥有用于军事防御的对外封闭、对内开放的建筑,而且还在历朝历代培育出了无数才子高官。

低谷时的支持比辉煌时的祝贺更可贵。当嘘声来时,对这些代表人类远征苍穹的科学工作者报以善意的鼓励,因为我们知道,科学也有险阻苦难,唯有意志坚定方能渡过难关。

今年3月长征系列运载火箭迎来了第300次出征,4月,长三甲金牌火箭实现第100次发射。这些老牌火箭哪个不是伤痕累累,有过痛心往事。但航天人知道,成功的鲜花绽放于废墟、残败之上,才更鲜艳更欢愉,所以这些优等生和学霸,珍惜每一次失败,在令人窒息的孤寂中,汲取了更大的力量。正因理解失败,所以明白,成功就是差一点点失败,失败就是差一点点成功。一次成功也只是伟大征程的一个重要节点。

为什么要写这篇文章?

(5)第五条发展路线是知识的图表征。

失败,像一根刺,扎在心底。

本文的内容和组织结构

这些系统首次实现了 Codd 所描述的关系模型查询系统的「愿景」,包括关系查询语言(如最终催生了当今最成功的声明式查询语言 SQL 的 SEQUEL 和 QUEL)。

需要保证表征独立性,关系模型就是第一个例子,而这种方法也可以在实际的系统中被实现。 需要通过形式化逻辑的工具,形式化定义语义网络。 可以通过网络的方法将逻辑和数据融合起来。

不断增长的计算能力推动了新计算领域和相关产品的发展。这些反过来又生成了需要管理的复杂数据。此外,假定表征独立性需要的关系演变导致了软件程序与数据的分离,促使人们想方设法将编程语言(特别是像 Smalltalk 这样的面向对象语言)与数据库结合起来。这导致了面向对象的数据库(OODB)的发展。

华春莹指出,据媒体报道,此案凶手有暴恐前科。他曾于2012年因企图对伦敦地标发动爆炸袭击而被判处有期徒刑16年,去年年底有条件获释并提前出狱。她又举例说,2018年12月,法国斯特拉斯堡发生暴恐案件,凶手也有犯罪入狱记录,一度还被警方列入“极端人员监视名单”。出狱后不久,他就在斯特拉斯堡圣诞集市上再次发动恐袭,酿成悲剧。

“同时,很多人跟我一样都在想,如果这起恐袭案件发生在中国,英美媒体会怎样报道和解读?”华春莹说,根据以往的经历,估计他们会把凶手美化成被压迫而不得不反抗的“斗士”,质疑警察近距离开枪击毙凶手是“过度使用暴力”。

(2)第二条发展路线就是我们今天所说的「在空间中搜索」。

其次,对我们来说,长五也是一次洗礼。

而每次,都只有很少的听众举手,并且这些听众往往是参加讲座的高级研究者。

「忘记过去的人注定要重蹈覆辙」

一、数字时代的来临(20世纪 50、60年代) 

在 2018 年的 15 场演讲中,Juan 向听众提出了以下问题:「如果你知道在 1956 年夏天举行的达特茅斯人工智能暑期研究项目,请举手」以及「你是否听说过上世纪 80 年代日本发布的第五代计算机计划」?

在构建一个基于知识的系统时,一个重要的问题是「从哪里获取知识」,该领域被称为「知识获取」。专家系统是对特定领域人类专家的知识(特别是规则)进行编码的程序,它解决了知识获取的问题。

Posted in <a href="https://www.markmolaro.com/category/shouye" rel="category tag">188平台首页</a>