找回密码
 FreeOZ用户注册
楼主: coredump
打印 上一主题 下一主题

[业界新闻] 人工大脑之父放言:50年后机器人威胁人类(请热爱AI的同学们关注本帖的后续精彩讨论)

[复制链接]
301#
发表于 2-7-2009 13:53:53 | 只看该作者


说起这个,让我想起史忠植先生的《知识发现》,很值得一读。虽然不是科普读物,
但因为是综述性的,比较容易明白。可惜我那本书在我出国前已经找不到了。
回复  

使用道具 举报

302#
发表于 2-7-2009 14:03:10 | 只看该作者
其实细胞自动机是一种思想,而不是一个具体的理论。或者说我们能够借鉴的,是这种思想。
事实上,相对于现在普遍采用的,复杂数学模型,过多的人工干预。这种思想认为,通过海量
的相对简单的运算,计算机可以处理复杂的问题。

而我在研究中的思想与这个思想不谋而合。在自然语言这个领域,现在大行其道的是用复杂统
计学算法去归类,处理。然而这种方法有着明显的问题。那就是自然语言的多样性。人为的分类
见效快,对于部分规则的自然语言元素很有效,但是在到达一定的精度以后,就无法继续向上突破。

事实上,我目前采用的算法和数据结构并不是细胞这一级的,因为我需要在有限的时间内,做出
被承认的阶段性成果。这是现实决定的。但是在我设计算法和数据结构的时候,我会考虑,未来
可以分解成细胞级的操作。并且可以用神经元网络的模型来很容易地定义我现有的体系。

顶楼这本书的作者,他的思路也是细胞级的,所以他离实用成果更远。但是如果我能在相对短
的时间内获得阶段性成果,那么我认为我的研究是这种思想的一种应用和体现。

某种角度来说,这是个从特殊到一般的过程。我们传统的自顶向下的程序,其实是最特殊的。
每个程序只能解决严格定义的特殊问题。我现在研究的自然语言,也是一个特殊问题,但是
比严格定义的需求要一般化,为了研究速度,我也自己总结定义了一些算法和数据结构,同时
我也注重尽量用简单的算法和数据结构,这样才有更强的普适性。而细胞自动机和顶楼这部书
作者的工作,其实是完全一般的课题。而我的研究界于传统架构与细胞级的系统之间。

但是,我认为这种从特殊到一般的方向,是人工智能的正确方向。

原帖由 coredump 于 2-7-2009 12:43 发表
Hugo同学的研究也用到了细胞自动机原理,我记得那个Wolfram同学的A New Science也是讲的这东西,青山给我们讲讲吧。
回复  

使用道具 举报

303#
 楼主| 发表于 2-7-2009 14:06:38 | 只看该作者
原帖由 liuhuey 于 2-7-2009 12:49 发表
他说要五十年,你说不要那么久...

他说人工智能不靠谱,你说确有可行性......

就算你说对了他错了,这个辩论有什么意义呢?


技术辩论不是侃大山,而且那句话也算不上辩,只不过互相表示了下对一项技术的乐观程度。

如果凡辩论唯一目的都是去追求输赢,的确没什么意思,不过如果是为了达到对一个话题更深入的理解就很有意义了。
回复  

使用道具 举报

304#
发表于 2-7-2009 14:07:35 | 只看该作者
这个帖子本来不是有关人工智能能否在几十年内实现的辩论。
而是如果人工智能能在几十年内超越人类,我们要怎么做的思考。

问题是有些同学出来说,这根本没可能,不需要讨论这个问题。

原帖由 liuhuey 于 2-7-2009 12:49 发表
他说要五十年,你说不要那么久...

他说人工智能不靠谱,你说确有可行性......

就算你说对了他错了,这个辩论有什么意义呢?
回复  

使用道具 举报

305#
 楼主| 发表于 2-7-2009 14:08:59 | 只看该作者
原帖由 key 于 2-7-2009 12:53 发表


说起这个,让我想起史忠植先生的《知识发现》,很值得一读。虽然不是科普读物,
但因为是综述性的,比较容易明白。可惜我那本书在我出国前已经找不到了。


it‘s here: http://www.du8.com/books/sepgfxn.html

评分

参与人数 1威望 +20 收起 理由
key + 20 谢谢分享!

查看全部评分

回复  

使用道具 举报

306#
发表于 2-7-2009 14:18:55 | 只看该作者
原帖由 青山 于 2-7-2009 11:07 发表
这个帖子本来不是有关人工智能能否在几十年内实现的辩论。
而是如果人工智能能在几十年内超越人类,我们要怎么做的思考。

问题是有些同学出来说,这根本没可能,不需要讨论这个问题。



正楼!!!!!

凡是不认可人工智能能在几十年内会威胁人类的同学,请另外开贴讨论。

回复  

使用道具 举报

307#
 楼主| 发表于 2-7-2009 14:31:42 | 只看该作者

回复 #307 liuhuey 的帖子

那是青山说的,LZ是我,我说了算。我当时就是随便一转帖,所以凡是讨论AI,对AI感兴趣的都可以来谈
回复  

使用道具 举报

308#
 楼主| 发表于 2-7-2009 14:40:46 | 只看该作者
背景知识:可逆计算

可逆计算机
许多人思考我们应当循环利用比特,就如同再循环利用垃圾一样。计算机硬件公司长期以来试着减少计算机的能量消耗,一种不同寻常的方法是由“可逆”工程芯片实现的。  
正常地每个计算操作会失去一些比特信息,也可表现为丢弃能量。可逆计算机的目标是重新获得并使用这些能量。由美国佛罗里达州立大学迈克尔?弗兰克设计的可逆计算机通过逻辑门能够实现逆行运算。  
每一个计算操作包括向逻辑门中输入数据,然后逻辑门出产输出信号,从而代替丢弃能量的信号。弗兰克设计的可逆计算机在每一个计算运行之后逻辑门实现逆行运算,输出信号返回的能量开启执行新的输入信号。

Wikipedia:Reversible Computing
Reversible Computing 2009

RC2009的一个presentation: Reversible Computing Hardware 表明这样的计算机硬件理论上可以被设计出来

评分

参与人数 1威望 +30 收起 理由
ubuntuhk + 30 谢谢分享!

查看全部评分

回复  

使用道具 举报

309#
发表于 2-7-2009 14:42:09 | 只看该作者
我可没这么说,我只是向你解释,为什么大家要争论这个问题。

原帖由 liuhuey 于 2-7-2009 13:18 发表


正楼!!!!!

凡是不认可人工智能能在几十年内会威胁人类的同学,请另外开贴讨论。

评分

参与人数 1威望 +20 收起 理由
liuhuey + 20 原来老乞丐拿我们赚吆喝呢!

查看全部评分

回复  

使用道具 举报

310#
发表于 2-7-2009 14:53:27 | 只看该作者
其实从一个细节就可以看出,过度严格的追求数学精确性对人工智能领域可能反而是负面影响。

贝叶斯网络在人工智能领域用得很多,但是很多问题由于其复杂性和前提限制而无法应用这种算法。

事实上,我的算法的一部分,也借鉴了贝叶斯的思路,但是却没有受其限制。比如无环有向。
WSD中的概率推理是有环的。很多人要么强行用贝叶斯来套,试图消除环,更多的人因为这个
限制,放弃了贝叶斯,同时也放弃了贝叶斯的思想。

我部分采用了贝叶斯的概率推理的思路,却并没有硬套贝叶斯的算法。确实,我并不能证明
我自己的算法符合严格的概率逻辑,但是,我的方法却是在实验中有效的。但是绝大多数人,
一想到概率逻辑方法,就想到贝叶斯,然后就硬套贝叶斯。要么削足适履,要么放弃。这就是
所谓的经典理论对人们思想的束缚。

事实上,概率逻辑从不精确到精确,有无数种应用方式,贝叶斯是一种被严格证明的理论,但是
却不是概率逻辑可以应用的唯一理论。这就是基于实验的研究和基于理论的研究的差异。

评分

参与人数 1威望 +10 收起 理由
ubuntuhk + 10 你太有才了!

查看全部评分

回复  

使用道具 举报

311#
发表于 2-7-2009 14:53:33 | 只看该作者
原帖由 青山 于 2-7-2009 12:47 发表
其实在前边的讨论中,我的研究的原理性的东西我说了不少了。具体的论文要等发表了才能在这里贴,不然我导师还不吃了我?



重新翻了一遍楼,发现所有值得一提的技术性的讨论都在第8页,而且key同学讲的我大部分都很赞成。
我不否定强人工智能可以实现,这点上我倒是同意青山的。不过我不认为是50年内能做的事。
目前红红火火的机器学习领域的人也不敢这么说。
我的主要观点是楼主贴的这位教授从事的是宣传和科普人工智能的工作,他本身的研究并没有什么超越的贡献,他号称的50年如何也是没有根据的。当然了,没人会在50年后回来和他较真的。

但是,并不等于你研究一个课题,就只着眼于一个具体课题。我发现很多学校的研究者,就在
一些前人的理论上加加减减,只看到眼前一寸那么远。而事实上,人工智能方面的研究,不仅
需要具体的课题,也需要新的思想,方向性的指引。坦率地说,就WSD这个具体课题,过去10
年中,多数论文都走在错误的方向上。

有这样的眼光是很好的,但也不要过于贬低加加减减的工作。所有现在看来很普通的工作,都是未来突破的铺路石。当我们没有直捣黄龙的方法的时候,只能一步一步走。

第一,linguistics本身并不能解决linguistic的所有问题。但是linguistics这一层已经相对成熟了。
比如我用于语法分析的standford dependency parser,自动的词性标注,正确率已经接近95%。
dependency graph解析的正确率,如果你取它的前5个解,正确率也是很高的。
而在这些可能的解中确定真正的解,则需要语义分析的帮助。

语义是必然需要的,但semantic web做了这么多年,进展很小,我不知道你为啥能预言50年之内就有大突破。所以我说你的道路是想象出来的,因为我并没有看到有实质性的进展。当然可能是我孤陋寡闻,很期待你能总结一下promising的思路

第三,以往的很多研究,都是期望人先把自然语言的规律总结出来,然后再教给系统,这个思路根本就是错的。自然语言的多样性,让任何这种总结规律的努力都不可能成功。事实上,真正的出路在于让计算机自己从大量的训练集中,去总结不同范围的规律。

这个观点应该是普遍承认的,所以才会有unsupervised learning, semi-supervised learning以及transfer learning等研究。
但是你是不是承认,至少要告诉先告诉机器如何“学习”吧?它才能去学语言、学识别,进而evolve
然而现在这个学习的机制都没有很强的结论。
总不能说让机器自动"学习如何"学习"",然后再去学习语言等等
这样递归下去,总得有个奇点吧

其实很多Phd,包括教授们都是这样,那个可以最快出paper,就做哪个。
但是这样出不了真正有贡献的成果。

这个事情分两面看,灌水的paper当然要鄙视,但如果大家都等最终完美解决了才发paper,那科学进步就慢的多了。还是那句话,研究是一步一步来的,一篇paper就是一个脚印,没有那些脚印,别人也不会承认你能一下跳到目的地。

另外民科的事我说得夸张了,青山同学还是脚踏实地得做事的,向青山同学道歉。
不过我觉得青山同学过于理想主义,同时鄙视目前其它的研究,觉得自己走的才是正道。
这么想不是不可以,不少伟大的研究确实是这么出来的。但得意识到这里面可能是有危险的,因为有大量同样理想主义的人失败了,但我们都看不到。
时不时反思一下,对自己也有好处。
衷心祝愿青山同学能早日做出成果

评分

参与人数 3威望 +80 收起 理由
key + 20 多谢赞同,哈哈
ubuntuhk + 30 我很赞同!
coredump + 30 谢谢分享!

查看全部评分

回复  

使用道具 举报

312#
 楼主| 发表于 2-7-2009 14:56:56 | 只看该作者
原帖由 klux 于 2-7-2009 13:53 发表
不过我觉得青山同学过于理想主义

这点大家应该都是赞同的,不过如果心理足够强壮,有点过于理想主义也挺好,这会成为很大的动力的
回复  

使用道具 举报

313#
发表于 2-7-2009 15:04:04 | 只看该作者
原帖由 coredump 于 2-7-2009 13:56 发表

这点大家应该都是赞同的,不过如果心理足够强壮,有点过于理想主义也挺好,这会成为很大的动力的


你们怂恿理想主义是不对的。。。。因为怂恿别人不用代价,但理想主义者失败后会跌得很惨。
我向来给理想主义者泼冷水,因为假如他真的走得是正确的道路,他不会在乎这点冷水。假如他真的是走火入魔,也许可以帮他清醒一点
回复  

使用道具 举报

314#
发表于 2-7-2009 15:26:06 | 只看该作者
就谈技术性的问题吧。semantic web做了这么多年,多数人都在ontology上边做研究。而ontology的生成,基本上都是手工做的。
曾经有一个semantic web领域的大拿,印度人来我们这里访问,我跟他谈,他上来就说,自动生成ontology他没想过。我当时晕倒。
事实上,做semantic web的人,绝大多数都在应用层做,剩下一些人在研究如何定义适于人理解编写的语义网络格式。我之所以不叫
它模型而叫它格式,是因为他们的研究从语义本身来讲,没有任何意义。研究的只是语义的表示法。

然而,就靠手工生成ontology,semantic web的目标永远也实现不了。其实我开始的课题是semantic web service,后来我跟
我老板说,如果不能自动生成语义网络,semantic web永远是toy.这他才答应我做automated semantic network.

至于机器学习,我现在从分类上,可以认为是属于semi-supervised machine learning。不过,我并不需要多么复杂先进的学习算法。
事实上,那些算法我都试图尝试,不过后来发现,根本用不上。还是我说的贝叶斯那个问题,这些算法太理论化,太精确,适用性太窄。
不能适应自然语言的多样性。所以我现在用的是我自己权衡了计算复杂性和有效性,还有我的特殊需要以后设计的学习算法。其实很简单。

我看过太多的paper,只是提出了一种提取word sense的特征的方法,然后直接用decision tree这类学习算法。paper写得干净利索,
读得人也觉得很严密,很清晰。但是,却并没有把这种特征的真正作用体现出来。这种paper在顶级会议和刊物中比比皆是。然而这种东西,
并没有实用性。也没有提高的潜力。




原帖由 klux 于 2-7-2009 13:53 发表
语义是必然需要的,但semantic web做了这么多年,进展很小,我不知道你为啥能预言50年之内就有大突破。所以我说你的道路是想象出来的,因为我并没有看到有实质性的进展。当然可能是我孤陋寡闻,很期待你能总结一下promising的思路引用:

这个观点应该是普遍承认的,所以才会有unsupervised learning, semi-supervised learning以及transfer learning等研究。
但是你是不是承认,至少要告诉先告诉机器如何“学习”吧?它才能去学语言、学识别,进而evolve
然而现在这个学习的机制都没有很强的结论。
总不能说让机器自动"学习如何"学习"",然后再去学习语言等等
这样递归下去,总得有个奇点吧
回复  

使用道具 举报

315#
发表于 2-7-2009 15:28:10 | 只看该作者

回复 #315 青山 的帖子

automated semantic network

评分

参与人数 1威望 +30 收起 理由
coredump + 30 终于说到关键的东东了~

查看全部评分

回复  

使用道具 举报

316#
发表于 2-7-2009 15:28:13 | 只看该作者
你这么说是因为你不了解我。

给我泼冷水的人太多了,代价我也早就计划好了。
最大的代价不过是3年半的时间。我怕什么啊?
能让我放手一战,去尝试盗取皇冠上的宝石,
有什么不值得的。

原帖由 klux 于 2-7-2009 14:04 发表


你们怂恿理想主义是不对的。。。。因为怂恿别人不用代价,但理想主义者失败后会跌得很惨。
我向来给理想主义者泼冷水,因为假如他真的走得是正确的道路,他不会在乎这点冷水。假如他真的是走火入魔,也许可以帮 ...
回复  

使用道具 举报

317#
发表于 2-7-2009 15:31:01 | 只看该作者
这里有一篇AAAI07年别人发表的automated semantic network的最初级的论文。至少说明不是只有我在做。
我借鉴了他们的思想,不过有了很大的实质性的扩展和提高。

事实上,我现在做WSD的训练的结果,就是一个automated semantic network。只不过目前还是依靠
sense tagged corpus,我的目标是可以通过后续普通的文档进行训练,而我的automate semantic network
的accuracy不下降。

ASKNet: Automated Semantic Knowledge Network
http://www.aaai.org/Papers/AAAI/2007/AAAI07-306.pdf

原帖由 ubuntuhk 于 2-7-2009 14:28 发表
automated semantic network
回复  

使用道具 举报

318#
发表于 2-7-2009 15:32:02 | 只看该作者

回复 #318 青山 的帖子

你敲得真快

为什么semantic network要用人工标注,而且还不是普通人就能标注的,是需要相关的语言学专家才能标注,而且不同的语言学家,对同一词义的理解也不完全一样,还会有分歧需要一起讨论解决。

我不知道你的自动算法如何实现?用什么理论实现,在什么智能级别的机器上实现,至少以我仅有的知识看来,这是一个非常进取、大胆甚至异想天开的想法,希望青山能在3年内有所成就

我下午拜读一下你推荐的这篇paper。
回复  

使用道具 举报

319#
 楼主| 发表于 2-7-2009 15:33:42 | 只看该作者

回复 #314 klux 的帖子

怂恿
回复  

使用道具 举报

320#
发表于 2-7-2009 15:43:08 | 只看该作者
从实用的角度,有一个思想。就是我们不需要计算机去解决那些语言专家都有分歧的问题,那些问题错了就错了。
事实上,现在让我们郁闷的,是那些最简单的常识性问题都会错,比如机器翻译,你看得啼笑皆非。

automated semantic network在近期追求的不是100%的精确性,而是可接受的精确性。两个语言专家
都不可能得出完全一样的答案,我们何必关心那些个别最难的问题呢?而且我一直强调的,要给与计算机
判断自己能否读懂的能力。

一个10岁的孩子,他可能只能读懂很少的一部分文章,但是我们不会觉得他笨。因为他可以选择性地读。
我们跟他交流也不会很困难,因为他可以告诉我们他能懂什么,不能懂什么,我们就能调整我们的沟通方式,
去适应他。而人工智能只要实现了这一点,可以跟人类顺畅的沟通,那么以后的问题就都好办了。

顺便说一句,我现在的全部模型和算法,就在我们家的台式机上实现。我认为我们过去大大低估了现代计算机
的计算能力。我们的PC比我们以往以为的,更接近我们的处理能力,虽然跟大脑还有差距,但是在语言处理这块
可能也就是几个数量级而已。本来我想申请用学校的主机,后来发现在目前的理论验证阶段,意义不大。


原帖由 ubuntuhk 于 2-7-2009 14:32 发表
你敲得真快 。

为什么semantic network要用人工标注,而且还不是普通人就能标注的,是需要相关的语言学专家才能标注,而且不同的语言学家,对同一词义的理解也不完全一样,还会有分歧需要一起讨论解决。

我不知道你的自动算法如何实现?用什么理论实现,在什么智能级别的机器上实现,至少以我仅有的知识看来,这是一个非常进取、大胆甚至异想天开的想法,希望青山能在3年内有所成就  

我下午拜读一下你推荐的这篇paper。

...
回复  

使用道具 举报

321#
发表于 2-7-2009 15:50:30 | 只看该作者
我也是研究机器学习的,这种讨论比较有趣,这里我有一些问题。既然讨论人工智能是否会超越人类,我想知道怎样定义人工智能是超越了人类?有谁能否给出条件怎么样的人工智能算是超越的人类?

如果以上问题明确以后再来谈一个AI或机器学习本身。我所知道的是机器学习就是在已有的训练集合中找到一个对训练集合有效的识别方法,并将这个方法泛化(Generalization)以达到可以识别未知数据。泛化能力的好坏是ML算法的关键。有的算法对训练集合的识别非常有效,但对新数据识别能力不好,一般我们叫overfitting,一些算法为了避免overfitting不得已放弃一些训练样本的识别精度。在数学上是定义为在样本空间找到一些数学定义上的最优分割面,这个分割面可以是线性的,也可以是非线性的。对于线性分割面现在有很好的理论基础,对于非线性分割,有时叫核映射(Kernel),现在也是个研究热点。青山同学的思想通过简单特征学习通过大量计算来训练有点像boosting的思想,暨通过反复对简单属性加权重值可以让分类器最终收敛。这些都是现在ML研究的方向。

至于量子计算机,它的研究把电脑引入何处现在并没有很清晰的认知,理论研究也只是初级起步阶段,所以我不能下什么结论。有一点是现在的AI是建立的一系列优化理论基础上的。像神经网络是用一组未知节点模拟高维函数,SVM是找样本空间最优分割面,boosting是用弱分类器合成强分类器等等。现在来说,计算机只能对已经训练过的场景作有限的是还是非的判断,除非的新的模型出来,否则将再多的电脑加在一起也不能产生“思维”。

对青山同学我很愿意听一听你的思路,我不是太明白你现在怎么样通过海量训练让系统越来越聪明并最终能像人类一样阅读。我有一个你不认同的观点,做AI就是做数学抽像然后才是开发实际系统。数学真的是一个很神奇的工具,不要看轻它。神经网络有它的数学基础,SVM就是一个凸优化问题,boosting的收敛也已经早被证明。你所说的现在很多AI方向有误,你能说一下你的出发点吗?其实我以前也做过10多年的程序员,不过我不认为理论是纸上谈兵。你的观点很新颖,能不能说一下有什么依据来支持你的想法?

评分

参与人数 2威望 +50 收起 理由
key + 20 数学方面的观点我很认同
coredump + 30 谢谢分享!

查看全部评分

回复  

使用道具 举报

322#
发表于 2-7-2009 15:54:46 | 只看该作者

回复 #321 青山 的帖子

》》就是我们不需要计算机去解决那些语言专家都有分歧的问题,那些问题错了就错了。
这其实也是WSD的核心问题:歧义

如果对这些问题都抱以错了就错了的方式来处理,不知道最后自动生成的会是什么样一个东西?计算机或你的算法所“理解”的semantic network?
回复  

使用道具 举报

323#
发表于 2-7-2009 16:12:19 | 只看该作者
很高兴和同行交流。

好,首先我要说的是,自然语言的学习,有其特殊性。很多机器学习的算法对于其它领域很有效,但是却不一定适用于自然语言方面。

1,自然语言的规律分布是非常不均匀的。有些规则可能有很大的普遍性,有些规则可能只适用于一个特定的情况。而由于自然语言的庞大,这些规律是不可能人工去总结的。
2,自然语言的规则本身是海量的,而不是海量的训练集,有限的规则。与专家系统之类的有限规则学习不同,自然语言的规则可以认为是无限的,也就是说,训练集永远是相对不足的。
3,自然语言本身有复杂的内在逻辑,虽然多样性很强,但是又有相当一部分规则在一定精度范围内是可预测的,或者说,有些特异的规则,在很多情况下,可以被其它规则替代或者推出,也可以说很多规则是互相交叉覆盖的。

而传统的机器学习算法,几乎都是建立在训练集相对丰富的基础上的。另外,分类的大量交叉,又让传统的基于精确分类的ML算法用起来很吃力。所以用于自然语言的ML算法,至少要有这些能力

1,模糊的,而不是二值逻辑。即使我们人在阅读的时候,也会有“可能是这个意思吧”这样的想法。自然语言不是精确的。当然最终可以提供一个确定的结果,但是如果在学习中就采用二值逻辑,那么会丢掉很多有价值的信息。

2,你说的识别泛化问题确实是最重要,这也是我现在研究的焦点之一。然而由于自然语言的多样性,这种识别不能建立在人工总结的分类基础上,而应该是自动实现的模式总结和模式识别。以往不少自然语言的工作建立在人工分类识别的基础上,这样的算法到一个精度,就没有任何提高的空间了。

3,所谓的海量计算,其实是海量模板,而这些模版是自动总结出来的。这就是为什么我很认同google那人的话,人工智能的本质是搜索。然而,人工智能本质的搜索不是google那种keyword的搜索,而是海量模板的泛化搜索。



原帖由 dover 于 2-7-2009 14:50 发表
如果以上问题明确以后再来谈一个AI或机器学习本身。我所知道的是机器学习就是在已有的训练集合中找到一个对训练集合有效的识别方法,并将这个方法泛化(Generalization)以达到可以识别未知数据。泛化能力的好坏是ML算法的关键。有的算法对训练集合的识别非常有效,但对新数据识别能力不好,一般我们叫overfitting,一些算法为了避免overfitting不得已放弃一些训练样本的识别精度。在数学上是定义为在样本空间找到一些数学定义上的最优分割面,这个分割面可以是线性的,也可以是非线性的。对于线性分割面现在有很好的理论基础,对于非线性分割,有时叫核映射(Kernel),现在也是个研究热点。青山同学的思想通过简单特征学习通过大量计算来训练有点像boosting的思想,暨通过反复对简单属性加权重值可以让分类器最终收敛。这些都是现在ML研究的方向。
回复  

使用道具 举报

324#
发表于 2-7-2009 16:13:58 | 只看该作者
95%的词的歧义,一个普通人都可以很容易地分清。我说的是那最难分清的一点点,可以不管。
但是现在的机器翻译,你会发现一个人很容易分清的多义词,都翻译错。这才是我们近期要解决的问题。

原帖由 ubuntuhk 于 2-7-2009 14:54 发表
》》就是我们不需要计算机去解决那些语言专家都有分歧的问题,那些问题错了就错了。
这其实也是WSD的核心问题:歧义

如果对这些问题都抱以错了就错了的方式来处理,不知道最后自动生成的会是什么样一个东西?计算 ...
回复  

使用道具 举报

325#
发表于 2-7-2009 16:24:35 | 只看该作者
我觉得有几个问题可以讲。

1,自然语言本身是不收敛的,任何试图使自然语言识别系统完全收敛的想法,我都觉得可能达不到目的。
2,做数学抽象没错,但是我要做得尽量简单的数学抽象,或者说,尽量普遍化的抽象,而不是人尽量精细的分类。
3,就像我举的贝叶斯的那个例子,我们现在看到的经典数学理论,都是经过严格证明的,然而,与这些理论并列的,
可能还有更多数量没有经过数学证明的算法和理论,如果我们总是试图套用仅有的经过严格证明的算法和理论去解决
问题,就可能遇到困难。

通过实验,我发现有算法在解决实际问题中有效,却没有人去证明。也许证明这些算法需要一个数学专业的人,花很
长时间,也许这个算法可能长期就是猜想,甚至有某些错误在其中,但是我们没必要等这些算法被证明了再应用,现
在有效,就现在用。把证明这些算法猜想的工作留给学数学的人吧。

我并不是说数学没用,而是说不能完全依赖于现有的数学理论。我现在建立的自然语言模型,几乎没有多少是依赖既有
的数学模型。很大程度上来源于猜想和实验的验证。我肯定没有时间从数学上去证明这个模型的正确性,完备性,复杂性。
但是只要解决问题有效,我就用了。

原帖由 dover 于 2-7-2009 14:50 发表
对青山同学我很愿意听一听你的思路,我不是太明白你现在怎么样通过海量训练让系统越来越聪明并最终能像人类一样阅读。我有一个你不认同的观点,做AI就是做数学抽像然后才是开发实际系统。数学真的是一个很神奇的工具,不要看轻它。神经网络有它的数学基础,SVM就是一个凸优化问题,boosting的收敛也已经早被证明。你所说的现在很多AI方向有误,你能说一下你的出发点吗?其实我以前也做过10多年的程序员,不过我不认为理论是纸上谈兵。你的观点很新颖,能不能说一下有什么依据来支持你的想法?
回复  

使用道具 举报

326#
发表于 2-7-2009 16:35:27 | 只看该作者
再说清楚一些,我并没有说不需要总结数学模型,恰恰相反,我现在做的就是总结数学模型。
我说的计算机科学不是数学,是指不要总试图用现有经过严格证明的数学理论去搭建模型。

自然语言的理解问题,比现有的多数问题复杂得多,就像一个雕塑,而不是一个标准化的大楼,
不要总试图用预制板,很多部件必须要自己从泥土开始做。

事实上,想出一个模型,先证明其正确性,完备性,复杂性,然后再应用,这是学数学的人的
思维方式。如果我按这个方式去做,估计我现在模型的1/10还没证明出来呢。
我的方法是,猜想,应用,看实验结果。证明的工作留给有时间的人以后慢慢做好了。
回复  

使用道具 举报

327#
发表于 2-7-2009 17:08:20 | 只看该作者
原帖由 青山 于 2-7-2009 15:24 发表
我觉得有几个问题可以讲。

1,自然语言本身是不收敛的,任何试图使自然语言识别系统完全收敛的想法,我都觉得可能达不到目的。
2,做数学抽象没错,但是我要做得尽量简单的数学抽象,或者说,尽量普遍化的抽象, ...


我的想法不一样,以前我做程序员,很多东西能用就行。但是做research本身要严谨,如果以做程序的方式来做research风险是很大的。因为你必须说服其他一大群一样聪明的人们为什么你的东西好。你必须用一种标准的精确语言--数学来描述你的工作。你做了实验,但把理论部分留给“做数学”的人,对不起,从research的角度来看,你并没有contribution。举个例子,欧几里得猜想物体下落速度和质量成正比,并做实验用石头和羽毛得出猜想正确。这个方式现代科学是不成立的。做research和做程序还是有区别。research mothodology是做phd的必修课也是有道理的。当然,这只是我现在的观点。只是我和你的经历相似,所以有体会,希望能对你有帮助。

[ 本帖最后由 dover 于 2-7-2009 16:28 编辑 ]
回复  

使用道具 举报

328#
发表于 2-7-2009 17:22:00 | 只看该作者
正楼,继续讨论未来人工智能对人类的威胁!
是不是讨论人类应该怎么应对。
回复  

使用道具 举报

329#
发表于 2-7-2009 17:27:40 | 只看该作者
对我来说,以最短的时间,推进实质性的进展是最重要的。
如果我每用一个模型都去证明,我这3年肯定不会有什么成果。

自然语言这个领域,如果你最终能有实用性的系统,谁不承认也没用。

换句话说,我发10篇顶级刊物的paper,最后系统没有实用性,
对我自己来说可以说毫无意义。这不是我去做研究的初衷。

我研究的是一个跟实际应用紧密相关的课题,我更关注系统的结果。

另外,我觉得自然语言这个领域应该像物理这类实验科学那样做研究,
爱因斯坦说e=mc2是个猜想,没人要求他马上从数学上去证明。倒是
大家都去努力寻找实验证据。自然语言这个领域也是一样。与其花精力
去数学证明,不如去用实验证明。

现在计算机研究领域这种所谓的“严谨”,正是人工智能科学过去这些
年进展缓慢的根源之一。我不介意冒险去打破这种错误的习惯。

如果我的道路走通了,不仅对自然语言理解有贡献,对人工智能的研究方法
也是有示范意义的。到时候我会对大家说,把数学证明留给数学家去做吧。



原帖由 dover 于 2-7-2009 16:08 发表
我的想法不一样,以前我做程序员,很多东西能用就行。但是做research本身要严谨,如果以做程序的方式来做research风险是很大的。因为你必须说服其他一大群一样聪明自负的人们为什么你的东西好。你必须用一种标准的精确语言--数学来描述你的工作。你做了实验,但把理论部分留给“做数学”的人,对不起,从research的角度来看,你并没有contribution。举个例子,欧几里得猜想物体下落速度和质量成正比,并做实验用石头和羽毛得出猜想正确。这个方式现代科学是不成立的。做research和做程序还是有区别。research mothodology是做phd的必修课也是有道理的。当然,这只是我现在的观点。只是我和你的经历相似,所以有体会,希望能对你有帮助。
回复  

使用道具 举报

330#
发表于 2-7-2009 17:28:17 | 只看该作者
原帖由 清风不写字 于 2-7-2009 14:22 发表
正楼,继续讨论未来人工智能对人类的威胁!
是不是讨论人类应该怎么应对。


这位,您说了不算,我说了也不算。

楼主说了,只要是关于AI的讨论都欢迎。

我总算是抓住一位违规的了,请您来继续站岗。
回复  

使用道具 举报

您需要登录后才可以回帖 登录 | FreeOZ用户注册

本版积分规则

小黑屋|手机版|Archiver|FreeOZ论坛

GMT+11, 13-11-2024 05:22 , Processed in 0.070600 second(s), 47 queries , Gzip On, Redis On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表