购物车 0
当前位置:华图在线 > 招考资讯 >华图教育副总经理蔡金龙:在线教育处在准大数据时代(2)

华图教育副总经理蔡金龙:在线教育处在准大数据时代(2)

2014-06-17 11:50  |  中国经济网  |  责编:admin 点击收藏

  中经教育:不久前,有一家媒体在报道中使用了“大数据时代的在线教育”?您认为大数据与在线教育是怎样的关系?您是否认同这个名词?

  蔡金龙:目前为止很多和在线相关的行业都会提到大数据,包括游戏、旅游、医疗、教育,所以大数据的概念,不管国内还是国外都很火。

  我对它的认知是部分认同,我觉得大数据时代是慢慢来临的,就好像当年提纳米技术一样,因为人们认识事物的层面更深入了,已经可以到纳米这一级了,应用层面的威力就会几何级数增加,所以在纳米时代,做衣服可以不透水,但是透风。对于互联网的数字信息来说,当年没法提大数据,是因为教育行业积淀下来的数据很多,但是更加底层“纳米”级别的数据还太少,而且有很多信息被无视了,要让我们看到更底层数据之间的关联,让我们平时积累下来但是又用不到的信息发挥作用,此时大数据时代就来临了。

  为什么我说部分赞同,是因为我觉得在线教育这个领域炒的特别热,但就是因为春天来了所以才上火了。正是因为春天来了,都知道万物要生发了,但这会儿还没有看到万物生发的样子,3月、4月有萌芽了,大家就都抢着,赶紧占块地,要种地。实际上大数据真正收获的季节其实还没有来,所以我觉得需要在前面加一个词,或者叫做准大数据时代的在线教育,或者叫前大数据时代的在线教育。目前大家只是看到了大数据的威力,但很多企业都不能支持和承载大数据。

  中经教育:刚才您提到前大数据时代,对于现在在线教育来说,应该把注意力集中在哪些领域?

  蔡金龙:搞数据,数据要分几个层面,第一个层面叫收集,我首先要把数据收集起来。我说我是个大数据公司,不是我在这儿存了好几个硬盘就叫大数据,而是我所关心的数据是不是在我这儿有海量的。比如说我关心每一道题有多少人做过,我关心每一个选项有多少人多长时间犹豫了,这些关心的数据,我是不是有海量数据。因此第一步要做好数据收集。很多公司突然间说我做大数据了,大家不信,原因是他连收集的阶段都没有。比如现在的一些智能手环,我们也只能说它只是进入到数据收集阶段,因为我们也不知道一个人是不是一天走一万步,他未来就会变健康,但是过十年之后和人们实际的健康状态建立联系了,这个数据的训练集就算收集完成了。

  第二步,最主要的是要做数据分析,尤其是数据的聚类与预测,而不是数据统计。过往我们自己也会有误区,对大数据的理解就是收集了很多数据,然后能做一些图表,我们认为它就是大数据,它只是统计阶段,后验的。如果能把后验的统计变成前瞻的预测 ,那么大数据的作用就发挥出来了,比如说刚刚发生的一个案例,2014年高考的作文题,实际上可以用大数据去解构出来。我可以根据过去几年的社会的热词和新闻,再加上命制的题目,形成训练集,用今年的社会热词和新闻为测试集,就能把当年的全国高考作文题目预测出来,这其实只是大数据分析的一个简单应用。

  但是大数据的分析说起来很美,其实它是一件很痛苦的事情。

  第一,要有目的性,到目前为止,冲进大数据的行业中,有一些人都不知道拿到数据要干什么,目标感不强。比如都去做题库,实际上大多数做题库的都只干一件事,就是训练这道题到底有多少人做了,多少人做对了,其实就是在训练题目的难度值,只收集了这个数据。而用它去做什么,比如我刚才说的这个,去预测一下作文到底明年会出什么题,能做这件事的并不多。用大数据分析的目的非常重要。

  第二,对于数据分析的模型不够精准。行业还需要一些矢志不渝进行分析系统优化的专业组织,把模型的准确度,从59%到79%到99%,不断做下去,更加精准。类比于人脸识别,识别出一个人是男性还是女性,从98%再到99%,公司或组织的价值就在这里体现。没有公司为它做贡献,大家都是扎在一个地方,如果没人针对一个目标提出自己的模型,并且深入优化这个分析模型,那么大数据分析只是做一些表面的文章。

  第三,数据的应用。当我们教育行业建立了很多的模型之后,通过模型的自由组合,就好像抓药一样,那么我们就能够得到海量的应用。这些海量的应用被分发给不同类别的用户,才能起到疗效。所以第三步才到数据应用。

  我对目前为止这三个阶段的判断是什么呢?目前只能说是大部分属于第一阶段,即数据收集。如果切口比较大,后两项基本上是没有精力的。我认为目前为止切口比较大的在线教育公司应该把自己的注意力全部集中在数据收集上,这个地基打牢了,后面的分析和应用才有基础。

  如果自己的切口比较小,可以干了一点数据分析和数据应用,效果会好一些。比如有些人专搞记单词,甚至专搞记初高中的单词,多了都不搞,就记个三千词、五千词,对于他来说他的数据收集很快就能完成,那么接着进行数据分析和数据应用就会集中了。如果分析只集中在判别他最需要重复的词汇,而应用只集中在记忆方向上,那么就很快会出效果。

  话说回来,切口比较大,最好还是专注于数据收集阶段。

  如果大家把精力集中在数据收集阶段,大家应该干的事是什么?我认为是两个,一个是做内容。做内容要做的有几个方面,第一是要做内容的信息化,尤其是纳米级的信息化。因为有很多的传统培训机构他没有做内容标准的信息化,最小单位的标准信息化。这个事其实是要花精力的,很多初创企业死都死在这儿。比如我做一个题库,我其实要有题干,要有问题,要有选项,要有解析,要有答案,解析可能有解析1、解析2、解析3,这道题可能还会引申出来题目1、题目2、题目3,对于这些来说都叫信息化。我们能不能切到最小的单位,还能标准化,这很重要。

  这些事我们听起来很美,但是做起来很苦,而且是不断推倒重来的过程。有可能做到一半你就会觉得自己的信息化不够专业了。我觉得信息化完了以后又会把自己推到做专业化,内容不仅要切到最小单位,而且还要让它更专业。怎么判断它更专业?很多时候的情况是这个东西只适合A,这个东西只适合B,你又要对人群进行细分,并为他们提供解决方案。比如这一套解决方案或者这一套信息化的内容是针对好学生的,是培优的,那一套内容是针对补差的,还有一套内容是针对中等生的。这其实就是专业化的过程,不同的人到你这儿都能抓到药,不管他是早期、中期还是晚期,这其实也是做内容。所以第一个就是做内容,那就要做到信息化、做到专业化、做到实用化。

  还有另外一块的内容,学员自己产生的内容。现在,内容很多是依托于机构、依托于老师,但是老师和机构是有局限性的。信息最爆炸的地方,往往不仅是在专家的圈子,街头巷尾也是信息爆炸的主要来源。所以我们去搞内容还需要客户创造资源,才能让我们把数据收集的更好。为了完成这个目标,第二个就是在前大数据时代,大家都不要忽略搞社交化改造。只有大家在你的平台上互相通过活动关联起来了,才能制造并沉淀大量的信息。比如说这道题甲不会,我把题发给乙,乙也不会,他又转发给丙,在这个过程当中其实就能收集到好多数据。我们华图网校的一个重要发展方向就是对所有的产品进行社交化改造,我们坚信每个产品,每个频道,每个功能都能将社交化融进去,冷冰冰的系统才会变成活的,有感情的。而通过模式的设计使得大家能够在学习的同时社交活动也活起来至关重要,是重点也是难点。

  还有就是企业做一个系统,让所有人来做,但人家不愿意来。今天来个同学学了几分钟走了,明天来个同学做了20道题又走了,流水的营盘,最后得到的数据不真实,系统没有记录任何一个同学完整的教学环节。所有系统都在帮你训练的都是垃圾数据,这个就没意义了,所以我们必须搞社交化让同学愿意在你这儿不断的提供数据,而且是提供全流程的数据。

  123  共3页
分享到:
点我收藏
11
{literal} {/literal}