您的位置:人工智能 > 大数据 > AI的数据、算法、算力“轮流坐庄”,NLP到了“数据为王”的时代

AI的数据、算法、算力“轮流坐庄”,NLP到了“数据为王”的时代

【人工智能网】

事情人员划一坐好,每个人都对着电脑聚精会神,一件又一件的“东西”在面前划过,经由标准化处置惩罚就转到下一流程……这实际上是人工智能行业里的数据标注办公区一角。

因为深度进修的研讨方向,人力密集型的数据标注事情是推动人工智能手艺落地的重要环节之一。

很长一段时间以来,在过往AI的生长中数据的收集与标注行业没有过量地被关注,毕竟,与算法、算力这些嵬峨上的东西比拟,AI数据的生产总带着那末几分与AI手艺的“科技感”判然差别的抽象。

但是,跟着AI的生长走向纵深,更多人发明这是一个误会,AI数据产业正在向着高专业化、高质量化的方向蓬勃生长。

依据2018年智研宣布的《2019-2025年中国数据标注与考核行业市场专项分析研讨及投资远景展望报告》,2018年该行业市场规模已到达52.55亿元,2020年市场规模有望打破百亿。有行业人士预计AI项目中会有10%的资金用于数据的收集和标记,2020年,数据标注行业终究市场规模将到达150亿。

而分享市场的,既有BAT、京东等互联网巨子,也有云测数据这类专注于高质量托付的专业化数据平台。

庞大的远景下,数据收集与标注也可以分NLP(天然语音处置惩罚)、CV(盘算机视觉)等几个部份,跟着数据需求量的增大、对数据质量请求的提高,个中的NLP愈来愈成为“硬骨头”,AI数据产业终将面对它带来的困难,也承继这类困难下空出的市场空间。

AI的数据、算法和算力“轮番坐庄”,NLP到了“数据为王”的时期

芯片制程以及大规模并联盘算手艺的生长,使得算力疾速提拔后,AI才能的提拔重要集合到了算法和数据上(算力提拔固然另有代价,只是相对代价那末显著了,比方不大概对一个物联网终端设备有太多的算力设定请求)。

这方面,多年以来,人工智能手艺都显现“轮番坐庄”的螺旋提拔关联:

算法打破后,可包容的数据盘算量每每变得很大,所以会迎来一波数据需求的热潮;而当AI数据经由过程某些体式格局到达一个新的水平时,本来的算法又“不够了”,须要提拔。

2018年11月,Google AI团队推出划时期的BERT模子,在NLP业内引发庞大回响,认为是NLP范畴里程碑式的提高,职位类似于更初期涌现的Resnet相对于CV的代价。

以BERT为主的算法系统入手下手在AI范畴大放异彩,从那时起,数据的重要性排在了NLP的首位。

加上两个方面的要素,这即是把NLP数据收集与标注推到了更有应战的位置上。

一个要素,是NLP自身相对CV在AI数据方面的请求就更庞杂。

CV是“感知型”AI,在数据方面有Ground Truth(近似明白为标准答案),比方在一个图片中,车、人、车道线等是什么就是什么,在收集和标注时很难涌现“感知毛病”(图片泉源:云测数据)

而NLP是“认知”型AI,依靠人的明白差别发生差别的意义,表达出种种须要忖度的企图,Ground Truth是主观的。

比方,“这房间就是个烤箱”多是说房间的规划不好,但更有大概说的是里边太热。人类言语更富魅力的“言有尽而意无穷”的特性,应用于AI时,须要被多方位、深度探究。

另一个要素,是AI数据的代价团体上由“饲料”到“奶粉”,对NLP而言这更有应战。

大部份算法在具有充足多通例标注数据的情况下,可以将辨认准确率提拔到95%,而商业化落地的需求如今明显不止于此,精细化、场景化、高质量的数据成为症结点,从95% 再提拔到99% 以至99.9%须要大批高质量的标注数据,它们成为限制模子和算法打破瓶颈的症结目标。

上一篇:使用Python OpenCV实现图像数据采集
下一篇:没有了

您可能喜欢