AI语料产业格局全景解析

2024-10-29

领益智造北京超级工厂下线首批人形机器,全球化具身智能交付网逐步落地

科技赋能银发行走自由:中国兵器杭州智元研究院发布“远山智行”品牌,“国之重器”新一代智能助行外骨骼“踏山”全面升级

我国首台自主研发的海缆探测机器人正式投入应用

会流泪、懂情绪、更懂陪伴!演犀科技发布全球首款智能流泪机器人,开启人机情感交互新纪元

可“追捕”并搬运细菌的纳米机器人问世,尺寸仅为头发直径的1/50

智驱未来 关节先锋 首届机器人一体化关节测评发布会暨创新发展会议在北京成功举办

「Hi, I’m KAI」——超维动力发布全球最高自由度人形机器人

目标到2030年实现人类与机器人协同工作,富士通与卡内基梅隆大学联合开发物理AI操作系统

2026人工智能机器人哪家技术领先 :以技术深耕赋能多元场景

能穿针不代表要做家务,国奥G-tools工业具身机器人要替代谁?

众擎机器人联合多伦科技,全新发布“智慧交管机器人解决方案”

四冠加冕!伽利略称霸2026机器人勇士挑战赛,足式机器人实力领跑行业

新时达荣获OFweek行业大奖,定义协作机器人新范式

从工业机器人到具身智能 中国企业在全球制造变革中加速突围

深谋科技即将发布业界首个智能带电作业人形机器人“伏安”,交付国网电力

AI语料产业格局全景解析

最后更新:2024-10-29 浏览:1832次

AI语料产业格局全景解析

人工智能,它的发展离不开三样宝贝:算法、计算能力和数据。特别是数据,对那些大模型来说,简直太重要了。想训练出一个能干的大模型,得有大量又好又全的语言材料。

但现在有个问题,全球这些语言材料的库存快用光了。有些研究机构,和英国的阿伯丁大学、美国的MIT一起做了个预测,说如果我们照现在这样用下去,好的语言材料可能2026年就不够用了,差一些的也就撑到2030年到2050年,至于图片材料,可能2060年也就用光了。这样一来,人工智能的学习速度可能就得放慢了。

不过,材料不够用,不代表大模型就不能进步了。现在好多模型还没把现有的材料用充分呢。所以,现在赶紧开发新的训练材料,对人工智能和大模型来说,那是迫在眉睫的事。

先提醒一句,据说高质量的语言材料最快2026年就可能用完,这个消息是从epochai那儿听来的。

下面咱们聊聊人工智能的材料到底是啥:

人工智能的材料,就是那些用来教会AI怎么和人交流、回答问题、干活的资料,包括文字、声音、图片啥的,啥语言啥领域都有。这些材料对AI来说,就像是我们上学时的课本和作业。

在自然语言处理这块,这些材料就是让AI学会咱们说话的教材,比如教它怎么分文章类型、读懂我们的情绪、翻译语言、聊天、回答问题等。有了这些丰富的教材,AI就能越来越懂咱们的话。

在语音识别这块,就是用各种声音来训练AI,让它能听懂我们说的是啥。这些声音资料得包括不同的人、不同的口音和说话速度,这样AI才能适应各种声音。

至于图像识别,那就是用一大堆图片来教AI认东西,比如认人、认地方、认物体。这些图片得有很多人工标注,好让AI学会认图。

这些材料还用来做测试,看看AI学得怎么样。会设计很多小任务,比如让AI理解文章、回答问题、总结内容,这样专家们就能比比看,哪个AI更聪明一些。

AI语料市场格局

你知道那些厉害的AI模型是怎么练成的吗?其实就是靠各种数据喂出来的。国外的数据集,一般都是大学、大公司、非盈利组织和政府机构他们放出来的,还有那些免费的电子书、杂志啥的。

国内的情况也差不多,我们用的数据有的是从网上抓的,有的是书啊、杂志啊,还有公司自己的秘密武器——独家的数据。国内的数据集虽然小了点,但我们也会用到国外的数据集来帮忙。

国内的互联网巨头们,他们训练AI模型用的数据,除了公开的,还有自家特有的。将来,那些专门做内容的平台,可能会成为中文好数据的大本营。

比如说,百度家的文心模型,用的是网上海量的内容和用户搜的东西;阿里家的通义模型,数据都是从阿里达摩院来的;腾讯的混元模型,用的是微信上的好内容;华为的盘古模型,除了公开数据,还有行业数据加持。

再看看出版行业和网络文学,他们手头有一堆好东西,都是经过精挑细选的,这些对训练AI模型来说,都是宝贝。

现在市面上做这事儿的公司多了去了,像中文在线、中国科传、果麦文化、掌阅科技、新华传媒、华策影视这些,都有自己的数据仓库。这行竞争激烈着呢,新来的也越来越多。

像科大讯飞这样的技术大佬,他们在语音识别、语言理解方面很牛,他们的大模型产品市场反响也不错。还有海天瑞声、云测数据这些公司,都是在AI数据这块儿做得风生水起的。商汤科技、拓尔思他们也有自己的绝活,比如3D数据集、互联网语料库啥的。还有一些专攻特定领域的公司,比如麦克奥迪、贝瑞基因,他们也在用自己的方式给AI喂数据。AI语料数据集

咱们国家数据资源挺丰富的,但高质量的中文数据集还是不够用。原因嘛,主要是数据挖掘不够深入,而且数据在市场上也不是随便就能流通的。

这几年,数据市场越来越规范,这对数据集的壮大可是好事。要做一套数据集,得经过一系列的步骤,比如收集数据、清洗数据、给数据打标签,然后是训练模型、测试模型,最后还得评估一下产品质量。

数据怎么收集:

干这行的,一种是卖专门收集数据的设备的,比如传感器、采集器这些,像富士康、海康威视他们就做这个。还有一种是提供解决方案的,帮你搞定数据收集的问题,比如探码科技、点通数据这样的公司。

数据怎么标注:

数据标注的种类多了去了,有图片标注、语音标注、文字标注、视频标注等等。国内做这个的有两种公司,一种是AI公司里的标注团队,另一种是专门做外包的公司。像Testin云测、倍赛、京东众智这些,都是这个圈子的。

AI语料的安全问题:

AI语料的时候,得特别注意保护隐私和确保安全。得按照法律法规来,不能乱来。去年10月,出了一个《生成式人工智能服务安全基本要求》的征求意见稿,里面提了一些安全上的要求,包括语料安全啥的。随着AI的发展,这些语料的安全监管也会越来越被重视。