AIGC是AI算法的一次重大突破,语义智能将迎来重大发展。拓尔思(300229)认为:
万能的大模型不存在!拓尔思的目标不是做最大的模型,而是做专业的大模型。
(资料图)
数据+算法+算力三大核心要素,决定AIGC产出质量。拓尔思将以“专业大模型+领域知识数据”为核,努力构建起个性化、专业性的内容自动生成壁垒。
技术+产品+场景的完美结合,才能实现AIGC推动更多商业落地进程。拓尔思将在类人助手的道路上开拓全新模式,在G+B双端的需求持续催化下,优化创新对话式AI、智能创作、AIGC搜索引擎等应用场景,实现用数字化劳动力替代枯燥重复性劳动、扩充资源稀缺劳动力、协助人类完成相应任务和满足人类情感交流的需求。
10多年前,深度学习引发了人工智能的新浪潮,除了互联网大厂外,以智能语音技术起家的科大讯飞(002230)成为人工智能领域的标杆性企业之一。伴随着ImageNet的标志性突破,以四小龙为代表的图像识别公司也获得了很多的投资和关注度,但产业落地都碰到各种问题,人们开始怀疑人工智能赛道是否要陷入新一轮的低潮。OpenAI的ChatGPT横空出世,人工智能再次成为人们的关注热点,不同的是,这一次的关注,不仅仅是学术界、产业界和资本界,“跨界”和“出圈”的特征非常明显。
拓尔思2011年上市的时候,当我们试图给业界讲“非结构化信息智能处理”的概念时,受众是无感的,最后被贴为更通俗的“大数据第一股”的标签。当我们在2019年第一次以“语义智能”的大主题给市场表达我们定位的时候,我们自认为把NLP、知识图谱和图像音视频内容理解统一到“语义智能旗下,从而定位拓尔思是认知智能开拓者,但不是所有的人都能理解和认同。但是现在不同了,ChatGPT的流行,很容易给拓尔思的语义智能实现一个新的、轻松的表达。拓尔思语义智能=AI+NLP。其中AIGC将成为爆发点,爆发的不仅仅是技术,或者主要不是技术,而是应用的落地和遍地开花。
一
AIGC的发展现状
大模型在对话体验上的突破,让机器已经能够近乎完美地理解人类指令,并给出符合预期答案的时候,人类终于要从感知智能正式迈向认知智能了,人类终于可以用“说话”这种方式和计算机交互,并让计算机生成我们需要的内容。
未来对话将成为新的UI,我们可以称之为CUI(Conversation User Interface),这将给全产业带来颠覆性的改变,推动世界用工模式的转变,让劳动力向数字化转变,让数字化劳动力能够和人类员工完美配合,“人+数字化劳动力”将成为新的用工模式。2023年将为数字劳动力元年,ChatGPT的火爆将加速世界劳动力向数字化转变,踏入认知智能的时代。
随着ChatGPT的火爆,AIGC已经受到了全球资本、技术、产业和用户等全维度的关注。AIGC全称为AI-Generated Content,指基于大型预训练模型、生成对抗网络GAN等人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内容(文字、图像、音视频、代码等)的技术。
目前AIGC技术可生成的内容形式已经拓展到了包括文字、图像、视频、语音、代码、机器人动作等多种内容形式,生成式AI让机器开始大规模涉足知识类和创造性工作,极大推动数字化内容生产与创造。
如:微软宣布将ChatGPT整合到Office生产力程序套件中,并将通过云服务提供ChatGPT服务;美国新媒体巨头Buzzfeed计划要用ChatGPT来创作内容并削减12%的员工导致股价一夜翻倍;ChatGPT与搜索引擎结合,其内容呈现方式也许会导致固化的搜索引擎商业模式被打破的变革。
二
拓尔思的AIGC商业实践
知识图谱是AIGC利用AI学习实现自动生成的基础之一。早在2015年,拓尔思参与了一项基于大数据的类人智能关键技术与系统的863课题《面向基础教育的知识能力智能测评与类人答题验证-高考机器人》,主要负责十亿级条目规模知识图谱以及大数据知识管理和检索平台的构建,助力该“高考机器人”能实现对类人答题原型系统的试题理解、常识记忆、语言运用、知识关联、知识推理、初等数学求解等各个智力维度进行科学评价。该项目于2017年顺利通过验收。
基于NLP技术的文本生成可以算作是AIGC中发展最早的一部分技术。2016年,拓尔思在浙江日报报业集团的融媒体智能传播服务平台中(简称“媒立方”),率先推出了机器写作,主要根据拓尔思的全网资讯大数据自动生成体育、气象和财经等领域的主题稿件,推送到浙报媒立方。
2019年,拓尔思提出以“语义智能+行业/领域”的营销策略。公司深耕自然语言处理,致力于以数据智能应用为核心,赋能不同行业的数字化转型与降本增效的场景应用,并积极与客户携手,在AIGC相关领域,如机器写作、对话式AI、内容人机协同和自动报告生成等应用场景已相继打造出一批优秀实践案例。
三
拓尔思的AIGC发展路径
AIGC的兴起源自深度学习技术的快速突破和日益增长的数字内容供给需求,市场潜力逐渐显现。一方面,技术进步驱动AIGC可用性不断增强;另一方面,大量需求牵引AIGC应用落地。拓尔思认为AIGC在数字化程度高及内容需求丰富的领域将有广阔应用空间,个性化及自动化内容产出为AIGC产品的核心价值。
01 以“专业大模型+领域知识数据”为核,NLP技术突破推动更多AIGC商业落地
拓尔思在AIGC技术方面有着长期的投入和储备,这与公司一直专注自然语言处理技术的研发和互联网大数据的积累等优势一脉相承。2022年元宇宙Web3.0的概念为市场热捧,其中拓尔思为服务型虚拟数字人赋能“有趣的灵魂”的能力与产品得到业界广泛好评。AIGC是拓尔思数字人利用NLP与数据智能相结合的重要方向之一,并称之为虚拟数字人的“创造力”。
公司将基于通用AIGC大模型,专注优势行业进行专业大模型的研发,融合学习行业特有的大数据和知识,提升大模型对行业应用的适配性。我们将以预训练大模型、In-Context Learning、instruction tuning等技术为基础,将文本生成、交互式生成、跨模态生成、小样本学习、大模型与外部知识库的融合等功能作为研发重点,突破基于大模型的AIGC关键技术,在问答式AI、智能创作、搜索引擎等领域实现成功应用。
02 加快推进拓尔思“智创”AIGC平台的研发
拓尔思“智创”是一款专注文字生成类的内容自动生产平台,其依托公司长期积累的自然语言处理技术和人工智能平台产品为基础,融合开源大模型,将专注在辅助型、应用型、创作型等文本内容的自动生成研发,以个性化、专业性的内容自动生成为壁垒,保持在AI领域的技术竞争力。
03 精耕细分场景,从降本增效走向额外价值转移
结合拓尔思的优势行业与客户群体,公司将优先关注以下行业的AIGC细分场景:
新闻出版
机器人写稿、内容创作协助、基于媒体大数据的自动报告生成(如热点舆情报告、传播力报告和榜单生成等)、多模态的自动配图(基于文本的图片、视频生成)。
政务服务
公文辅助创作、政民互动服务(对话式AI的智能问答)、政务新媒体的创新应用(同新闻出版场景应用)、政策大脑的摘要/数据解读。
金融领域
自动报告生成(企业报告、产业报告等)、证券研报的智能解读和摘要生成、上市公司的信息检索。
通用行业
知识图谱构建、人机协同的内容生成(如水军回复、考试答题等)、开源报告的简报生成等。
元宇宙和云服务
虚拟人服务(灵魂大脑包罗万象、主要是虚拟人的“理解力”与“创作力”相结合,重点是对话式AI、智能创作与虚拟人+物+景的自动生成);数家资讯云服务的报告生成、资讯信息精准对话式检索;网察云服务的自动舆情报告生成等。