多模态AI加速突破产业链核心公司梳理

作者：股牛牛股票

09月26日 17:38

阅读数(13113)

摘要：视频技术将迎来一个小高潮。

今天来研习多模态AI

1.首先再回顾一遍各大模型：

细分：通用人工智能、自然语言处理、多模态模型

海外公司：OpenAI (ChatGPT)

中国对标公司：百度（文心一言）、昆仑万维

细分：自然语言处理、多模态模型、云计算

海外公司：谷歌 (PaLM)

中国对标公司：阿里巴巴（通义千问）、科大讯飞、三六零

细分：办公软件、自然语言处理

海外公司：微软 (Microsoft 365 Copilot)

中国对标公司：金山办公（WPS ai）

细分：自然语言处理、多模态模型、计算机视觉

海外公司：Meta (LLaMa)

中国对标公司腾讯（混元大模型）

2.8个原生AI应用综合对比

1.视频和图像生成技术

事件：9月25日，OpenAI在官网发文表示在ChatGPT推出语音和图像功能，未来两周将向Plus和Enterprise用户推出，语音功能支持iOS和Android平台，图像功能支持全平台。

（1）语音功能：用户可以与ChatGPT进行语音对话，让ChatGPT讲故事、读诗等。语音输入端，由开源语音识别系统Whisper将口语转录为文本；语音输出端，由新的文本转语音模型支持，可以从文本和几秒的语音样本中生成类似人类的音频。

（2）图像功能：用户可以用图片向ChatGPT提问，支持多轮对话和多图识别，比如拍下冰箱照片询问ChatGPT晚餐吃什么。从OpenAI官网展示的应用案例来看，ChatGPT可以根据用户上传的自行车、说明书、工具箱照片，指引用户完成自行车座椅的调节。

与文字相比，高质量的图像和视频生成在成本和用户体验方面能带来更明显的感知。上周Open AIDALLE 3预示着多模态AI技术渐行渐近，图像也是现阶段商业化落地最容易的场景之一。据行业内部消息，之前国内全力投入AI图像的研发者中，约有80%现在都把重心放在AI视频领域，且近两个月，视频相关的论文数量呈指数型增长。预计2023年底或2024年初，视频技术将迎来一个小高潮。

重点公司：

据海天瑞声2023年半年度报告：

训练数据作为 AI 发展和演进“燃料”的作用更加凸显，并逐渐成为大模型竞赛中的重要决定性要素

在 AI 产业链中，算法、算力和数据共同构成技术发展的三大核心要素。算法模型从技术理论到应用实践的落地过程依赖于大量的训练数据。训练数据越多、越完整、质量越高，模型推断的结论越可靠。过去十年，人工智能产业以算法为核心，通过深度学习算法的不断创新，推动人工智能产业的快速发展。但未来，当算法发展趋于开源、算力能力大幅提升及人工智能模型从技术理论应用到更多的垂直场景，想要更快更好提升人工智能能力，数据将发挥更重要的作用。

尤其在大模型时代下的今天，数据正在被视为大模型落地以及竞赛中重要的决定性要素。在大模型领域，过去业界普遍认为模型参数量是模型效果增强的核心要素，模型参数越大，性能表现越好，而如今这一（“参数”定律正在打破。Meta 今年开发的新模型 Llama（（Large（Language（Model（Meta（AI）证明，相比于单纯参数量提升，训练数据规模以及多样性的增强，可带来更好的模型效果提升。根据新浪财经报道，Llama-13B 虽然在参数规模上相较于 GPT-3（（175B）小了十几倍，但由于其大幅提升了训练数据规模（（Llama-13B 训练数据量约为 GPT-3 的 3 倍），其表现能力在大部分指标上均超越了后者；与此同时，Llama-65B 也是凭借数据规模优势，与谷歌 5400 亿参数的PaLM-540B 在表现上旗鼓相当。

可以看出，数据正在逐渐成为大模型时代下的重要推动力量，并产生快速增长的数据需求。根据 Cognilytica 数据统计显示，2021 年全球 AI 训练数据市场需求约为 42 亿美元，并预计到 2027年这一需求将增长到 220 亿美元，2021-2027 年复合增长率达 32%。

海天瑞声：国内领先基础数据服务商。我国最早从事训练数据研发销售的企业之一；国内首家且是目前唯一一家A股上市的人工智能训练数据服务企业。

主要客户/合作伙伴：大型科技公司，如阿里巴巴、Meta、腾讯、百度、字节跳动、微软、三星等；人工智能企业，如科大讯飞、商汤科技、云知声、海康威视等；科研机构，如中国科学院、清华大学、中国科学技术大学等。

据网达软件2023年半年度报告：

报告期内，公司继续深化高新视频技术成果转换、积极推动“大视频+AI”在垂直领域的布局，结合主营业务及发展战略，形成高新视频技术平台、融合媒体生态系统及 AI 视频大数据平台的三大主要业务板块。

AI 视频大数据平台

基于视频采集、大数据分析和 AI 能力，应用于实时场景，将人脸人体识别、行为识别、语音语义识别、物体识别等算法与数据分析能力相结合，对视频数据资源进行整合，应用于用户业务，为客户提供高性能、高用户价值、高性价比的数据智能分析服务。

网达软件：大视频时代运营商AIGC龙头。公司为以“大视频+AI”为核心战略的行业龙头。

2.催生算力需求

应用增长及多模态数据处理复杂度提高催生算力需求。多模态模型需要处理的输入和输出信息将包括文本、图像、视频、音频等，复杂度远超纯文本数据，同时将不同模态的特征进行融合,找到不同模态间的内在关联和交互关系也需要更复杂的模型架构，这也增加了计算负载，要发挥多模态模型的优势,必须有强大的算力支持。同时多模态发展打开广阔下游应用空间，用户增长将让应用厂商在模型推理侧需要更多算力，进一步催生算力需求。

国盛证券建议关注：1）多模态AI：大华股份、海康威视、千方科技、中科创达、萤石网络、万兴科技、虹软科技、当虹科技等；2）算力：英伟达、浪潮信息、中际旭创、新易盛、工业富联、云赛智联、中科曙光、拓维信息、四川长虹、烽火通信、海光信息、恒润股份、寒武纪、易华录、神州数码、景嘉微、中贝通信等。

3.有望打开下游广阔应用空间

8月31日国内首批8家企业和机构的大模型产品获备案通过，已可正式上线为公众提供服务。各类科技企业积极拥抱AI时代浪潮，不断实现技术进步，持续拓展AI应用能力和范围。多模态大模型有望打开下游广阔应用空间。

开源证券建议龙头关注：金山办公、科大讯飞、同花顺等。应用领域，关注鼎捷软件、彩讯股份、焦点科技、拓尔思、致远互联等，受益标的包括泛微网络、普元信息、汉仪股份、新致软件、福昕软件、万兴科技、汉得信息等。

风险提示：AI落地不及预期；市场竞争加剧风险等。

本内容仅作为信息资讯参考，不构成具体投资建议。知道哪些题材有哪些公司还远远不够。您仍需独立做出投资决策，风险自担。市场有风险，投资需谨慎。

坚持不易，为了更好地为大家挖掘题材及其成分股，谢谢大家多多点赞在看。

声明：此内容不代表股牛牛观点、仅供参考，不构成投资建议，投资者据此操作，风险自担。