含盖娱乐、视频、游戏行业！2023大模型落地应用案例集（下载）-首页/万向注册/万向注册平台-登录首页

公司新闻

含盖娱乐、视频、游戏行业！2023大模型落地应用案例集（下载）

时间：2024-01-25 09:31 点击次数：64

　　近日，首部聚焦大模型落地应用的权威研究成果《2023大模型落地应用案例集》，在2024中国信通院ICT+深度观察报告会上海分会场暨“虹桥之源”大模型驱动数字经济新生态峰会上成功重磅发布。《案例集》设置通用大模型、垂类大模型、大模型服务三个类别，内容涵盖52个大模型优秀应用案例，应用领域覆盖智能制造、教育教学、科技金融、广告营销、政务办公、文娱传媒、科学智能、医疗、安全、交通、家居等各个行业。本文精选出五个文化领域相关案例，供读者参考阅读。

　　公众号后台回复关键词【2023大模型落地应用案例集】获取PDF全文文档。

　　近日，首部聚焦大模型落地应用的权威研究成果《2023大模型落地应用案例集》，在2024中国信通院ICT+深度观察报告会上海分会场暨“虹桥之源”大模型驱动数字经济新生态峰会上成功重磅发布。《案例集》由大模型测试验证与协同创新中心（由中国信息通信研究院与上海人工智能实验室联合发起成立）牵头，全面展示了大模型前沿技术和发展成果，推动了大模型为代表的人工智能技术赋能社会经济高质量发展。

　　《案例集》设置通用大模型、垂类大模型、大模型服务三个类别，内容涵盖52个大模型优秀应用案例，应用领域覆盖智能制造、教育教学、科技金融、广告营销、政务办公、文娱传媒、科学智能、医疗、安全、交通、家居等各个行业。

　　HiDream.ai（智象未来），是一家专注于构建视觉多模态基础模型及应用的生成式人工智能初创公司，由加拿大工程院外籍院士、原京东集团副总裁梅涛博士创立。致力于围绕视觉打造生成式多模态基础模型及应用，激发从业者创造力，提升创作生产力，打造交互式智能内容创作新范式。

　　核心业务是基于自研的生成式视觉多模态基础模型，实现文本、图片、视频、3D模型等多模态内容的生成；打造了面向所有设计师的通用创作工具及泛设计内容社区“Pixeling（千象）”支持创意生成、艺术创作、在线编辑等全过程的可视化，帮助用户实现交互的智能化、作品的个性化，让用户的创意得以最大化的释放；同时面向电商商家推出AI制图工具PixMaker，目前支持固定商品SKU生成场景图和人像模特图生成。

　　“Pixeling千象”是一款全中文、易上手的AIGC创作平台和社区，专为设计师的需求而打造。平台包含图片生成、视频生成、图片编辑（智能重绘、智能拓图）等功能，旨在帮助用户零基础轻松掌握AIGC一站式能力，唤醒创造力，解放生产力，全面提升设计全流程工作效率。

　　Pixeling千象”依托智象未来自研的视觉多模态生成式基础模型，实现文本、图片、视频等多模态内容生成。模型参数超过百亿，技术水平行业领先，为用户创作提供强大支持（）。

　　在数字化时代，AIGC技术迅猛发展，设计师对易用、高效的中文AIGC创作平台需求日益凸显。市场急需一款全中文界面、一站式服务、易用且具备互动社区的AIGC创作平台，以满足设计师的多样化需求。

　　针对这一背景，“Pixeling千象”应运而生。它集成了图片生成、视频生成、图片编辑等功能，助力用户零基础掌握AIGC一站式能力。平台基于自研的AIGC视觉多模态基础模型，实现文本、图片、视频等多模态内容生成。简洁易用的界面让设计师能更快地完成从构思到成品的全过程，提高工作效率。

　　Pixeling千象”还为设计师打造了活跃的互动社区，便于分享经验、获取灵感、拓展人脉。用户在此可以充分发挥创意，共同成长。此外，平台还可满足用户的个性化需求，让设计师在创作过程中实现更多可能性。

　　Pixeling千象”目前包含图片生成、视频生成、图片编辑、3D生成等功能，是一个面向设计师的通用设计工具，同时也是一个服务于AIGC创作的泛设计内容社区。

　　文字生成图片、参考图生成图片，支持用户基于在平台生成的图片持续进行生成创作。

　　文字生成视频、图片生成视频，用户可以从本地上传图片、或者基于在平台生成的图片历史记录生成视频；此外还支持智能运镜，使画面更加生动。

　　智能拓图：“Pixeling千象”将会自动为用户进行画面拓展，并保持细节的清晰和准确性。通过智能拓图，用户可以将一幅小尺寸的绘画作品扩展至更大的画布尺寸，而无需担心失真或模糊。通过使用智能拓图，用户能够丰富画面背景、优化图片格局、增加画面层次，“Pixeling千象”在创作思路上为用户提供了更开阔、更浩瀚的想象空间，让创作更加自由畅快。

　　智能重绘：智能重绘允许用户对生成的图片作品的特定区域进行修改和改进。用户可以通过调整颜色、线条和细节等，对选中的部分进行精细调整。通过智能重绘功能，用户可以轻松实现对细节的精益求精，让作品更加完美。

　　Pixeling千象”作为一款全中文AIGC创作平5例线台，凭借卓越的技术实力和实用的功能体验，满足了设计师在多样化、个性化方面的需求，为国内设计产业业的发展注入新活力。

　　根据数据，“Pixeling千象能够在质量、效率、资产等多方面为用户和客户持续提供价值，上手难度降低99%，创意维度增加75%，节省98%的出图时间，100%增加内容沉淀。

　　平台提供的图片生成、视频生成、图片编辑等功能，能有效帮助设计师提高工作效率，降低创作成本。依托智象未来自研的视觉多模态生成式基础模型，平台为用户创作提供强大支持，使设计师能够快速完成从构思到成品的全过程。

　　“Pixeling千象”通过提供一站式AIGC服务，吸引设计师入驻，形成稳定的用户群体。平台可以进一步挖掘用户需求，推出更多针对性功能和服务，提高用户粘性，实现持续盈利。

　　“Pixeling千象”充分利用平台上的丰富资源和活跃社区，助力设计师拓展人脉、获取灵感。同时，借助行业领先的技术水平和对用户需求的精准把握，平台在设计师群体中形成良好口碑，实现自发推广。

　　通过不断创新和优化服务，“Pixeling千象”将在设计领域发挥更大作用，推动行业繁荣发展。

　　上海人工智能实验室是我国人工智能领域的新型科研机构，开展战略性、原创性、前瞻性的科学研究与技术攻关，突破人工智能的重要基础理论和关键核心技术，打造“突破型、引领型、平台型”一体化的大型综合性研究基地，支撑我国人工智能产业实现跨越式发展，目标建成国际一流的人工智能实验室，成为享誉全球的人工智能原创理论和技术的策源地。

　　书生筑梦视频生成大模型，通过设计大规模视频生成模型的基础模型结构，机器学习方法，建立大规模数据集，构建数据处理工具，实现了文生视频大模型系统，并在通用场景下实现了2K分辨率、支持转场与镜头语言的分钟级长视频生成。

　　随着生成式人工智能技术的发展，图像生成模型正在日渐成熟，以Midjourney和Stable Diffusion为代表的文生图模型为使用者提供了全新的创作模式。视频生成，由于其更加广泛的应用场景，以及更加生动的表现方式，受到了越来越多的关注和需求。因此，设计能够生成高画质，长视频的大规模视频生成模型，对于广告设计、电影制作、以及艺术创作将产生革命式的变革。

　　作为首个支持故事性、多镜头的视频生成大模型，包含超过30亿参数的书生·筑梦将全面赋能视频创作，拓展创意空间。书生·筑梦将AI生成视频时长由秒级提升至分钟级，并使所生成视频内容具备“转场流畅、故事连贯、画质高清”特质。凭借强大的语义、图像理解和生成能力，在多维度评测指标中综合领先。

　　作为一款融合文本、图像、视频等多模态数据的视频生成大模型，书生·筑梦支持由“文生视频”与“图生视频”多样化任务。为实现通用文本视频生成（Text-to-Video Generation，T2V），团队在与训练文生图大模型基础上引入时空建模模块，并使用图像视频联合训练的方式，使模型具备了T2V能力。

　　与此同时，团队基于掩码的条件视频扩散模型，将特定图片作为即将生成视频的第一帧和对应掩码，实现了由图片驱动的视频生成能力（Image-to-Video Generation，12V）。

　　连贯的转场镜头、生动波折的故事、充满美感的高清画质缺一不可在影视巨作中缺一不可。在书生·筑梦中，运用AI直接生成长视频“巨作”将成为可能。研发完成转场视频生成模型，为其输入多段给定视频或场景图片，书生·筑梦可根据提示词（prompt）和扩散模型（Diffusion Model）自动生成转场视频，从而实现不同场景和视频之间的“丝滑”连接。在生成多段视频时，为保证视频中的主体一致性，研发团队提出了保持主体一致性模块。该模块的输入内容一张包含主体的图片和一段文字描述，图片信息作为文本的一部分，或作为额外的信息加入到网络注意力模块中，即可保证多段视频中的主体一致。实现生成视频的“多机位”效果，使长视频中的故事一致性成为可能。

　　本项目相关研究成果已应用于央视听媒体大模型（CMG Media GPT）中。该大模型为首个专注于视听媒体内容生产的AI大模型，由上海AI实验室与中央广播电视总台联合推出。于此同时，书生筑梦视频生成大模型已与商汤科技、想法流、北京电影学院等单位达成合作意向，正成为推动视听媒体编创方式变革的AI工具。

　　书生筑梦视频生成大模型具备生成多样性和创造性视频内容的非凡能力，为创意和创新开辟了崭新的可能性。该模型有助于广告公司、娱乐制作公司等行业生成独特的广告创意、电影特效、虚拟角色等，为观众带来独具魅力的视觉体验。传统的影视制作通常需要投入大量人力、物力和时间。然而，引入该模型作为辅助工具，可以通过自动化和智能化的方式，降低人力成本并加速视频生成速度。该模型能够协助企业和影视从业者更快地生成所需的视频内容，从而节约时间和成本。

　　上海百川智能技术有限公司成立于2023年9月12日，由前搜狗公司CEO王小川创立。目前已完成A1轮战略融资，总融资金额达3。5亿美元，创下国内大模型初创企业跻身科技独角兽行列最快记录。成立以来，百川智能接连发布Baichuan-7B/13B、Baichuan2-7B/13B、Baichuan2-192K五款开源大模型及Baichuan-53B、Baichuan2-53B两款闭源大模型。其中Baichuan-7B/13B两款大模型在多个权威评测榜单均名列前茅，累积下载量突破六百万次。Baichuan2-7B/13B更是在各维度全面领先Llama 2，引领了中国开源生态发展。Baichuan2-192K大模型上下文窗口长度高达192K，一次能够处理约35万个汉字，是目前全球最长上下文窗口大模型。11月16日，百川智能与鹏城实验室携手探索大模型训练和应用，合作研发基于国产算力的128K长窗口大模型“鹏城-百川·脑海33B”。

　　在泛娱乐领域大量C端用户拥有情感陪伴和内容创作、消费需求，社区、游戏等类别B端用户急需大模型赋能以对产品进行创新升级的背景下，百川智能以LLM驱动Character为基础，推出具有丰富多样剧情内容、能够生成真实自然对话的泛娱乐领域创新产品线。针对B端用户，上线百川智能独有的知识库功能，允许创作者针对于角色创建专属知识库，让角色回复更具备可控性和事实性。同时，基于长窗口模型，产品支持创作者基于一本小说快速创建角色，且具有超长的记忆能力。针对C端客户，平台将从人机共生的UGC游戏化社区（word world阶段）向开放世界元宇宙（virtual world阶段）发展，从生成角色开始，生成文字游戏，再通过多模态生成图、文、视频和游戏，最终实现生成式开放世界。

　　本项目专注于泛娱乐领域创新产品线，针对各种客户类型（包括社区类、游戏类、影视类、网文类和营销类等）及其特定需求（例如角色扮演、智能NPC等）进行深入分析，并提出相应的切入点与策略。借助百川大模型，平台将角色扮演能力应用于多种内容形式，如互动小说、游戏和影视剧等，以满足用户对高品质、普及性的娱乐内容的需求。本项目致力于降低创作门槛，提高创造力上限，吸引14至40岁的广泛用户群体，并提供易于使用的创作界面和强大的创作工具，以确保内容的质量与丰富性。总体来说，本项目旨在满足不同客户类型的需求，并助力内容创作与改编的多元化发展。

　　产品设计能力：项目团队具备丰富的产品设计经验，能够根据客户需求进行定制化设计，提供开箱即用的角色管理和调优工具。

　　技术支持能力：项目团队拥有专业的技术支持团队，能够解决客户在使用过程中遇到的各种问题，提供优质的售后服务。

　　用户体验优化能力：在产品设计中融入了娱乐感和游戏感，以提供更为生动和吸引人的用户体验。

　　知识库：平台允许创作者针对角色创建专属知识库，这使得角色的回复更加具有可控性和事实性。这目前是百川智能独有的设计，使创作者能够更好地控制角色的行为和反应，同时也保证了信息的准确性。

　　长窗口上下文理解：平台具备超长上下文理解能力，使得角色具有超长的记忆能力。这不仅可以提高创作效率，让创作者可以快速创建角色，也可以提升对话体验，让角色能够理解和回应用户的长篇对线、实施效果

　　平台在用户反馈方面得到了广泛的好评。用户表示平台系统稳定，能够快速响应并提供高质量的输出。在进行角色扮演、虚拟陪伴、聊天对话等方面，都表现得非常出色。此外，平台在复述用户问题、处理Prompt限定问题和上下文信息方面也做得很好，能够严格按照用户的指示进行操作，并根据上下文信息做出合理的回答。

　　本项目将通过独特的商业模式实现企业盈利与消费者需求的完美融合，推动产业发展，创造更多就业机会，提高经济效益。项目关注消费者个性化需求，提升消费体验和生活品质，助力国家文化软实力提升，营造健康文化氛围，促进社会和谐与稳定。B端商业模式包括免费试用、使用频率限制、API使用余额展示、异常问题处理机制及商业留资入口，旨帮助客户提升产品商业价值。C端商业模式基于AIGC能力打造的创玩一体的模式和体验，降低了门槛，提升创造力上限，并提供持续性服务确保用户得到及时帮助和支持。2022年中国游戏市场实际销售收入2658.84亿元，游戏用户规模6.64亿。其中角色扮演类游戏表现突出，占总收入近五分之一，这表明该项目将在泛娱乐领域取得重要地位。

　　AnimateDiff：一项基于个性化文生图模型扩展后的视频生成框架——上海人工智能实验室二级

　　伴随科学技术进一步发展，知识与内容的生成方式从原本的由人本身作为生产驱动转变为由人利用工具或技术进行生产，与人工智能技术迅猛发展相对应的便是面向人工智能的技术生成即“AIGC”。AIGC凭借更具性价比的使用成本、相对较低的使用门槛以及更具有生产力的生产效率，成为文本、语音、图像乃至视频生成中脱颖而出的工具。但与此同时，AIGC大模型海量的训练数据需求使得其训练难度与训练成本均较高，因而抬高了AIGC大模型在实际应用中的成本与要求，为AIGC大模型训练与使用增加了难度。

　　上海人工智能实验室通过锁定原有文生图模型进而插入新的动作建模模块，形成一个适配个性化文生图模型的从文字到视频生成的垂类大模型。该模型通过将运动建模模块引入到被锁定住的文生图模型中去，在视频的基础上进行训练，从而使得模型学会合理化的运动知识，由此实现从文字到高质量、稳定性的视频生产，使得用户定制自己想要的个性化动态视频风格与内容。

　　高速发展的信息技术与急速流动的社会使得人们身处于一个高度信息化与数字化的时代，人们对于日常生活中信息内容的时效性、信息形式的生动化以及信息生产的自主化有了更高的追求。与之相悖，传统的内容生成模式在使用中的高门槛、低生产速度与单一生成形式使得其难以满足现今的社会需求，人们在现今多样化的社会中对于技术如何驱动内容生成走向更便捷有了新的要求。然而技术本身具有一定的研发成本与技术门槛，因此对于AIGC大模型而言，如何多快好省地实现轻松化的应用，是其在当前研发与应用中的关键问题。

　　AnimateDiff通过对已有的文生图模型扩展，以插入新的动作建模模块的方式来构建起其模型框架，从而使得该模型仅需通过训练运动建模模块来学习合理化的运动规律，实现根据用户输入的文字最终能够变成有序且连续的动态画面，进而通过复制这一运动模块将其应用到同类基于类似模型训练而成的个性化文生图模型中，实现了对于模型本身的延续与扩展，从而支持生成高质量且多样化风格的视频。

　　AnimateDiff作为从文字到动态画面的视频生成框架，通过其训练方法，优化了文字-图片-视频的AIGC大模型生成路径，有效节约了训练成本，实现了从文字到视频的生成框架，降低了用户在视频创作中的使用门槛。并且在训练中，通过对训练运动模块的优化，使得其所需数据量更小的情况下，生成了成像质量更为稳定且画面连续性更出色的动态视频。因此AnimateDiff在即是对AIGC大模型训练路径的创新，也是对于AIGC大模型在生成模式上的创新。

　　AnimateDiff目前主要是作为Diffusion Web UI和ComfyUI中的插件供用户进行直接使用，也支持用户在CivitAl、HuggingFace以及OpenXLab几大开源社区内体验其预训练模型，并且于2023年11月份在SDXL上开源其测试版。自AnimateDiff在GitHub上发布以来，就备受各个AI开源社区的关注，备受众多AIGC相关行业用户的关注与使用，推动众多用户不仅通过AnimateDiff制作出许多优秀、生动且有趣的视频作品，亦有众多用户在AnimateDiff的基础上形成了新的扩展，进一步拓宽AnimateDiff的应用场景与影响力，为AIGC助力内容应用带来了更丰富的可能。

　　AnimateDiff作为支持从文本到连续稳定视频生成模型，在训练层面很好地链接了原有丰富且具有个性化的文生图模型，通过其独特的算法训练路径实现了节约训练成本与优化训练资源，并且进一步增添了同类文生图模型的可持续性扩展。另一方面在应用层面，其降低了普罗大众在AIGC方面的使用门槛，使得普通人捕捉自身想象力进行艺术创造变得更轻松。因此伴随AnimateDiff在未来进一步发展，我们可以期待其应用于艺术创造、文博数字化等丰富场景之中，进而推动AI技术、人与社会更好地互动，共同创造美与价值。

　　商汤科技作为亚洲领先的AI技术公司，拥有深厚的学术积累，并长期投入于原创技术研究，不断增强行业领先的全栈式人工智能能力，涵盖感知智能、决策智能、智能内容生成和智能内容增强等关键技术领域，同时包含AI芯片、AI传感器及AI云等关键能力。商汤前瞻性打造新型人工智能基础设施-商汤AI大装置SenseCore，打通算力、算法和平台，并在此基础上建立“商汤日日新SenseNova”大模型及研发体系，推动高效率、低成本、规模化的AI创新和落地，进而打通商业价值闭环，引领人工智能进入工业化发展阶段。

　　商汤科技业务涵盖智慧商业、智慧城市、智慧生活、智能汽车四大板块，相关产品与解决方案深受客户与合作伙伴好评。目前，商汤（股票代码：0020。HK）已于香港交易所主板挂牌上市。商汤在香港、上海、北京、深圳、成都、杭州、南平、青岛、西安、京都、东京、新加坡、利雅得、阿布扎比、迪拜、吉隆坡、首尔等地设立办公室。

　　面向游戏行业的图像内容生成式大模型是一款商汤科技自主研发、面向游戏策划和美工等研发人员设计的高效研发辅助工具，可通过高质量、快捷的AIGC能力，快速、批量地生成风格多样的图像内容，大幅缩短游戏研发时间与人力成本，助力商汤科技内部业务快速落地。

　　随着通用大模型的技术发展，面向人工智能内容生成（简称“AIGC”）的大模型正在从单纯加快时政、金融、体育等行业新闻稿的内容生成速度、降低人力成本，逐步转向以绘画、美工素材、剧本等生成应用的价值创造。跨模态/多模态内容成为关键的发展节点，OpenAI的CLIP多模态模型、DallE系列生成模型，Google的Imagen大规模文图生成模型，让这一领域的技术不断完善。2022年下半年以来，生成模型技术不断完善、开源模式的推动、商业化案例的落地，推动AIGC发展明显加速。

　　针对游戏行业，目前部分内容创作者的矛盾主要集中在越来越高的生成内容的丰富度、事实性和个性化的需求与有限的创作周期，同时也需要更加高效直观的图文跨模态转换技术，以实现团队协作。因此，急需高效、高质量的内容生成手段用于创作灵感的构思、辅助内容创作和团队需求沟通。而随着AIGC大模型的标注数据累积、AIGC技术架构日渐完善，AIGC技术逐渐开始面向内容创作应用。AIGC技术借助大模型的跨模态综合技术能力，可以激发创意，提升内容多样性，降低制作成本，快速推动更加高质量的内容生成和创作。

　　商汤科技目前已针对游戏业务正式部署了图像内容生成式大模型，可面向游戏美工、策划等内容创作者提供高质量、大批量的优秀图像内容。基于检索式超大生成扩散模型设计、质量感知式图像生成技术、图像布局分布式训练方式、面向超大生成扩散模型的训练和推理加速器以及基于超大生成扩散模型的图像二次创作能力等创新点，内容创作者可以实现更加精准的高质量图像内容生成，通过初步筛选图像内容，即可获得目标图像，并可以实现局部区域内容的定制化调整。因此，图像内容生成式大模型的应用大幅提升了游戏业务的沟通和研发进度，辅助内容创作者更加高效、灵活地创作游戏素材。

　　高效提升策划与美术设计沟通准确性：通过使用图像内容生成大模型的AIGC能力，可将策划与美术设计沟通的时间和频次大幅缩短。传统的设计需求沟通通常需要4-5次对接反馈，将文字描述转换为最终的角色或者场景概念图，目前策划借助AIGC能力，可以直接将文字需求转化为图像内容，仅需要1-2次沟通对接即可让美术设计理解，大幅度提升了沟通准确性；

　　加速美术设计的生产效率：美术设计借助图像内容生成式大模型的AIGC能力，可以高效、高质量生成不同质量的图像内容，用于辅助内容创作。如果需要根据沟通反馈意见进行修改设计，也可通过模型内容仅对局部细节进行替换。这些生产效率上的提升可将原有单个角色的创作周期从10天缩短到6天左右。而在图标的设计上加速效应更加的突出，按传统的工期计算为1天2个，现在接入AIGC能力后，美术能够在描述准确+风格确定的情况下，一天就可以生成上百个候选图标，而美术只需要简单修改就能够使用。

　　高效、高质量地进行游戏素材内容创作：游戏策划和美术设计都可以通过图像生成内容更加直观、更加高效的进行沟通和协作，有利助力了原创角色、场景以及其他游戏素材内容的创作；

　　游戏策划与美术设计的沟通周期缩短，需求沟通和反馈频率从传统的4-5次变为1-2次。

　　通过在商汤科技内部的游戏业务推动图像内容生成式大模型，尝试利用AIGC能力辅助游戏开发，可有利于解决现有游戏行业普遍存在的沟通和协作成本高、策划与美术设计存在理解偏差、开发周期短等迫切问题，将能够逐步实现AIGC能力在整个游戏开发周期中的渗透和推广，推动以AIGC能力为辅助工具的游戏开发模式形成。

　　行业窗口与顶尖新媒体【文化产业评论】已维近4000期（持续10年有余，跨越近4000天），推送文化、旅游、体育领域专业优质文章8000多篇。【文化产业评论】始终秉承权威、专业、准确、及时、实用的特点，聚焦文化、旅游、体育等行业前沿动态、发展思考，直面新时代行业发展重大问题，融汇行业内外精英的观察和理解，得到了全国从中央到地方各级政府公务员、企事业单位负责人、精英从业者的高度关注与大力支持，亦架设起沟通各方的畅通渠道，是中共中央宣传部、国家发展和改革委员会、文化和旅游部、国家广播电视总局、国家电影局、国家新闻出版署、国家文物局、国家体育总局等有关部门，各地市政府，以及全国各文化、旅游、体育企业的重要助手。欢迎订阅关注！

上一篇：国内10万一台苹果Vision Pro供应商曝光

下一篇：昆明俊发生态半岛(2024最新楼盘资讯)俊发生态半岛房价面积房源户型