欢迎访问云开·全站appkaiyun
发布时间:2024-11-18 点此:554次
2024年11月14日,2024智慧媒体50人成都大会暨20周年财经媒体峰会在成都举行。会上,《每日经济新闻大模型年度评价报告》正式发布。
此前,2024年6月25日,第一期《每日经济新闻大模型评测报告》发布Kaiyun下载APP,对“财经新闻标题创作”、“微博新闻写作”和“微博新闻写作”等领域的15款市场主流大模型进行了评估。 《文章纠错》对《金融数据计算与分析》四个新闻采编应用场景的能力进行了评估。
2024年9月6日,发布第二期《每日经济新闻大模型评测报告》,重点关注大模型在“金融数学计算”、“商务文本翻译”三大新闻采编应用场景中的能力”和“财经新闻阅读”。
与前两次评测一样,《每日经济新闻大模型年度评测报告》继续评测大模型在新闻采编场景中的应用能力。不过,为了更精准地满足采编人员的实际需求,本次评测以“采写”“采编、审核、短视频创作的整个新闻制作流程”为一个场景,包括五个子场景:大模型设计采访提纲——撰写新闻稿——校对稿件错误——精炼稿件标题——重写短视频文字的场景。通过大模型介入新闻生产全过程,评估“谁是整个新闻生产过程中最好的大模型”,并用直观的评估结果为采编人员选择合适的大模型提供实际参考。他们工作中的模型工具。
本次评测设置的五个细分应用场景如下:
(1)设计采访提纲:目的是检验大模型能否帮助记者拟定采访提纲,协助记者进行采访工作。
(2) 撰写新闻稿:目的是检验大型模型是否可以根据多个给定材料创建新闻稿。
(3)校对稿件错误:旨在检验大模型是否能够检测新闻稿中的拼写错误、语法、数字、标点符号等错误。
(4)精炼稿件标题:目的是考察大模型能否根据稿件内容精炼新闻标题,特别是产生适合在微信等新媒体平台传播的新媒体风格标题。
(5)改写短视频文字:目的是检验大模型能否从文字新闻稿改写为适合短视频发布的文案。
每个大模型评估团队针对五个细分场景制定了相应的评估维度和评分指标。每日经济新闻10余位首席、资深、资深记者编辑根据评价维度和评分指标,对各大模型在5个细分场景下的表现进行评分,汇总各场景的得分,最终得出总分参与的大型模特。 。
需要指出的是,本次评测是通过各个大型号的API端口进行的,并且是在默认温度下完成的。与大众用户使用的大模型C端对话工具有差异。但评估结果对于用户在特定场景下选择合适的大模型工具仍然具有重要的参考价值。
本期评测全部在“语言智选AI创造+”测试台上进行,共有12款国产大型车型参与。
评测时间为2024年10月18日,因此参与评测的大型机型均为截至10月18日的最新版本。
评测结果显示,腾讯混元hunyuan-turbo以379.53分的总分位居榜首,智浦GLM-4-Plus以368.6分紧随其后,字节跳动doubao-pro-32k(版本240828)以363分紧随其后。
从五种细分场景来看,每种模式都展现出不同的优势:
在设计面试大纲场景中,腾讯混元-turbo和昆仑万维天宫SkyChat-3.0模型均获得了93.33分,并列第一。
在撰写新闻稿的场景中,GLM-4-Plus 以 98 分的高分拔得头筹。
在校对稿件错误的场景中,GLM-4-Plus以60分的成绩排名第一。
在稿件标题提炼方面,DeepSeek-V2.5模型以55.2分领先其他模型。
在改写短视频文字的场景中,腾讯混源hunyuan-turbo再次展现了强大的实力,以95分的成绩排名第一。
阅读报告全文请访问:每日经济新闻大模型年度评估报告。
结论1:目前还没有大型模型能够高质量地完成采集和编辑的整个过程。
截至目前,每日经济新闻已推出三期大型模型评测报告,涵盖12个新闻采编应用场景。但从结果来看,没有一个大型模型能够在所有场景下都排名第一。
就像人类一样,每个大型模型都有不同的优点和缺点。例如,一些大型模型擅长计算金融数据,但在提炼新闻标题方面却排名垫底;有些大模特擅长英汉互译,但汉英互译能力却很一般。
在新闻制作的关键环节,如本次评价的“撰写新闻文章”、“校对稿件错误”、“提炼新闻标题”,首评中的“金融数据计算与分析”以及“金融数据的计算与分析”等。第二次评估中的“数据” 在“金融数学计算”等应用场景中,大多数大型模型生成的结果经常会出现错误。为了确保新闻稿的高质量和无错误,必须进行人工审核和检查。
目前,市场上还没有大型机型能够高质量、全流程地完成新闻采编场景的所有工作。也就是说,世界上不存在“AI记者”。
结论二:大模型的“假象”仍未解决,错误更加隐蔽
尽管各种大型模型已经迭代升级多次,但仍然无法解决“认真地说废话”的错觉。
最初的大模型的“错觉”问题更加明显。随着产品的不断迭代,大型模型生成的文本质量逐渐提高,但文本中的错误也变得越来越隐蔽。例如,在“撰写新闻稿”的场景中kaiyun体育网页版登录网页版,大模型会不显眼地改变角色的位置或虚构事件发生的时间。例如,在这篇评论中,一些大模型将“星巴克咖啡公司宣布调整中国领导层架构”的9月24日误写为9月30日。又比如,在第二阶段评测的“金融数学计算”场景中,即使是得分第一的大模型给出了一些问题的正确计算公式,但仍然得到了错误的答案。
对于一篇高质量的新闻稿来说,上述问题可能是“致命”的错误。目前,人工智能生成的内容已经大规模出现在互联网上。这就要求新闻媒体进一步完善新闻内容的真实性审核机制,加强内容管控。
结论三:“冷面”大模型很难判断新闻价值
读一篇稿子,挖掘出最重要的新闻点,然后提炼制作头条新闻,大模子和经验丰富的编辑在这方面差距很大。
在本期评测的“精炼稿题”场景中,大模型的得分普遍偏低。它生成的大多数标题看起来都相当令人满意。在本期评测的“精炼稿题”场景中,大模型的得分普遍偏低。它生成的大多数标题看起来都相当令人满意。比如《星巴克中国新篇章:80后刘文娟接任CEO,带领咖啡巨头直面挑战》、《星巴克中国换帅:80后刘文娟接任CEO》等标题作为首席执行官,面临市场挑战和变化”。
此外,在评测过程中发现,大模型提炼出来的新闻标题往往充斥着一些“高层次”的抽象概念词,无法挖掘出文章中最重要的新闻点和最有价值的信息。文字空洞,很难吸引读者的注意力。 。
另外,在“撰写新闻稿”场景下,大模型生成的文字较为生硬,“机器痕迹”明显,缺乏情感化、个性化的表达。
从现阶段来看,在阅读文章时,大模型很难准确、深入地把握稿件的新闻要点,很容易停留在浅层的理解上。因此,新闻点和新闻价值的判断,包括有温度、有故事、有人情味的厚重稿件的收集和撰写,仍然需要记者、编辑的手工干预和精心打磨。
结论四:针对不同的编辑场景选择最合适的大模型
大模型评测三个阶段的场景基本上可以分为辅助场景(如阅读财经新闻、文本翻译、设计采访提纲等)和关键场景(如撰写新闻稿、校对稿件错误、精炼新闻)头条新闻等)。
三阶段评估结果显示,大多数大型模型在设计采访大纲、重写短视频文案、英汉翻译、文章阅读、微博新闻写作等辅助场景中普遍表现良好。例如,在“重写短视频文案”场景中,参与评测的12个大模型全部取得了80分以上的成绩;而在“设计面试大纲”场景中,有8个大模型得分高于80分。在第二阶段评测的“商业文章翻译”场景中,有13个大模型得分高于80分。在“财经新闻阅读”场景中,有13个大模型得分高于70分。
但撰写新闻文章、校对稿件错误、提炼新闻标题等新闻生产关键场景的能力明显不足。例如,在“校对稿件错误”场景中,只有一个大模型获得了 60 分。在“炼化新闻头条”场景下,没有大型模型得分达到60分。
因此,记者、编辑在采编工作中可以根据不同的环节和场景,选择最适合的大模型,使部分场景实现基于AI的采编工作,提高工作效率。
结论五:新闻媒体主导地位:打造垂直领域“AI记者”
对比三期大模型的评测结果不难发现,国产大模型的能力通过不断迭代得到了稳步提升。与此同时,各大车型之间的差距也在逐渐缩小,各个车型都展现出独特的优势。不过,这些大型模型都是通用模型,并不是为新闻媒体和编辑工作量身定做的。
大型模型中“错觉”问题严重的一个重要原因是训练文本和数据的质量不高,并且包含很多信息错误。新闻工作需要极高的准确性。这一缺点直接限制了大型模型在新闻领域的应用。而新闻媒体在长期的新闻报道中积累了大量的优质新闻文章和数据云开体育app网页版入口官网登录,这为开发适合新闻采编工作的大模型工具提供了得天独厚的优势。
因此,独立培养并主导大型模型工具的开发显得尤为重要。通过这一点,新闻媒体既可以最大程度地保证大模型训练数据的质量和生成逻辑的准确性,又可以保证大模型生成内容的可控性。 ,使其更加契合媒体本身的属性和特点。
从研发方式上来说,整个采编过程可以拆分为采访、翻译、稿件撰写、摘要提炼、校对错误等几十个环节。根据各环节的具体工作目标、方法和要求,对大型模型进行专项训练,形成一系列单任务或垂直类人工智能工具。最终,通过对这些单任务人工智能工具的封装和整合,可以创建一套完整的新闻采编人工智能工具。
每日经济新闻大模型评测团队
2024 年 11 月
⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
接下来,“每日经济新闻大模型评测团队”将继续深入探索大模型的无限可能,结合实际应用场景对各个大模型进行综合评测,并定期推出专业报告,带来最前沿的洞察和发现。
在此,我们诚挚地邀请您参与评估项目。
如果您是研发型企业,想要展示自己的大模型实力,与其他大模型竞争,请将参赛大模型的详细信息发送至我们的邮箱:damoxing@nbd.com.cn。
如果您是大模型的用户,请告诉我们您希望在哪些场景下使用大模型,或者您希望我们测试哪些能力。打开每日经济新闻App,在“个人中心”-“意见反馈”栏留下您的想法和需求。
我们期待您的参与,共同探索大模型的无限可能。
每日经济新闻