DeepSeek是一家有创新潜力但也面临诸多挑战的人工智能公司,以下是对它的一些看法:
优势方面
- 技术创新:采用强化学习技术,在有限人工干预下进行训练,实现了人工智能的“顿悟时刻”,降低了开发“杀手级”应用程序的成本,相比传统的“从人类反馈中强化学习”技术有一定突破。
- 模型性能佳:DeepSeek LLM 67b在推理、编码、数学和中文理解等方面表现出色,在一些基准测试中优于Llama 2 70b,如在C-Eval、CMMC等测试中展现出较高的分数,在匈牙利国家高中考试中取得65分的好成绩。
- 开源推动发展:将DeepSeek LLM 7B/67B的基础模型和对话模型开源,还提供基础模型训练过程的中间检查点,有利于学术和商业领域的研究,能吸引更多开发者参与,推动技术的发展和应用。
- 成本效益潜力:其技术创新表明构建尖端AI模型所需的资金和计算资源比之前预计的可以少得多,若能实现低成本高效训练,将扩大AI市场应用。
不足方面
- 数据处理局限:在多模态数据融合场景下,对图像、文本和音频等多种类型数据整合分析时,存在数据丢失或错误关联的情况,导致分析结果偏差较大。
- 模型架构不稳:采用的基础架构缺乏足够的理论支撑,在大规模数据训练过程中稳定性欠佳,经常出现训练中断的问题,影响研发效率。
- 算法效率问题:算法在面对海量数据时运算速度缓慢,远低于行业平均水平,模型调优过程中参数调整困难,难以达到理想性能指标。
- 数据安全隐患:曾被曝出严重的聊天数据泄漏漏洞,超百万条聊天数据全泄露,包含聊天记录、API密钥等敏感信息,反映出在数据安全防护方面存在严重问题。