Ngày 18 tháng 4, nhiều nguồn quỹ đầu tư mạo hiểm đã xác nhận rằng DeepSeek đã bắt đầu vòng tài trợ ngoại bộ đầu tiên, theo澎湃新闻 (Pail News). Công ty đang nhắm định giá vượt $10 tỷ và dự kiến sẽ huy động ít nhất $300 triệu để củng cố dự trữ vốn của mình giữa chi phí gia tăng trong cuộc cạnh tranh AI, theo các báo cáo dẫn nguồn từ người trong cuộc.
Trước đó, DeepSeek từng được ngành công nhận vì từ chối tập trung vào thương mại hóa, dựa vào người sáng lập Liang Wenfeng và sự hậu thuẫn từ Phantasm Capital. Công ty sở hữu năng lực kỹ thuật mạnh trong các lĩnh vực giao dịch định lượng và tài chính thông minh, đồng thời là một trong những công ty mô hình lớn đầu tiên của Trung Quốc vận hành một cụm GPU 10.000 thẻ.
Mặc dù DeepSeek nổi bật sau thành công lan truyền trong dịp Tết Nguyên đán năm ngoái, công ty đã trải qua tình trạng thất thoát nhân tài đáng kể. Theo báo cáo của澎湃新闻, nhiều nhà nghiên cứu cốt lõi đã rời đi từ năm ngoái, chủ yếu là các nhà khoa học trẻ thuộc nhóm “sinh sau năm 95”:
Nghiên cứu viên Mô hình Đa phương thức: Ngày 12 tháng 4, công ty lái xe tự động YuanRong Autonomous Driving đã công khai xác nhận rằng Ruan Cong, một cộng tác viên cốt lõi cho mô hình đa phương thức của DeepSeek, đã gia nhập với vai trò Giám đốc Khoa học và sẽ xuất hiện công khai đầu tiên của mình tại Triển lãm Ô tô Bắc Kinh.
Tác giả LLM Thế hệ Đầu tiên: Wang Bingxuan, tác giả cốt lõi của mô hình ngôn ngữ lớn đầu tiên của DeepSeek, gần đây đã thông báo gia nhập Tencent.
Tác giả của Chuỗi OCR: Wei Haoran, tác giả cốt lõi của chuỗi DeepSeek-OCR, đã rời đi vào khoảng dịp Tết Nguyên đán năm nay nhưng chưa công khai tiết lộ công ty mới của mình.
Nghiên cứu viên Thuật toán GRPO: Ngày 16 tháng 4, cựu nhà nghiên cứu cốt lõi DeepSeek Guo Daya được cho là đã gia nhập ByteDance với mức lương được cho là hàng trăm triệu nhân dân tệ. Theo các tiết lộ liên quan, Guo Daya đã gia nhập tổ chức Seed của ByteDance phụ trách nghiên cứu và phát triển mô hình lớn, với vai trò là một trong các người dẫn dắt hướng (intelligent agent) ở cấp độ L8. Guo Daya được nhận diện là một đóng góp quan trọng cho thuật toán GRPO, thuật toán này là cốt lõi trong phương pháp huấn luyện suy luận của DeepSeek-R1. Cùng ngày, Phó chủ tịch Tập đoàn ByteDance Li Liang phản hồi rằng báo cáo là không chính xác và công ty gần đây không thuê nhân viên với mức lương hằng năm gần trăm triệu nhân dân tệ. Tuy nhiên, theo nhiều nguồn tin được澎湃新闻 xác nhận, Guo Daya thực sự đã gia nhập ByteDance.
Nghiên cứu viên Học sâu: Ngày 12 tháng 11, cựu nhà nghiên cứu cốt lõi DeepSeek Luo Fuli đã công khai thông báo gia nhập Xiaomi MiMo, nêu trong một bài đăng trên mạng xã hội: “Trí tuệ cuối cùng sẽ chuyển từ ngôn ngữ sang thế giới vật lý. Tôi đang ở Xiaomi MiMo, làm việc cùng một nhóm các nhà nghiên cứu sáng tạo, tài năng và thực sự đam mê để xây dựng tương lai này và theo đuổi AGI mà chúng ta hình dung.” Theo thông tin công khai, Luo Fuli tốt nghiệp chương trình Khoa học Máy tính của Đại học Sư phạm Bắc Kinh và hoàn thành bằng thạc sĩ về ngôn ngữ học tính toán tại Đại học Bắc Kinh. Sau bằng thạc sĩ, cô gia nhập Học viện DAMO của Alibaba với vai trò nghiên cứu viên phòng thí nghiệm trí tuệ máy phát triển mô hình tiền huấn luyện đa ngôn ngữ VECO và thúc đẩy công việc mã nguồn mở AliceMind. Năm 2022, Luo Fuli gia nhập Phantasm Quantitative (công ty mẹ của DeepSeek) để làm việc về học sâu, sau đó đảm nhiệm vai trò nhà nghiên cứu học sâu tại DeepSeek và tham gia nghiên cứu, phát triển các mô hình bao gồm DeepSeek-V2.
Dựa trên các thông tin nêu trên, DeepSeek đã trải qua tình trạng thất thoát nhân tài cốt lõi trên nhiều lĩnh vực, bao gồm mô hình ngôn ngữ lớn nền tảng (LLM), tác nhân thông minh (Agent), nhận dạng ký tự quang học (OCR) và công nghệ đa phương thức.
Theo các nguồn trong ngành, mức lương và đãi ngộ của DeepSeek thuộc nhóm tầm trung trong ngành, không phải cao nhất. Tuy nhiên, các công ty săn đầu người hiện đang tăng tốc việc “săn” nhân tài từ đội ngũ của DeepSeek với mức lương cao hơn 2–3 lần và các lựa chọn về cổ phần, qua đó thúc đẩy tình trạng thất thoát nhân sự.
Ngày 8 tháng 4, đã quan sát thấy các cập nhật giao diện mới trên DeepSeek: hộp nhập giờ hiển thị các tùy chọn “Quick Mode” và “Expert Mode”. Theo hiển thị trên trang web, Quick Mode phù hợp cho các cuộc trò chuyện hằng ngày với phản hồi tức thì và hỗ trợ nhận dạng văn bản từ hình ảnh và tệp, trong khi Expert Mode nổi bật ở các bài toán phức tạp. Điều này đánh dấu lần đầu DeepSeek giới thiệu các chế độ theo tầng trên trang web chính thức của mình.
Những cập nhật này đã khơi dậy suy đoán về việc DeepSeek ra mắt V4. Dựa trên các báo cáo từ truyền thông bên ngoài và thông tin từ mạng xã hội cũng như nhiều nguồn, DeepSeek dự kiến sẽ chính thức ra mắt V4 vào tháng 4. Theo kỳ vọng từ bên ngoài, nếu lần phát hành V4 này nhằm tái hiện hiện tượng trong dịp Tết Nguyên đán năm ngoái, thì chắc chắn sẽ phải đối mặt với nhiều thách thức hơn, và tình trạng thất thoát nhân sự chắc chắn sẽ ảnh hưởng đến việc phát hành V4.