보도 자료

인공지능 전문가들이 강력한 기술을 난처하게 만들기 위해 ‘인류의 마지막 시험’을 준비했습니다.

Lucia Stazio9월 16, 2024

8 2 minutes read

Read Time:2 Minute, 3 Second

기술 전문가 팀은 월요일에 인공지능 시스템에 던질 수 있는 가장 어려운 질문을 요구하는 글로벌 콜을 발표했습니다. 인공지능 시스템은 점차 인기 있는 벤치마크 테스트를 어린아이 장난처럼 다루고 있습니다.

“인류의 마지막 시험”이라는 이름의 이 프로젝트는 전문가 수준의 AI가 언제 도래했는지 알아내는 것을 목표로 합니다. 주최자, 비영리 단체인 Center for AI Safety(CAIS)와 스타트업 Scale AI에 따르면, 이 프로젝트는 향후 몇 년 동안 역량이 발전하더라도 관련성을 유지하는 것을 목표로 합니다.

이 호출은 ChatGPT 제작자가 OpenAI o1이라는 새로운 모델을 미리 보여준 지 며칠 후에 나왔는데, CAIS의 전무 이사이자 Elon Musk의 xAI 스타트업 고문인 Dan Hendrycks는 이 모델이 “가장 인기 있는 추론 벤치마크를 파괴했다”고 말했습니다.

헨드릭스는 현재 널리 사용되는 AI 시스템 테스트를 제안한 2021년 논문 두 편을 공동 집필했는데, 하나는 미국 역사와 같은 주제에 대한 학부 수준의 지식에 대해 퀴즈를 내고, 다른 하나는 경쟁 수준의 수학을 통해 추론하는 모델의 능력을 조사하는 것입니다. 학부 스타일 테스트는 온라인 AI 허브인 Hugging Face에서 이러한 데이터 세트보다 더 많이 다운로드되었습니다.

그 논문이 발표될 당시, AI는 시험 문제에 거의 무작위로 답을 하고 있었습니다. “그들은 이제 무너졌어요.” 헨드릭스가 로이터에 말했습니다.

한 예로, 유명한 역량 리더보드에 따르면, AI 연구실 Anthropic의 Claude 모델은 2023년 학부 수준 시험에서 약 77%를 기록했지만, 1년 후에는 거의 89%를 기록했습니다.

결과적으로 이러한 일반적인 벤치마크는 덜 의미가 있게 됩니다.

스탠포드 대학의 4월 AI 지수 보고서에 따르면 AI는 계획 수립 및 시각적 패턴 인식 퍼즐과 관련된 덜 사용되는 테스트에서 낮은 점수를 받은 것으로 나타났습니다. 예를 들어 OpenAI o1은 패턴 인식 ARC-AGI 테스트의 한 버전에서 약 21%를 받았다고 ARC 주최측은 금요일에 밝혔습니다.

일부 AI 연구자들은 이와 같은 결과가 계획과 추상적 추론이 지능을 측정하는 더 나은 방법임을 보여준다고 주장하지만, 헨드릭스는 ARC의 시각적 측면 때문에 언어 모델을 평가하는 데 적합하지 않다고 말했습니다. 그는 “인류의 마지막 시험”에는 추상적 추론이 필요할 것이라고 말했습니다.

업계 관찰자들은 일반적인 벤치마크의 답변도 AI 시스템을 훈련하는 데 사용되는 데이터에 포함되었을 수 있다고 말했습니다. Hendrycks는 AI 시스템의 답변이 암기에서 나온 것이 아닌지 확인하기 위해 “인류의 마지막 시험”에 대한 일부 질문은 비공개로 유지될 것이라고 말했습니다.

시험에는 11월 1일까지 제출해야 하는 최소 1,000개의 크라우드 소싱 문제가 포함되며, 비전문가가 답하기 어렵습니다. 이러한 문제는 동료 평가를 거치며, 수상자에게는 공동 저작권과 Scale AI가 후원하는 최대 5,000달러의 상금이 제공됩니다.

Scale의 CEO인 Alexandr Wang은 “우리는 AI의 급속한 진전을 측정하기 위해 전문가 수준 모델에 대한 더 엄격한 테스트가 절실히 필요합니다.”라고 말했습니다.

한 가지 제한 사항은 주최측이 무기에 대한 질문을 원하지 않는다는 것입니다. 일부에서는 AI가 연구하기에는 무기가 너무 위험하다고 말하기도 합니다.

(이것은 신디케이트된 뉴스피드에서 편집되지 않은 자동 생성된 기사입니다. 파이에듀뉴스 직원이 콘텐츠 텍스트를 변경하거나 편집하지 않았을 수 있습니다.)